如何光明正大地学习KISS当然是用这个DL接吻检测器了

来源:TVB影视大全人气:172更新:2023-01-17 13:30:47

诶,想什么呢?这些只是接吻的视频而已。这些接吻视频片段来自 100 部电影,看完这些,你可能就学会了十八式或者一百零八式接吻姿势了?

本科毕业于有「伊朗麻省理工」之称的谢里夫理工大学,念的是机械工程;然后在加拿大名校西蒙弗雷泽大学读了硕士学位,接着又在 UC Berkeley 拿到了数据科学的硕士学位,然后是佐治亚理工大学的计算机科学、机器学习硕士学位。最后,这两年在斯坦福进修 AI。

貌似跑题了,重点是他做的项目:深度学习电影镜头接吻检测器。一看就好有内涵哦……

这个系统到底是干嘛用的?

激动人心接吻检测器

调用代码的方式如下:

提取本地 mp4 文件中的接吻镜头:

从 Youtube 网站的视频获取接吻镜头:

代码可以在 Github 的 examples 文件夹中找到。

这个检测系统是怎么做的?

这个系统输入的是单个视频(电影),输出的是视频中检测到的一个或多个不重叠的接吻片段。比如说一部 60 分钟的电影 M 中有两个时长为 1 分钟的接吻场景,分别在第 5 分钟和第 55 分钟时出现。这时系统应该输出 K1 和 K2,其中 K1 表示第一个接吻片段,K2 表示第二个接吻片段。

首先,二元分类模型获取连续且不重叠的 1 秒钟视频片段,然后为每个片段预测一个二进制标签(即该片段是否为接吻片段)。接着,聚合算法把对这些片段的预测聚集到一组接吻场景中。图 1 描述了这个过程,如下所示:

二元分类模型

二元分类模型由两个架构组成:一个 18 层的 ResNet CNN 和一种类似 VGG 的架构 VGGish。如下图所示:

而 VGGish 对 1 秒钟视频片段最后 960 毫秒的音频波进行转换。这种转换是以单通道 96x64 张量的方式完成的。VGGish 是一种卷积网络,它有效地将转换后的音频视为图像,并生成语义上有意义的 128 维嵌入。

聚合算法

聚合算法结合了来自二元分类器的预测标签列表 P,并生成了一组接吻片段。例如,有一部 60 分钟的电影中包含一个两分钟长的接吻场景,从第 30 分钟开始。

算法 1 详细描述了聚合算法的逻辑:

数据集来自哪里?

这个接吻镜头检测系统好用吗?

最新资讯


Copyright © 2010-2022