如何光明正大地学习KISS当然是用这个DL接吻检测器了

来源：TVB影视大全人气：172更新：2023-01-17 13:30:47

诶，想什么呢？这些只是接吻的视频而已。这些接吻视频片段来自 100 部电影，看完这些，你可能就学会了十八式或者一百零八式接吻姿势了？

本科毕业于有「伊朗麻省理工」之称的谢里夫理工大学，念的是机械工程；然后在加拿大名校西蒙弗雷泽大学读了硕士学位，接着又在 UC Berkeley 拿到了数据科学的硕士学位，然后是佐治亚理工大学的计算机科学、机器学习硕士学位。最后，这两年在斯坦福进修 AI。

貌似跑题了，重点是他做的项目：深度学习电影镜头接吻检测器。一看就好有内涵哦……

这个系统到底是干嘛用的？

激动人心接吻检测器

调用代码的方式如下：

提取本地 mp4 文件中的接吻镜头：

从 Youtube 网站的视频获取接吻镜头：

代码可以在 Github 的 examples 文件夹中找到。

这个检测系统是怎么做的？

这个系统输入的是单个视频（电影），输出的是视频中检测到的一个或多个不重叠的接吻片段。比如说一部 60 分钟的电影 M 中有两个时长为 1 分钟的接吻场景，分别在第 5 分钟和第 55 分钟时出现。这时系统应该输出 K1 和 K2，其中 K1 表示第一个接吻片段，K2 表示第二个接吻片段。

首先，二元分类模型获取连续且不重叠的 1 秒钟视频片段，然后为每个片段预测一个二进制标签（即该片段是否为接吻片段）。接着，聚合算法把对这些片段的预测聚集到一组接吻场景中。图 1 描述了这个过程，如下所示：

二元分类模型

二元分类模型由两个架构组成：一个 18 层的 ResNet CNN 和一种类似 VGG 的架构 VGGish。如下图所示：

而 VGGish 对 1 秒钟视频片段最后 960 毫秒的音频波进行转换。这种转换是以单通道 96x64 张量的方式完成的。VGGish 是一种卷积网络，它有效地将转换后的音频视为图像，并生成语义上有意义的 128 维嵌入。

聚合算法

聚合算法结合了来自二元分类器的预测标签列表 P，并生成了一组接吻片段。例如，有一部 60 分钟的电影中包含一个两分钟长的接吻场景，从第 30 分钟开始。

算法 1 详细描述了聚合算法的逻辑：

数据集来自哪里？

这个接吻镜头检测系统好用吗？