论文阅读 HighlightMe: Detecting Highlights from Human-Centric Videos

摘要:

我们提出了一种与领域和用户偏好无关的方法来检测以人为中心的视频中的精彩片段摘录。我们的方法适用于视频中多种可观察到的以人为中心的模态的基于图形的表示,例如姿势和面部。我们使用配备时空图卷积的自动编码器网络来检测基于这些模式的人类活动和交互。我们根据帧的代表性训练网络,将不同模态的基于活动和交互的潜在结构表示映射到每帧的突出得分。我们使用这些分数来计算要突出显示哪些帧并缝合连续帧以生成摘录。我们在大规模 AVA-Kinetics 动作数据集上训练我们的网络,并在四个基准视频集锦数据集上对其进行评估:DSH、TVSum、PHD2 和 SumMe。我们观察到,与这些数据集中最先进的方法相比,匹配人工注释的精彩片段的平均精度提高了 4-12%,而无需任何用户提供的首选项或特定于数据集的微调。

引言:

以人为中心的视频关注人类活动、任务和情感 。来自多个领域(例如业余体育和表演、讲座、教程、视频博客 (vlog) 以及个人或团体活动,例如野餐和户外活动、假期旅行)的视频构成了快速增长的在线媒体数量的主要部分

然而,未经编辑的以人为中心的视频也往往包含大量不相关和不感兴趣的内容,需要对其进行编辑以实现高效浏览。

为了解决这个问题,研究人员开发了多种技术来检测精彩镜头的摘录和总结视频 。给定未经编辑的镜头,高光检测会获取感兴趣的时刻,而摘要会计算最相关和最具代表性的摘录集。检测有效的高光不仅可以加快浏览速度,还可以提高这些精彩镜头被共享和推荐的机会。当前的方法可以学习在给定带注释的高光或不同高光类别的示例集的情况下检测这些摘录,例如,从滑雪图像中学习以检测视频中的滑雪摘录 。其他方法通过学习每个帧或镜头相对于原始视频的代表性并利用视频元数据(例如持续时间和镜头的相关性)来消除监督学习。所有这些方法都假设或受益于未编辑镜头的某些特定领域知识,例如,跑步和跳跃可

你可能感兴趣的:(论文阅读)