【视频中的关键帧提取】Deep Keyframe Detection in Human Action Videos

Deep Keyframe Detection in Human Action Videos

2018年发表,conclusion说是第一篇行为识别中用深度学校方法提取关键帧的文章。

这篇的做法使用UCF101数据集在没有关键帧标注下完成,使用LDA做标注,再用双流卷积网络去拟合LDA。

【视频中的关键帧提取】Deep Keyframe Detection in Human Action Videos_第1张图片

用LDA生成标注:每一类视频双流VGG16提取特征拼接在一起,经过LDA,用1类对其他所有类的方式生成LDA矩阵,经过下面这个公式,得到帧级别的标注分数。

F i,m 表示第m个视频,i个帧的特征,W A表示A类的LDA矩阵,得到的f i,m表示这一帧的关键性分数。思想可以表达为,如果特征与属于同一类别的特征非常相似,并且与其他类别的特征不同,那么它们就属于动作的关键部分,LDA增加类间方差,减小类内方差,正好可以代表,和TF-IDF思想一致。

有了f i,m做label之后,用卷积网络拟合

【视频中的关键帧提取】Deep Keyframe Detection in Human Action Videos_第2张图片

VGG-16从fc7连在一起,经过fc8,由于最后是一个回归任务,所以加一个regression layer而不是softmax。

【视频中的关键帧提取】Deep Keyframe Detection in Human Action Videos_第3张图片

紫色点,局部极大值被标为key frame。

关于评价方法,文章中说还没有固定的评价方法和基线,所以设计了关键帧数和关键帧时间差两个指数来进行评价,没有验证用于行为识别是否有提高。

启发:这篇文章在只有类别标注的条件下用LDA区分关键帧,思路很有说服力,也可以辅助把行为二次划分为一些动作,例如跳高从关键帧可以分助跑、起跳、过杆等。

参考:https://zhuanlan.zhihu.com/p/38289781

你可能感兴趣的:(论文别白读)