爱奇艺多模态视频人物识别挑战赛项目总结

文章目录

  • 一:任务目标
  • 二:主要思路
  • 三:实验细节
    • 3.1数据集介绍
    • 3.2人脸提取与去噪
    • 3.3网络结构
      • Deep Residual Learning for Image Recognition(CVPR 2016最佳论文)
      • ArcFace:Additive Angular Margain Loss for Deep Face Recogniton(CVPR 2018)
  • 四:实验结果

一:任务目标

爱奇艺联合中国模式识别与计算机视觉大会(PRCV2018)共同举办“多模态视频人物识别挑战赛”。爱奇艺将面向参赛者开放目前全球最大的明星视频数据集(iQIYI-VID),参赛者使用提供的数据集,本地调试模型,然后使用训练好的人物识别模型,预测视频测试集中出现的人物身份,比赛采用MAP@100作为评价标准

二:主要思路

使用MTCNN网络对每个视频逐帧进行抽取人脸抽取与校正,并对抽取的人脸图片进行筛选与去噪工作,将清理好的图片根据比赛提供的label文件放入到以ID命名的文件夹下,将整理好的图片放入网络进行训练模型,最后根据调试好的模型进行预测测试视频每帧图像的ID,使用投票法判断视频属于哪个人物ID。

三:实验细节

3.1数据集介绍

4934个人物
视频片段总数565372条, 其中训练集219677,验证集172860,测试集172,835
源视频文件大小训练集125G,测试集167G
爱奇艺多模态视频人物识别挑战赛项目总结_第1张图片

3.2人脸提取与去噪

下图是我们对其中part1数据集做的一个分析,可以发现人脸数量服从从未分布,人脸数量很少的视频也是存在的
爱奇艺多模态视频人物识别挑战赛项目总结_第2张图片
所以我们做了如下操作
第一次操作:将训练集视频,每5帧抽取图像,MTCNN阈值设置为了0.8,0.95,0.98。
第一次操作后,结果发现,有559个ID下的图像不足100。
第二次操作:删除了上述的559个ID,从训练集视频中,重新抽取(由于这些ID视频数量较少,因此耗费时间很少)。每两帧抽取,MTCNN阈值设置为了0.8,0.9,0.95。第二次操作后,结果发现,仍有267个ID下的图像不足100。
第三次操作:删除上述的267个ID,设置为不隔帧抽取,其余如第二次操作。
目的:去除噪声,提供均衡数据。

3.3网络结构

对于网络结构的构建,我们小组查阅了一下两篇论文:

Deep Residual Learning for Image Recognition(CVPR 2016最佳论文)

ArcFace:Additive Angular Margain Loss for Deep Face Recogniton(CVPR 2018)

Deep Residual Learning for Image Recognition
1.提出问题:之前文章谈到GoogLeNet和VGG,人们开始认为增加网络的层数,即让网络变深似乎能进一步提高分类任务的准确性。于是,微软研究院的何凯明团队提出了这样一个问题:学些更好的网络是否像堆叠更多的层一样容易?当更深的网络能够开始收敛时,暴露了一个退化问题:随着网络深度的增加,准确率达到饱和(这可能并不奇怪)然后迅速下降。意外的是,这种下降不是由过拟合引起的,并且在适当的深度模型上添加更多的层会导致更高的训练误差,正如[10, 41]中报告的那样
爱奇艺多模态视频人物识别挑战赛项目总结_第3张图片
图1 20层和56层的“简单”网络在CIFAR-10上的训练误差(左)和测试误差(右)。更深的网络有更高的训练误差和测试误差。
2.提出残差网络idea
爱奇艺多模态视频人物识别挑战赛项目总结_第4张图片
他为什么有效:比如说有一种解释是通过跨层(skip-layer)可以把loss反传到中间的很多层,解决了梯度传播的问题。另一种解释认为ResNet通过skip-layer,可以做到深度方面的多模型融合。
3.取得的成就
他为什么有效:比如说有一种解释是通过跨层(skip-layer)可以把loss反传到中间的很多层,解决了梯度传播的问题。另一种解释认为ResNet通过skip-layer,可以做到深度方面的多模型融合。

ArcFace:Additive Angular Margain Loss for Deep Face Recogniton(CVPR 2018)

目前深度卷积神经网络在人脸识别任务上取得了很好的效果,不同的神经网络主要在训练数据集、网络设置和损失函数三种属性有所区别,
文章据此做了相关改进,并主要有以下四个贡献
1.清洗了最大人脸公共训练数据集(MS1M)和测试数据集(MegaFace)
2.探索不同网络设置,并分析精度与速度之间的关系
3.提出了一种几何可解释的损失函数ArcFace,并优于softmax,SphereFace和CosineFace
4.在MegaFace人脸数据集上取得了最先进的表现
1.从softmax到arcFace
爱奇艺多模态视频人物识别挑战赛项目总结_第5张图片
在这里插入图片描述
令偏置b为0,然后权重和输入的内积用上面式子表示,用L2正则化处理Wj使得||Wj||=1,L2正则化就是将Wj向量中的每个值都分别除以Wj的模,从而得到新的Wj,新的Wj的模就是1。
爱奇艺多模态视频人物识别挑战赛项目总结_第6张图片
然后一方面对输入xi也用L2正则化处理,同时再乘以一个scale参数s;另一方面将cos(θyi)用cos(θyi+m),
爱奇艺多模态视频人物识别挑战赛项目总结_第7张图片
2.使用二分类进行损失函数的几何解释
这是决策边界函数
爱奇艺多模态视频人物识别挑战赛项目总结_第8张图片
这是决策边界图像
爱奇艺多模态视频人物识别挑战赛项目总结_第9张图片
在ArchFace中是直接在角度空间(angular space,也就是横纵坐标是角度θ1和θ2,不是softmax或CosineFace中的cosθ1和cosθ2)中最大化分类界限。
3.实验证明arcface损失函数缺失表现很好
爱奇艺多模态视频人物识别挑战赛项目总结_第10张图片
最后我们使用Mxnet框架,使用ResNet作为基础网络结构,ArcFace作为损失函数。在四块Tesla k40显卡进行训练网络
训练时,我们通过设置不同参数(如ArcFace的m值)来进行优化网络
预测时,我们采用两种方式,
一种是通过直接通过训练好的网络的具有4934个节点的全连接层传入softmax进行预测
一种是抽取网络中提取的人脸512维特征使用聚类算法聚出4934个类中心进行预测

四:实验结果

我们对训练的模型进行了提交,其中最好的模型,我们排33名(总共397只队伍参加)
在这里插入图片描述

你可能感兴趣的:(项目总结)