欢迎大家来到《知识星球》专栏,这里是网络结构1000变和数据集小专题。
作者&编辑 | 言有三
1 视频分类问题
基于深度学习的视频分类包含非常多的方法,如3D卷积,双流法,LSTM时序模型等,在有三AI知识星球中有非常多的相关模型解读,案例如下:
有三AI知识星球-网络结构1000变
LiteFlowNet
FlowNet以及FlowNet2证明了CNN可以用于光流估计,尤其是FlowNet2已经达到了传统变分法的精度,但是模型超过100M,SPyNet虽然只有1.2M但是精度不够。LiteFlowNet是一个兼顾精度和模型大小,速度优势的轻量级模型,大小只有FlowNet2的30分之一,速度是它的1.36倍。
作者/编辑 言有三
如上图所示,LiteFlowNet由两个紧凑的子网络NetC和NetE组成,分别用于金字塔特征提取和光流估计,与同样采用金字塔结构的SPyNet相比,这种策略将特征提取和光流估计分为两个步骤,方便更好地控制模型性能。
NETC为一个两输入的网络,两个网络共享滤波器权重。注意这里的warp操作使用的是特征warp,而不是在FlowNet中使用的图片warp。
其一,在FLowNet中会将image2和光流进行warping操作,然后对其提取特征,这里就将其合并为一个操作,直接在特征层面完成,这样精度反而更高,计算代价也更低。
其二,NetE也是一种级联形式的方法,这样的金字塔式的结构学习光流的过程更加稳定,也逐步降低学习误差。
该学习包括两个步骤,分别是M和S。
M过程即descriptor matching,输入上一级的光流估计和特征F2,F1,估计残差。
S过程即sub-pixel refinement,是在M过程的基础上进一步提高精度。
其三,对光流估计每一层都做了正则化约束,其实就是一个平滑操作使得光流的边界更加平滑。
整个网络非常的复杂,细节也很多,感兴趣的同学需要去细读原文。以上三个技术的实际效果展示如下,可知道对改善效果都是正向的作用。
在数据集上完整的实验结果如下,兼顾性能和精度优势。
[1] Hui T W, Tang X, Change Loy C. Liteflownet: A lightweight convolutional neural network for optical flow estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8981-8989.
另外也有非常多的数据集提供解读和下载。
有三AI知识星球-数据集
Kinetics-700 dataset
Kinetics-700 dataset是一个视频分类/行为识别数据集,被用于ActivityNet比赛,包含约650000个视频,700个类别。
作者/编辑 言有三
数据集地址:https://deepmind.com/research/open-source/open-source-datasets/kinetics/,发布于2019年。
ActivityNet比赛始于2016的CVPR,是与ImageNet齐名的在视频理解方面最重要的比赛。在这个比赛下的Task A–Trimmed Action Recognition比赛是一个视频分类比赛,2019年的比赛使用kinetics-700数据集,在此之前还有2017年的kinetics-400和2018年的kinetics-600。
数据集是Google的deepmind团队提供,每个类别至少600个视频以上,每段视频持续10秒左右,标注一个唯一的类别。
行为主要分为三大类:
(1) 人与物互动,比如演奏乐器;
(2) 人人互动,比如握手、拥抱;
(3) 运动等。
虽然每一个视频只会标记一个标签,但是它可以包含几种动作。例如开车”时“发短信”,“弹奏尤克里里”时“跳草裙舞”等,因此取top-5的准确率更为合适。另外很多的运动也容易混淆,比如跳远和三级跳远,吃汉堡和吃甜甜圈,因此这个数据集具有非常高的难度,仍然是当前算法的评测基准。
一些类别的展示如下:
[1] Kay W, Carreira J, Simonyan K, et al. The kinetics human action video dataset[J]. arXiv preprint arXiv:1705.06950, 2017.
2 如何掌握网络设计和数据使用
关于如何系统性学习网络结构设计和数据使用,可以阅读我们对星球生态的介绍,有三风格的干货,相信你不会失望。
如何系统性掌握深度学习模型设计和优化
如何系统性掌握深度学习中的数据使用
有三AI知识星球的内容非常多,大家可以预览一些内容如下。
以上所有内容
加入有三AI知识星球即可获取
来日方长
点击加入
不见不散
更多精彩
每日更新
转载文章请后台联系
侵权必究
往期精选
揭秘7大AI学习板块,这个星球推荐你拥有
有三AI 1000问回归,备战秋招,更多,更快,更好,等你来战!
【知识星球】做作业还能赢奖金,传统图像/机器学习/深度学习尽在不言
【知识星球】颜值,自拍,美学三大任务简介和数据集下载
【知识星球】数据集板块重磅发布,海量数据集介绍与下载
【知识星球】猫猫狗狗与深度学习那些事儿
【知识星球】超3万字的网络结构解读,学习必备
【知识星球】视频分类/行为识别网络和数据集上新
【知识星球】3D网络结构解读系列上新
【知识星球】动态推理网络结构上新,不是所有的网络都是不变的
【知识星球】Attention网络结构上新,聚焦才能赢
【知识星球】几个人像分割数据集简介和下载
【知识星球】总有些骨骼轻奇,姿态妖娆的模型结构设计,不知道你知不知道,反正我知道一些
【知识星球】从SVM对偶问题,到疲劳驾驶检测,到实用工业级别的模型压缩技
【知识星球】图像降噪模型和数据集内容开启更新,经典问题永垂不朽!