【CVPR2020】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding

一、CVPR2020的满分oral文章。

二、作者:港中文的林达华团队

三、提出了一个细粒度的用于视频理解任务的数据集。具体的话就是行为识别等,具体的论文讲解的话原作者已经再知乎贴出来了:

https://zhuanlan.zhihu.com/p/130720627

四、大概浏览了一下主要通过这篇文章自己的收获如下:

  1. 对粗粒度和细粒度的认识:
    视频数据集中的细粒度:在图片中的粗粒度是比如区分猫和狗,细粒度就是区分狗是哪种狗;到视频的动作中的话,具体而言就是更加细化的动作类别。

  2. 自己主要关注的就是这篇文章最后分析中讨论的几个问题以及挖的坑:

(1)稀疏采样和密集采样:对于之前的方法,比如TSN在诸如UCF101数据集上,连续帧之间的信息是冗余的,所以稀疏采样就可以达到很好的效果,但是对于这种新的细粒度的数据集,每帧都有用,增加采样密度对识别的准确率有较大的贡献,原文说:帧帧有用,帧多势众那么如何利用好每一帧就是个大问题,这里的工作可以这么考虑:a)密集采样,但是想办法降低参数量,b)稀疏采样,但要能达到密集采样的表现,c)稀疏采样,不仅能达到密集采样的效能,还能超越,d)密集采样,但是参数量极低,比系数采样的都低,同时能保证性能,这四个点每一项做出些工作都可以是一篇论文了。
(2)时域信息的重要性:这是一个讨论了很久的主题,如何对视频中信息进行时序建模时非常重要的:这里分别用TRN和TSM来对时序信息的重要性进行了说明,比如TSM当用3frame进行训练但是,测试用五帧的时候效果还好,但是当测试的帧数再增加的时候,效果明显下将,说明模型学习的时序建模能力也就被卡在了三五帧的样子;
(3)在Kinetic上与训练的参与在新数据集上的作用也不大,说明之前的数据集都是比较粗粒度且依赖场景的,这个数据集更加关注动作本身

  1. 值得思考的问题:

(1)怎么解决密集、快速的运动? ------用今年TPN提到的feature level的SlowFast方案可行吗?
(2)在空间语义上接近的比较细微的差别该如何解决?

(3)比较复杂的时域动态线索,
(4)基本的推理能力
(5)新数据集下的:提升采样率但保证运行效率?更高效的时序建模能力?更关注动作本身的数据集上空间信息还重要吗?有多重要?或者怎么让其起到更有效的作用?

这些都值得思考。
要是有人能和我讨论商量就好了,唉~

你可能感兴趣的:(数据集相关)