学习心得

学习心得

1.研究相关的顶会

1.世界公认的计算机视觉三大会议CVPR,ICCV,ECCV

​ 次于上述会议的还有ICIP(International Conference on Image Processing), ICPR(International Conference on Pattern Recognition), ACCV(Asia Conference on Computer Vision)

2.Ml(Machine Learning)顶会

​ ICML,NIPS(Neural Information Processing Systems)

3.人工智能顶会

​ AAAI(American) Association for Artificial Intelligence

​ IJCAI(International Joint Conference on AI)

​ NIPS

​ ICML.

2.今年CVPR的小分析

先介绍一下CVPR2018的一些数据:

  1. 今年一共收到3309篇文章,其中979篇被录用。投录比约为29.5%。
  2. 收录论文按专家评分,分为三个层次:Poster, Spotlight, Oral。
  3. Spotlight(亮点论文)一共有224篇,占收录论文(224/979)的22.88%。
  4. Oral(演示论文)一共有70篇,占收录论文(70/979)的7.1%。
    学习心得_第1张图片

​ 论文含金量:best paper (2篇) > honorable mention(提名奖 4篇) > Oral (70篇) > Spotlight(224篇) > poster(其他)

​ 今年的best paper 来自UCB和Stan Taskonomy : Disentangling Task Transfer Learning

​ best student paper来自CMU的 Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies

​ 从上面的两篇BEST paper就可以看出来,至少在CV (computer vision)界,要想发到顶会,平台很重要,所以不能好高骛远,如果把目标定的太高,会影响自己的学术进程。这两篇best paper一个讲迁移学习,一个讲人体的3D模型(姑且这么肤浅的说吧),这在我眼里看来都是一个很大的topic,想要读懂它们绝非易事,这时我想起尚老师和我谈的话,觉得第一步看中文的博士论文是多么明智的选择。

3.选择了一篇USTC的博士论文

​ 我听从老师的建议,从论文作者所在的机构和作者的个人能力来挑选看论文。

​ 最终选择了一篇中科大(USTC)的2018年的博士论文,题目为《基于视频的人类行为识别方法研究》,作者–刘志康,导师–王子磊副教授。

在这里插入图片描述

​ 其获得奖项如下:

  • 两篇顶会,一篇ACCV,一篇ICIP

  • 一篇SCI二区论文

    参加的工程项目:

  • 2014中科院自动化所项目,“MaPU模式识别函数库的研发”。

  • 2015-2017 国家自然科学基金上项目,“基于多元图像信息的物体精细识别研究”。

4.获得的启发和收获

看论文的顺序是先看总结与展望,再略看附录的参考文献,参考文献越多,参考的论文质量约好,说明这个论文可信度越高。

4.1 视频数据处理的难点
  1. 人类行为多种多样视频拍摄环境千变万化,根据经验人工设计的行为特征,往往只适用于某些特定的情况,并且过度依赖于时空兴趣点探测点。
  2. 池袋(BOVW)等行为表示方法忽略了视觉单词之间的相关性和局部行为特征时空位置分布信息的问题。
  3. 传统的行为分类器通常平等地对待每一个视频帧,然而人类行为中最有区分度的动作片段往往稀疏地分布于整个视频序列,其他视频帧无关紧要甚至完全无关。简单地说就是有很多冗余的信息影响了判断。
  4. 在实际应用中,对未分割的长视频中对人类行为进行检测,传统的行为检测方法通常使用基于多阶段的算法框架,即在提名阶段产生高召回率的候选时间窗口,然后,在分类阶段对候选时间窗口进行行为分类。它的缺点是不能协调和联合调优、存在重复计算导致效率低下行为定位不够精细等问题。
4.2 后续工作的入手点
  1. 未来可以在深度学习框架中结合无监督自主学习方法,减少对样本的依赖,达到更好的泛华效果。个人觉得说的太宽了,而且难度也大
  2. 人类行为本质需要持续较长时间的观察才能正确识别,列如在“三级跳”中,短的视频片段只能识别出“跑”和“跳”,将行为空间表示升级为行为时空表示,个人理解增加持续时间的动作关联,能够识别“三级跳”而不是某个简单的动作可以具体实施的改进点。
  3. 学者提出的基于注意力机制的行为模型绝大部分是基于递归神经网络(RNN),RNN不能在每一个时间步上并行计算,这导致模型运行效率低。作者提出可以改用卷积神经网络。
  4. 待优化的卷积形式和网络形式。说的太宽了,而且难度也大
4.3 参考文献里面给我带来有价值的东西
  1. 几个重点CV实验室比如斯坦福的,上交的,最后我找到一篇整理各类CV实验室以及牛人的博客

    https://blog.csdn.net/carson2005/article/details/6601109

  2. 作者的导师王子磊副教授的主页里面Journals也有各类期刊阅读材料的便捷入口,主要就和计算机,控制,图像,网络有关的。http://staff.ustc.edu.cn/~zlwang/

    在这里插入图片描述

4.4 研究的意义
  1. 可以应用在自动驾驶,可以基于视频对车内驾驶员的行为进行识别和对车外行为的进行识别。
  2. 人机交互
  3. 智能安防监控(之前参观智能所,石光明老师团队有做异常行为检测的)
  4. 智能家居监护
  5. 视频标注(视频数据量呈指数式增加,拍摄的视频绝大多数与人类的行为有关)我对这方面有兴趣
4.5 相关概念
  1. 人类行为可分为如下四个方面:

      • 肢体行为(gestures)

        是人类肢体的分部运动,是人类活动的基础环节,包括抬头、踢腿、转腰、挥手、

      • 单人行为(actions)

        包含多个肢体运动,例如跑步、走步、跳跃

      • 多方交互(interactions) 论文原文绪论第四页多方交互采用单词interections,至少经过柯林斯词典没有发现interections这个词,更加奇怪的是第五页的配图图1.2中文字部分为interactions

        两个或者更多人之间或者人与物体之间的相关活动,如:人提着购物袋、一个人从另一个口袋里偷窃了钱包

      • 团体事件(group activities)

        是由多个个体组成的群体执行的活动,如一群士兵在行军,一群人在抗议

      根据该博士论文引用的A survey on activity recognition and behavior understanding
      in video surveillance中确实为interactions,证明该博士论文在此处出现错误。

    学习心得_第2张图片

  2. 个体行为识别领域

    • 行为识别(action recognition)

      行为之别问题的目标是在指定的行为类别中,使用识别模型学习出不同类别的视频之间有区分度的特征并优化模型参数。最后用学好的模型对视频进行分类。

      三部分:特征提取,行为表示,行为分类

      **采用的方法:**传统的行为识别技术和基于深度学习的行为识别技术。

      根据自己的兴趣,下面着重说下基于深度学习的行为识别技术

      基于深度学习的行为识别技术相较于传统的行为识别技术,通用性较好。

      学术界发展的脉络大致是:3D CNN --> Two-stream CNN --> LSTM对提取的特征在时间序列上建模 --> Temporal Segment Network

    • 行为检测(temporal action detection)

      是在未分割的连续的长视频中检测出视频中包含的每个行为实例的类别并准确定位出的每个行为实例发生的时间。

      三部分:特征提取,备选提名,行为分类

      长视频中的行为检测比短视频中的行为识别,商业价值更高,应用前景更广,难度更大(需要处理的数据量更加巨大,行为之间没有明显的边界指示、不同行为在时间跨度差异很大等)

      主流长视频处理的方法可以分为两类

      长视频处理的方法

    4.6 行为识别数据库(本文介绍到的)
    1. Weizmann数据库(2005)

      2005年提出。此数据库一共包括90段视频,这些视频分别是由9个人执行了10个不同的动作(bend, jack, jump, pjump, run, side, skip, walk, wave1,wave2)。视频的背景,视角以及摄像头都是静止的。而且该数据库提供标注好的前景轮廓视频。不过此数据库的正确率已经达到100%了。说明没必要做了

      学习心得_第3张图片
      学习心得_第4张图片

    2. KTH数据库(2004)

      该数据库包括6类行为(walking, jogging, running, boxing, hand waving, hand clapping),

    ​ 是由25个不同的人执行的,分别在四个场景下,一共有599段视频。背景相对静止,除了镜头

    ​ 的拉近拉远,摄像机的运动比较轻微。这个数据库是现在的benchmark,正确率需要达到

    ​ 95.5%以 上才能够发文章。学习心得_第5张图片

    ​ 网盘链接: http://pan.baidu.com/s/1hsuQktA 密码: rfr7

    1. UIUC数据库(2008)

      现在也已经做到98%,不建议做了。网站给的paperHuman Activity Recognition with Metric Learning,

      学习心得_第6张图片

    2. UCF Sports数据库

      google给出的数据库地址上不去。

      不过还是找到了资源https://pan.baidu.com/share/init?surl=caOZGM,提取码:elns

    3. Hollywood2数据库(2008,2009)

      Hollywood(2008年发布)、Hollywood-2数据库是由法国IRISA研究院发布的。早先发布的数据库基本上都是在受控的环境下拍摄的,所拍摄视频样本有限。2009年发布的Hollywood-2是Hollywood数据库的拓展版,包含了 12 个动作类别和 10个场景共3669个样本,所有样本均是从69部 Hollywood 电影中抽取出来的。视频样本中行为人的表情、姿态、穿着,以及相机运动、光照变化、遮挡、背景等变化很大,接近于真实场景下的情况,因而对于行为的分析识别极具挑战性。

    1. YouTube数据库(没有具体指明)

      根据我的搜索结果有如下和YouTube有关的:

      • YouTube-8M

      • 学习心得_第7张图片

      • UCF YouTube Action dataset ( UCF11 )

        该数据集是一个人类动作视频数据集,包括11个动作类:篮球投篮、自行车/自行车、潜水、高尔夫挥杆,骑马,足球杂耍、荡秋千、网球荡秋千、蹦床上跳来跳去,排球扣球,和狗散步。内容更加接近与现实世界的视频识别条件:摄像机抖动,物体的外观和姿势,对象规模尺度,复杂的背景场景,照明条件等。视频被分为25组,其中有超过4个动作片段。同一组中的视频片段具有相同的特征,如相同的演员、相似的背景、相似的视角等。

        网盘:https://pan.baidu.com/s/1qYsDwK0#list/path=%2F 提取码:sqqa

      • 根据作者引用的论文介绍,应该指的是自己下载的。

    2. UCF101 数据库(官网貌似上不去)

      该数据库是一个人类动作视频数据,从YouTube上剪辑的101类真实世界中的不同种类人类动作视频,包括动作包括:眼部化妆,涂口红,射箭、婴儿爬行、平衡木、乐队、棒球场、篮球投篮、篮球扣篮、卧推、自行车、台球球,吹干头发,吹蜡烛,体重深蹲、保龄球、拳击沙袋、拳击袋、蛙泳、刷牙、挺举、悬崖跳水,板球保龄球、板球拍,厨房、潜水、击鼓、击剑切割,曲棍球点球,体操,飞盘接住,爬泳,高尔夫挥杆、发型、链球、锤击、倒立俯卧撑,散步,头部按摩,跳高,马种族、骑马、Hula Hoop、冰上舞蹈、标枪、杂耍球、跳绳、跳杰克、凯国王、针织、跳远、弓步、阅兵、Mixing Batter、拖地、尼姑夹头,双杠,比萨折腾、弹吉他、弹钢琴、打手鼓,小提琴,大提琴,演奏Daf,都玩,吹笛,打Sitar,撑竿跳高,Pommel Horse,拉,冲,Push Ups、漂流、攀岩、室内攀绳,划船,莎莎旋转,刮胡子,铅球,滑板,滑雪,skijet、跳伞、足球杂耍、足球点球、吊环、相扑、冲浪、秋千、乒乓球、太极拳、网球摆、掷铁饼、跳蹦蹦床、打字、不均匀酒吧,排球扣球,一只狗,走墙俯卧撑,板书,Yo Yo。

      网盘链接:https://pan.baidu.com/share/init?surl=i4Q1tMP,提取码:a26y

    3. The HMDB51 dataset(2011)

      Brown university大学发布的HMDB51于2011年发布,视频多数来源于电影,还有一部分来自公共数据库以及YouTube等网络视频库。数据库包含有6849段样本,分为51类,每类至少包含有101段样本。

    4. THUMOS Challenge 2015

      THUMOS 2014的升级版

    5. MEXaction2!

      该数据集由两个行为类别组成:“骑马”和“斗牛”。这个数据集包含三个子集:UCF101骑马集,INA视频和YouTube视频。UCF101的骑马视频和YouTube的视频是被修剪过的只包含动作的片段并用于训练。INA视频为时间大约为77个小时的未剪辑的长视频,并分为训练、测试和验证集。具体如下表:

    在这里插入图片描述

    1. ActivityNet数据集

      ActivityNet是一个大规模行为识别竞赛,自CVPR 2016开始,今年是该竞赛的第三届。它侧重于从用户产生的视频中识别出日常生活,高层次,面向目标的活动,视频取自互联网视频门户YouTube。

      ActivityNet 2018将进行7项不同的任务,致力于推动对视频的语义视觉理解的限制以及将视觉内容用标题概括出来。7项任务中的3项基于ActivityNet数据集,这3个任务侧重于proposals,类别标签和标题的形式跟踪活动信息。另外4项作为guest任务,为了丰富视频中视觉信息的理解。这些任务集中于大规模行为识别问题的补充方面,涉及具有挑战性和最近发布的行为数据集,包括Kinetics (Google DeepMind), AVA (Berkeley and Google), SoA (Facebook), Moments in Time (MIT and IBM Research)。

      在搜索的过程中还发现上交的一位大佬在上面的这个比赛就取得了一等奖,以后可以跟。

    2. 博客给出的免费数据集

      整理的各种类型

      学习心得_第8张图片

      4.7 感想

      这篇论文还没有完完全全每个地方都搞明白,但我渐渐地有了整体的想法。作为该领域的小白,我可以从以下方面开始打好基础:

      • 坚定信念,选择持续高速的努力。

        研究这块的人很多,还有很多厉害的实验室,如上文提到上交CV实验室。

      • 打基础深度学习和python的技术基础。

      • 关注该领域牛人的博客和专栏如上文的上交林天威,持续地与时俱进。

      • 打好语言的基础,托福,雅思,GRE这个三维很有必要。

你可能感兴趣的:(cv)