ImageNet Large Scale Visual Recognition Challenge论文阅读

      这篇著名的论文总结了2010-2014年以来ImageNet比赛中关于图像分类和物体识别领域的研究,在谷歌学术上有2800+的引用量。(另一篇2009年的ImageNet: A Large-Scale Hierarchical Image Database有4400+引用量。因为比赛使得计算机在图像分类和物体识别方面正确率已经超过人类,所以2017年是ImageNet最后一届比赛)。

整篇论文分7大部分。

      第1部分讲的是ImageNet比赛这5年来从出现到发展的过程,每一年的研究成果都比上一年好很多,李飞飞首先提出的好的数据集和好的算法同样重要,所以构建了ImageNet数据集。

     第2部分讲的是ImageNet的三大任务:①图像分类Image classification (2010–2014)、②单目标定位Single-object localization (2011–2014)③目标检测Object detection (2013–2014)。图像分类是根据算法将图像分成各类,单目标定位是在图像分类基础上发展的对图像中的目标生成定位边框,目标检测则是图像多目标定位。

      第3部分讲的是大规模数据集的构造过程。包括图像分类、单目标定位、目标检测用到的数据集是如何构建和注释的。

     第4部分讲的图像分类、单目标定位、目标检测是用什么方法来评估的。看到了top-5, top-1, and hierarchical三种度量错误的方法。

     第5部分是本文的重点,讲的是2010年以来各个队伍在大规模数据集算法创新的比赛成果。从SIFT特征提进化到用于三大任务的大规模卷积神经网络。2012年卷积神经网络震惊了业界(imagenet classification with deep convolutional neural networks论文引用量高达13000+),Alexnet首次实现 Top 5 误差率 15.4% ,当时的次优项误差率为 26.2%。到2014年几乎所有的参赛队伍都运用CNN,引爆了AI界,深度学习大火。

    第6部分讲的是成果和分析。这5年来精准度在大规模物体识别方面已经显著提升了。然后对三大任务进行了量化和分析,讲了这些年来三大任务研究的发展,然后又给出了统计学特征。接着介绍了分类对象识别的现状。最后介绍了在大规模物体识别方面人的识别精度,进行了人机比较。

    第7部分是本文的总结。总结了这五年来比赛遇到的问题和批评,以及解决的方法。最后对未来提出了新的问题,包括处理像素级别的图像分割以及大规模数据人工注释困难如何解决的问题。

    ImageNet比赛去年结束,并不是图像识别领域的消退,其实是迎来新的发展。因为由人工精心收集的数据集用于训练成本很高,现在研究的重点是如何利用不含人工注释的数据来训练系统。WebVision将会接力ImageNet,数据集直接从网络爬取,噪声很多,难度更大,但更符合现实运用。

 

你可能感兴趣的:(人工智能,ImageNet,CNN,WebVision,深度学习,卷积神经网络)