目录(?)[+]
原文链接:http://www.csdn.net/article/2015-08-06/2825395
本文做了少量修改,仅作转载存贮,如有疑问或版权问题,请访问原作者或告知本人。
CVPR可谓计算机视觉领域的奥运会,这是vision.ai的Co-Founder,前MIT研究人员T. Malisiewicz针对CVPR'15尤其是Deep Learning的综述文章,谈到了ConvNet的Baseline,Caffe和Torch之间的分歧,ArXiv论文热,以及百度的ImageNet违规事件等。原文标题为:Deep down the rabbit hole: CVPR 2015 and beyond。
CVPR是主要的计算机视觉会议,可以把它看作是计算机视觉研究的奥林匹克。今年,CVPR将在我的后院举行,离可爱的剑桥不到一英里。我很多麻麻省理工的同事都参加了,如果Google在这次CVPR 2015上有着有最好的表现,我也不会感到惊讶。从2004年开始,我几乎参加了每年的CVPR,那么,让我们来一场计算机视觉研究世界新而短暂的精彩旅行吧。
灰白阴影下的兔子洞艺术
多年来,发生了很多变化,但本质上还是没变。学者曾经是最顶端的,捍卫他们自己的大学以及发生在他们非商业研究实验室的令人惊叹的事情。如今,学者仍然处于顶端,但是现在维护的是他们的Google、Facebook、Amazon以及 X 公司的某个附属子公司。随着招聘的最佳预算和以出版为导向的沉重企业文化,如果接下来连续几年的大量学术外流,我也不会感到惊讶。由于CVPR只有两周,因此Google一直在忙于制作ConvNet(卷积神经网络)艺术,同时向世界展示了如果你想做最好的深度学习研究,他们就是(合适的)王国。
仅仅是博士生和博士后的部队并不能打败软件工程师和科学研究者部队。在以前,学生在获得计算机视觉的博士后之后通常会选择离开学校(通常会受到一些视觉研究工作和华尔街的工作的诱惑)。现在,之前的博士生在大公司运作研究实验室已经紧锣密鼓的进入我们的视野。似乎还没有足够的深度专家来填补这个大需求。
数据集通常是一件大事——请下载我们的数据!数据集依旧是件大事——但是我们抱歉告诉你,你所在大学的计算资源达不到要求(但幸运的是,我们 X 公司总在招聘,所以来加入我们吧,让我们一起推动研究的向前发展)。
如果你想要查看个人文献,我建议Andrej Karpathy的 CVPR 2015文献在线导航工具或者看看在计算机视觉基础网站上的CVPR 2015文献 。还有就是一个麻省理工学院的博士候选人Zoya Bylinskii,也列出了一些有趣的CVPR 2015 的文献。
机器学习过去是王后,现在是国王。机器学习过去是浅显的,但如今的学习方法如此之深,以致于图表在单个滑动下很难拟合。研究生过去常常避开了关于Yann LeCun的笑话,Yann LeCun坚持认为机器学习在将来的某一天会做特征设计阶段的工作。现在似乎是这种情况,当你坚持认为“手工特征设计”将省掉一天时间的时候,整个视觉社区都会忽略你。Yann LeCun做了一个主题报告,并给了它一个有趣的标题:“深度学习怎么了?”,这表明了卷积神经网络(也叫CNNs或ConvNets)存在于CVPR的任何角落。
图来自Karpathy的卷积神经网络教程
过去在CVPR很难发表ConvNet(卷积神经网络)研究论文,而现在如果你没有对ConvNet做一个基本的比较的话,很难得到一篇CVPR文献。得到一个很酷的新问题了么?哦,你没有试一下基于ConvNet的基本方法么?很好,这说明为什么没人关心了。
尽管如此,但这并不是机器接管了视觉科学家的工作。如今的视觉科学家更是一个应用型机器学习黑客,而且由于强大的CNN主题,理解和重新实现如今的视觉系统变得更加容易。我们在CVPR上看到的在本质上是一个类似分割和运动的经典问题的回访,只是使用的是这种新的机器方法。正如Samson Timoner在本地Boston Vision Meetup网站上概括的那样,当互信息变得流行,社区也随之变得时尚——这次围绕的是ConvNets。但这不仅是一种趋势,非CNN(卷积神经网络)的竞争正在被摧毁。
来自Bharath HariharanCVPR 2015的文章-在切割上使用卷积神经网络
还有很多事情等着视觉科学家去做,一个扎实的正式数学教育比其他任何都要重要。我们过去是使用梯度下降来训练,现在也是如此。就好比我们过去喝咖啡,现在也喝咖啡一样。其本质上,其实还是数学。
深度网络每个月都表现的很出色,但我仍然等待着艾萨克(牛顿)的到来,让我们的生活更轻松。我想要一个简化,但我并不悲观——一个很好的原因就是会有一系列的ConvNet空间活动(以防你没能参加CVPR 2015),所以我直言不讳:ConvNets这该死的工作!其实我只想要深度学习的F=ma公式。
Caffe是在Berkeley发展起来的,有一些充满活力的社区,与Python结合并且在大学生中似乎相当流行。Trevor Darrell教授甚至找了一些博士后来帮助Caffe发展。如果我再年轻几岁并且刚获得博士学位,那么我一定会申请的。
Torch并没有跟随Python的潮流,它是基于Lua的。对于解释器没有必要像Matlab或者Python那样,Lua会给你神奇的控制台。Torch被Facebook人工智能研究实验室和位于伦敦的谷歌DeepMind大量使用。对于那些害怕类似于Lua这样新语言的人,在此不用担心——如果你已经涉足Python,JavaScript或者Matlab的话,那么你会感到Lua语言学起来特别“轻松”。
现在,越来越清晰的是:深度学习的未来主要是来自像Caffe或Torch那样有自给自足的软件包,而不是像OpenCV或Matlab那样的处在生死边缘上的全能工具。当你在OpenCV上分享创作,你最终会分享源代码,但有了深度学习工具包,你最终提供的是你的网络预训练。对于你的计算机视觉管道,你不必再考虑20个“小”算法的组合——你只要考虑你想要的流行网络架构,然后就是数据集。如果你有GPU和庞大的数据,你可以做完整的端到端的训练。如果你的小数据集或者中等数据集,你可以微调最后几层。你甚至可以在最后一层训的顶部训练一个线性分类器,如果你怕麻烦——那么你要做的只是超越SIFT(尺度不变特征变换算法),HOG(方向梯度直方图 ),GIST(通用搜索树)以及所有在计算机视觉过去二十年里庆祝的算法。
在CVPR 2015上使用ConvNets的方式,使我感觉到我们正在接近某个大的东西。但是在我们捡到黄金之前,ConvNets仍然像是一个微积分的影子,只是“希望”会得到更大,更深层次的东西和更有意义的事。我认为,对于ConvNets的调查可视化算法的研究表明,即使网络建筑师也不能完全确定幕后发生的事情。
Josh的一个主要研究主题是基于图像识别阴影的超越。Josh的所有的工作都是关于在这个世界上建立思维模型,而他的工作确实可以被看作是综合分析。在他模型的内部主要是一些类似于视频游戏引擎的东西,而他展示了许多令人信服的相关实例,这些实例对于人类来说很是方便,但对于今天数据驱动的ConvNets而言,几乎是不可能的。在这个夏天,如果他的学生在谷歌DeepMind工作,那么也不必感到惊讶。
几年前,概率图模型(图论和概率方法的合并)那是风靡一时。Josh给了我们概率编程的味道,虽然我们还没有看到新的方法来主导计算机视觉研究世界,但请睁大你的眼睛。他提到了一篇最近发表在Nature上的文章(下面引用的),来自另一个受人尊敬的机器智能研究,这应该会引领潮流兴奋相当长一段时日。请看看下面Julia代码中尾部的一部分:
Probabilistic machine learning and artificial intelligence.Zoubin Ghahramani. Nature 521, 452–459 (28 May 2015) doi:10.1038/nature14541
下面来看一看一些教授。Tenenbaum的想法正在行动中,看看下面的这篇CVPR 2015的文章,标题为:一种面向场景感知的概率编程语言。恭喜Tejas D. Kulkarni,第一作者,一个MIT的学生,因为这个令人兴奋的新作而获得最佳论文荣誉奖。有了谷歌DeepMind,你会有一个有趣的夏天。
Picture: A Probabilistic Programming Language for Scene Perception
来自于麻省理工学院的Antonio Torralba做了一个关于地点数据库的讨论,以及当你做以物体为中心的数据库(如ImageNet)与以场景为重的数据库(如麻省理工学院的地点)训练时能学到什么的一个深层分析。你可以查看“目标探测器浮现”幻灯片或arXiv论文来学习更多的指示。这些都来自即将到来的研究员Bolei Zhou的出色工作!
外行人仅仅是阅读人工智能标题的话,百度作弊丑闻似乎是个大新闻,但在计算机视觉上,在测试集上的过拟合并不是一件新颖的事情。这篇论文最后被驳回了,研究生通常多次在测试集上评估他们的算法,而真相就是人无完人。当它对#1很重要的时候,不要对你的比较变得不合适而感到惊讶。重要的是意识到地面破碎研究和小百分比追逐的不同。我们都会犯错,在重大的压力下,我们都会表现出自己的弱点。所以,让我们一笑置之,坦然面对吧。让我们招聘最好的,鼓励真正伟大的研究并且停止追逐百分比。事实上,很多的顶级性能方法都是相似的。
来自Changbo Hu绘制的CVPR参会者图片
ConvNets留在了这里,但是如果我们想要让ConvNets能超越阴影的计算,那么还有大量的工作需要完成。Geoff Hinton的capsules在深夜的讨论中不断出现。“我想使用神经元组来取代非结构化层,我称之为‘capsules’,它更像一个皮层柱”——Geoff Hinton的新闻网站AMA。很多人(像来自CMU的Abhinav Gupta教授)也在讨论非监督学习CNN(卷积神经网络)的训练,我预测,在明年的CVPR中,从没有注释的视频学习大型卷积神经网络应该是一个大的方向。
最重要的是,当深度学习的巨头去提他们最喜欢的方法有错误时,我只期待有最好的研究也会随之而来。快乐的计算吧,并记住,永远不要停止学习。
英文原文:Deep down the rabbit hole: CVPR 2015 and beyond(译者/刘帝伟 审校/刘翔宇、朱正贵 责编/周建丁)
译者简介: 刘帝伟,中南大学软件学院在读研究生,关注机器学习、数据挖掘及生物信息