点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
作者:胡瀚 | 已授权转载(源:知乎)编辑:CVer
https://zhuanlan.zhihu.com/p/532711622
整理:刘泽
4月23日举办的 CVPR 2022 论文预分享会圆满落幕。不同于往年,本次分享会采用了线下与线上联动的活动模式,在保证分享效果的同时让更多的观众参与到了活动中来,在总计 9 个小时的直播活动中,累计收获了高达1.5万的线上观众观看,平均观看时长36分钟,体现了很好的观众参与度。
除了在六个主题下 20 位讲者分别分享他们最新的研究成果和探讨领域现状与未来之外,这次我们还有幸请到了马毅、屠卓文、戴玉超、张祥雨和黄高这几位历年视觉顶会最佳论文的斩获者,以“好论文是怎么炼成的?”为主题做了精彩的圆桌讨论,分享了他们对于“做好的论文”和“做好的研究”的理解。
有意思的是,各位老师的研究具有一定的传承性。从马毅老师 ICCV99 的3D几何研究,到他关于高维空间低秩表达的新作,曾在10多年前推动了当时视觉领域最火热的方向;而戴玉超老师在 CVPR12 的获奖工作,则恰好是3D几何和低秩表达的完美结合与总结。此后随着深度学习时代的到来,淘金时代涌现了许多经典工作,其中就包括屠卓文老师在2015年的获奖工作HED,他通过该工作以及前序的DSN工作尝试解决深度网络的有效训练问题。而这一问题也在2016年的ResNet中得到了几乎完美的解决,2016年 CVPR 最佳论文得主张祥雨给大家分享了ResNet背后的故事。2017年 CVPR 最佳论文得主黄高老师关于DenseNet的研究工作,则是继ResNet之后卷积网络的又一别样的尝试,且黄高老师的另一研究工作Stochastic Depth现已成为训练视觉Transformer的标配。
回放视频地址
视觉顶会最佳论文得主圆桌论坛:好论文是怎么炼成的https://www.bilibili.com/video/BV1Xr4y1J7xq?share_source=copy_web
圆桌嘉宾
马毅,加州大学伯克利分校教授,1999 年 ICCV 最佳论文:子群下的欧式重构和重投影
屠卓文,加州大学圣地亚哥分校教授,2003 年 ICCV 最佳论文:图像解译 ,2015 年 ICCV 最佳论文-荣誉奖:整体嵌套边缘检测(HED)
戴玉超,西北工业大学教授,2012 年 CVPR 最佳论文:一种简单的不需要先验信息的非刚性结构与运动恢复方法
张祥雨,旷视科技基础模型组负责人,2016 年 CVPR 最佳论文:用于图像识别的深度残差学习 ResNet
黄高,清华大学副教授,2017 年 CVPR 最佳论文:密集连接卷积网络DenseNet
胡瀚:请每一位嘉宾谈一谈自己的获奖论文,这篇论文解决了什么问题?有什么重要意义?或者背后有什么有趣的故事?
马毅:我们的文章比较早,背景上是在三维重建的基本的数学或者几何的框架的建立过程中,当时我们主要是希望能够了解3D的场景跟多个视图之间的各种几何关系。其中涉及到照相机的位置以及这些场景中的结构的变换在什么条件下能得到唯一的解等这些数学关系。其中提到如何研究不同的变换群作用在照相机以及形状上面的一些关系,从而研究建立一个理论框架,有助于了解三维重建的一些基本几何原理和几何意义。但是这个工作并没有完全地转化成相应的算法,因为我们要使用到的这种全局的结构变换是与识别离不开的。当然了,这个理论还在发展,希望以后这些理论能帮助产生一些真正大规模的三维重建高效算法。
胡瀚:谢谢马毅老师的分享,马毅老师不仅写了很多好论文,还写了很多好书。早在20年前,我记得就写了一本叫An Invitation to 3D vision,我注意到最近马老师又出了一本新书,是关于稀疏和低秩表达的。低秩稀疏表达可能很多人比较生疏了,但是15年前曾经是视觉领域最火热的领域。当时在很多应用里面取得了一些突破,它对早期深度学习在视觉领域的推进很有帮助,例如auto-encoder,sparse coding都是受此影响发明的,我们知道最近类似auto-encoder的方法又成为了自监督学习的主流方法之一,可否请马老师聊一聊为什么出这本新书,以及这本书对于当前学者和学生的意义?
马毅:你提到最早那本三维重建的书,实际上也可以看成是我们当时获得马尔奖之后,对整个领域的一个总结,实际上后来我沿着这个方向整个博士期间的工作就是在完成整个多维视觉的几何框架,尤其是群变换的观点,在我们那本这个三维视觉的书里边有了更系统完善的阐述。感兴趣的同学可以去看看。
高维数据分析这本新书是今年3月份才上市的,我跟我以前的学生一块儿写了大概7、8年的时间。我们知道视觉实际上就是处理高维图像数据,去找到高维数据里的低维结构,所以它是一个非常fundamental的问题。这本书实际上是不局限于视觉的,所有的高维数据,几何和统计,它的基本原理以及计算方法,还有最后的应用都会包括。因此,这本书可能也比较及时,你当然讲到这个,这个稀疏表达可能是在十年前被引入到Vision里,产生了很大影响。那么实际上大家可以看到,到了后面,它实际上是对深度网络的建立起到作用了的,它们是有联系的,甚至可以这么讲,稀疏结构和深度模型只是同一件事情的两个方面,深度模型就是在寻找高维海量数据里面的低维结构。不知道大家了不了解,包括玩大模型的,Jeff Dean,还有Christopher这些Stanford原来做foundation模型的人,大家可以关注一下他们最近的文章,全部都有一个共同的词sparse在里面,就是说不管你做多大模型,到最后你要回到压缩、简约这个王道上面来,这才是真正智能学习最本质的东西,才是真正对一件事情做到简化,把这个海量高维数据真正的内在结构学到,把它表达清楚,这是永远绕不开的最中心的问题,希望同学们可以关注一下。
胡瀚:马老师刚才提到的sparse foundation模型确实是目前工业界特别关心的一个技术方向。这里还要特别提一下,马老师这本新书已经贴心为大家奉上了电子版,所以大家可以下载阅读。尽管有电子版,我还是建议去买纸质的书,多多支持一下马老师。接下来请戴老师分享一下。我刚上研究生的时候,就听到一个说法,说3D领域的几何问题已经基本解决,没什么可做的了,但是戴老师却在这个已经相对饱和的领域又做出了新花样,由此获得了2012年CVPR最佳论文奖。
戴玉超:回溯一下,我们在CVPR12的工作已经是十年前的工作了,我们这个工作其实是研究一个三维视觉里面比较独特的问题,称之为基于多视角单目图象的非刚体场景三维重建。这个问题的设置是这样的:手持一个单目相机,然后拍摄一个动态场景。从数学的意义,包括多视角几何上的表达来看,这是一个严重的欠约束问题,但是在现实场景中它又是一个有很强实际应用需求的问题,比如我们日常中拿手机去拍摄人的运动、活动或者医学中用内窥镜进入人体检查等需求。如何从单目视频重建三维的三维结构有很强的重要应用,但是由于它非常欠约束,所以做起来非常困难。
我们的工作的思路是将低秩建模包括稀疏编码的思想应用在刚性与非刚性三维重建上。刚性物体的三维重建相对来说是一个恰定(well-defined)的问题,在完成刚性三维重建问题之后,一个很自然的想法就是,有没有什么办法能够把刚性的这样一个设置拓展到非刚性,或者说动态场景,因为我们现实的世界不仅仅是三维的而且是动态时变的。有了这个想法之后,我们就系统地回顾了相关的理论体系,在这其中有几个标志性工作,包括1992年卡耐基梅隆大学Tomasi和Kanade提出的基于矩阵分解框架直接从二维观测恢复相机的运动和三维场景的工作,这是一个基于刚性物体的一个框架;以及2000年的时候Bregler教授将这一工作进一步扩展到了非刚性场景,而这个论文也获得了CVPR2000的最佳论文奖。我们在2011年开始做这个工作的时候,就是想将当时的低秩表示包括稀疏编码的理论与非刚性问题做一个紧密的结合。因为非刚性三维重建本身是非常欠约束的,所以当时已有的方法包含了很多额外的约束,但是每个约束都是一个有偏的估计,从而会导致结果出现各种各样的适应性问题。我们的想法就是对这个问题进行一个更加深入的分析,重新提出一个新的表达,具体来说,我们把三维的形状进行重组,进而可以利用低秩模型对其进行一个重新的表达,从而得到一个非常简洁的优化模型,对应的凸优化问题的求解也非常简便。这个方法最大的好处其实是抓住了问题的本质,从而提出一个崭新的建模角度,这样就能够克服已有需要先验信息方法产生的有偏估计问题,从而实现了我们称之为无需先验信息的非刚性结构与运动恢复方法,同时在理论和实验上都取得了最优的性能。
胡瀚:2012年后,我们进入了深度学习时代,在这之后的几年,更是深度学习的淘金年代,涌现了很多经典论文,其中卓文老师的DSN和HED就是其中的代表, HED更是获得了ICCV马尔荣誉奖,证明了其重要的研究价值。可否请卓文老师谈一谈这篇论文。
屠卓文:这个故事总的来说比较简单,边缘检测可能是大多数做计算机视觉的人最早接触和学习的一个基本模块,最早有一些标准算法例如zero crossing、canny edge detector等。但是其实边缘检测真正在现在推广还是从Berkeley的BSDS 数据集开始,他们进行标注有了一个比较好的指标。数据集和指标的建立对近代计算机视觉的发展起了很大的推动作用。
早先我们有一篇CVPR 2006边缘检测的文章,是做密集、逐像素的边缘检测,而在当时的情况下做密集、逐像素分类的工作不算多。这个文章在当时的结果还可以,但还有很大的提高空间。等到CNN时代到来之后,我们于2014年发表了一篇名为Deeply-Supervised Nets的文章,它旨在通过使中间层尽量地接触到数据和反馈来避免梯度消失和爆炸的问题,这个工作现在也成为了深度学习的一个经典算法。但是后来发现,deep-supervision在密集的预测任务中可能作用更明显。
所以我们在DSN之后就想到,能不能干脆做回边缘检测试一下,正好那个时候全卷积网络(FCN)发展起来了,于是我们就把DSN和FCN做了一个结合,设计了整体嵌套边缘检测方法HED。这个方法比较巧妙,因为边缘检测的每一层的特征都是有意义的。这与其它的一些高层次任务不同,在这些高层次任务中低层次的特征不一定很直接;而在边缘检测任务中,这些低层次的特征本身就很直接,所以在这个时候将多层的特征加在一起,就会有明显的提升。HED现在已经算是边缘检测的一个经典算法了,所以从这个角度来说,我们的运气还是不错的。
胡瀚:DSN和HED是探讨深层网络的有效监督和学习问题,而ResNet在这方面给出了近乎完美的解决方案。我相信很多人在ResNet诞生之初就已经想对这样一个极简方案背后的立意和巧思一探究竟了。下面我们有请祥雨为我们详细介绍一下这篇论文是怎么来的,又有什么背后的故事。
张祥雨:ResNet是我14年到微软实习,在孙剑和何恺明老师指导下做出来的。其实我当时刚去微软的时候并没有接触过AI,因为我本科是软件工程专业的,主要是做软件设计,而当时孙老师招我去的主要原因也是因为我会写CUDA。但是做了一年后,就开始很有兴趣了,而且做深度学习正好可以发挥我的特长,就是工程能力比较好,idea也比较多。在这一年里,我做了一个名叫Spatial Pyramid Pooling (SPP)的工作,以及一个模型化简相关的工作。时间来到14年7月,在当年的ImageNet比赛中Google和VGG分别获得了第一名和第二名。然后我们就想能不能从这里面挖掘一些insight。尤其是当时我们有一个很重要的想法,就是想着怎么把网络做深,因为从直观上来说,深度学习是基于函数复合的形式,当复合的层数越多,效果应该就越好。但是我们前期的一些实践表明,加深这一件事是非常困难的。尤其是VGG之前的plain network,当把层数加到7层、8层左右就会遇到非常严重的收敛性问题。一开始我们并不清楚是怎么回事。直到有一天我突然意识到这可能是出现了梯度消失这种情况,然后我给出了一个初始化方案,让梯度信号的幅值不至于逐层衰减。现在大家一般把这个初始化叫Kaiming初始化(有趣的是这个方法其实是我提的,当时在微软的时候我们内部其实叫Xiangyu初始化)。有了这个初始化以后,我们发现很多事情都得以解决,并成功将网络做到了十几层。
但是随着网络进一步加深,我们又遇到了新的问题:这时候网络收敛已经看上去没有任何问题了,但出现了严重的欠拟合(underfit)情况,这是非同寻常的。因为我们知道增加层数一般意味着增加参数,而传统的理论认为加参数会更容易导致过拟合(overfit)而不是欠拟合。那这个问题要怎么解决呢?于是我们就开始把视角转到GoogleNet。当时GoogleNet拿了第一,但是因为训练技巧特别复杂,学术界大多数人并不愿意follow。但是我们却发现了一个非常有趣的现象:虽然GoogleNet的参数量和计算量都远小于当时的VGG,但是它的精度并不比VGG低,甚至收敛更快,也能支持更多的层。这件事在我们看来是非同寻常的,我花了很长时间去研究,发现其实它真正work的不是论文里讲的多尺度,而是它始终有一条1x1的卷积分支,就是这个分支,按今天的话讲起到了shortcut的作用,从而让它的优化变得更容易。
虽然发现了这个shortcut非常有用,但是我一时也没想通这个shortcut该如何用于构建新的网络结构。于是,何恺明老师就建议能不能把这个工作再简化一些。其实当时我的第一个想法是设计一个更复杂、更fancy的结构,并搞出了一个叫“分形网络”的结构,性能还不错。但是何老师和我说,“你做这么多,结果还是一个Fancy的东西,还是得不到背后最本质的东西。你要么在理论上把它解释清楚,要么你就干脆放弃解释,用一个最基础、最本质的结构让它work,把解释这件事留给后人”,这给了我非常大的启发。于是,我们就尝试沿着这个方向去做,最后发现其实shortcut那条路甚至于可以不使用那个1x1的卷积,直接使用一个无参数的identity都是可以work的。当时ResNet最早的版本中identity不是加法而是concat,但是后来我们想了一下,其实concat和加法并没有本质的区别。所以最终采用了identity+residual的设计方案。
最后我们得到了ResNet,它结构简单,扩展性强,调参也更容易,实验结果也非常好,并在当年的ImageNet图像分类、COCO检测和分割等赛道上均拿到了第一名。而今天ResNet无论在思想还是在应用上都得到了非常广泛的传播和使用。
不过当时我们刚做完这个工作的时候,其实还是有些不满意的,因为只是提出了一个方法,但是对于ResNet本身的理解和解释,当时我们是一点头绪都没有。之后我们继续做了一些关于ResNet理解方面的探索,比如我当时认为ResNet可能是促进了层之间正交的性质,因为根据随机矩阵理论,乘的越多,矩阵的条件数越大,最大特征值和最小特征值差距越来越大,不利于优化;而通过identity分支的引入,减少了矩阵的条件数,提高了收敛速度。受此启发我们也做了一些将正交性引入plain network的尝试,也确实有一定效果,但依旧无法解释为什么ResNet能做到成百上千层。后来我们做了Pre-activation的ResNet,经验性地发现将identity支路变得更通畅,可以进一步提升ResNet的性能,并且观察到训练过程中ResNet有效层数是不断增加的。这一效应在后续的工作中也陆续有人给出了解释,比如认为是BN和Shortcut的联合作用导致了有效层数的变化。关于ResNet我们还看到一些解释,例如有人将ResNet解释成一些浅层网络的ensemble,还有人从鞍点的分布以及loss landscape的平滑性来解释ResNet的易收敛性,但一直总还差点意思。直到今天依然还有很多学者在关注这个课题,也提出了一些有趣的视角,例如Neural ODE把ResNet连续化来建模微分方程;再例如我非常喜欢的一个工作是马毅老师的MCR^2,这篇文章从信息压缩的角度去理解特征的学习,进一步通过ReduNet把这个过程用梯度下降展开,自然就得到了ResNet的形式,按马老师的话就是“这个是由不得你的,数学上就是这样”,我觉得特别有insight。关于ResNet的理解和改进至今仍在继续,我们最新的工作RepVGG和RepOPT就表明,架构和优化其实是相辅相成的,控制架构不变,通过修改优化过程,同样可能取得修改架构才能达到的效果,例如能使VGG-like的plain结构达到ResNet才有的性能。
胡瀚:ResNet之后,CNN竟还能再次有突破性的魔改,这就是黄高老师的DenseNet,下面我们请黄高老师讲一讲DenseNet背后的故事。
黄高:DenseNet是我第一次投CVPR,也是第二次投计算机视觉的会议。其实我博士期间主要是做机器学习,所以我们在做DenseNet的时候还是偏机器学习的思维。从泛化性的角度,由于DenseNet底层具有较少复合次数的特征能够直接传递给分类层,相比于其他逐层连接的网络结构,DenseNet拥有更光滑的决策函数,以及更低的泛化误差界。接下来跟大家分享一下我们做这个工作的背景和动机。我是从2015年底去康奈尔做博士后的时候才开始研究深度学习,当时刚好是ResNet出来的时候。我所做的第一个深度学习方面的工作,随机深度网络(Stochastic Depth),就是在ResNet的基础上完成的。
我们在做随机深度网络的时候,发现ResNet的每一层所起的作用确实非常小。我们在训练的时候可以随机把某一些层给丢掉,反而可以训练得更好;在推理的时候我们也尝试过将后面的层丢掉几个,其实也不怎么影响它的性能。因此我们就觉得既然这个网络的每一层都在学残差,那我们是不是可以把它进行简化。
我们想到的方案是这样的:让网络中所有的层都相互连接。做这个事情的动机除了刚才说的ResNet每一层学到的特征很少之外,还有Deeply Supervised Net (DSN)、ResNet等工作给我们的一个指引,即网络的不同层之间要有更强的交互,最后我们就得到了DenseNet这样一个结构。但是在一开始提出这个想法的时候,周围的人都觉得不合理,因为这样会使得网络通道数过大,从而导致计算量爆增。但其实如果我们反过来想,假如网络的不同层之间的交流很密切的话,它就不存在信息瓶颈,这样每一层可以只学非常少的特征,这个就跟我们之前研究的ResNet的问题就对应了,即每一层既然只学很少的特征的话,那就不需要那么多的通道,
最早我们尝试了一个非常极端的设置,即每一层就只有一个通道。以前的任何一种网络,你不可能让它每一层只学一个通道,因为这样的网络是肯定训不出来的。但是DenseNet可以,并且可以训的非常好。当然这种设置在GPU上跑的很慢,所以后来我们就把每一层做到十几个或者几十个通道,这样的网络层数可以非常多,但参数量和计算量都很少。
最后我认为DenseNet的贡献之一是打破了几个思维定式:第一,网络结构不一定非要是逐层连接的链式结构,它可以变得更加紧凑,让网络层与层之间有更密切的交流,从而变成一个更为整体的结构。第二,增加连接不一定会让计算增多,因为当连接增多之后反过来会减少信息瓶颈,从而使得每一层可以非常精简。最后,希望我们从DenseNet等工作出发,还能继续从宏观架构的角度,对网络结构产生一些新的思考和探索。
胡瀚:请问老师们是如何发现重要的研究问题,找到正确方向,甚至我们能够去推动一个整个方向的进展。这里我引用杨振宁先生几年前的一段话,他说:“我看过上千个博士生,有的10年以后非常成功,有的却失败了。不是因为成功的比不成功的聪明多少、努力多少,就是非常简单一句话:有人找到了正确方向,有人却走进了穷途末路,费了很多时间得不出结果”,各位老师无疑都是找到了正确方向的,甚至是某些方向的主要推动者,请问您们是如何找到这个正确方向的,以及如何推动这一方向进展的?卓文老师很善于做前瞻性的问题,在很多问题上比其他人早了10年,例如用统计方法来做语义分割问题,DMCMC,image parsing,还有早在07年就做了用对抗学习方法来做图像生成,比GAN早了7年的时间。请卓文老师先讲下自己的心得。
屠卓文:这个过奖了,我们主要就是碰运气,攒人品的过程。目前为止,我有4篇单独作者的文章,其中的三篇文章比较有特点,分别是2005年的Probabilistic Boosting-Tre, 2007年Learning Generative Models via Discriminative Approaches (GDL),2008年的auto context。我就先简单讲一下我2007年GDL的工作。当时从统计来说,大家做generative modeling主要是matching feature。比如说画一只猫,需要知道眼睛,鼻子大小,进一步是match相关的statistics并优化。传统意义上一个generative model如果要match feature, 一些相关的因素,比如上个例子中的眼睛、鼻子这些还是需要人工定义的。在computer vision领域,boosting当时应用比较广泛。于是我开始思考是否可以用yes or no的思想来作为generative modeling的判断标准。尽管其反馈信号看起来少了很多的,但实际上,如果问了100个问题,其实其中的信息量还是很大的,因为其数量级已经达到了2的100次方。所以就出了07年这篇文章,当然我是从统计的、贝叶斯的角度来思考的。假设给定一些Positive样本,先从random noise开始作为初始Negative样本,先训练一个discriminator (分类器)以区分正负样本,然后再产生pseudo negative,或者叫对抗样本,然后得到新的discriminator (分类器)。如果到最后分类器分不清楚原始Positive样本和对抗样本的话,就达到一个比较好的效果。但当时做的时候还是挺艰苦的,C++的代码量比较大,底层的代码比较慢,为此我们做了些加速。这篇文章是我的论文里比较有代表性与原创性的。
胡瀚:下面请马毅老师谈一谈,马老师是压缩感知和稀疏表达的最主要发起人和推动者,带动了当时视觉领域最火热的研究方向,您是怎么做到对一个新领域有如此精准的感知和嗅觉的?一个新领域的开创和发展需要什么条件、准备和时机?
马毅:先顺着卓文讲一讲,我觉得卓文非常了不起,由于我们是写书的,所以最近对历史非常重视。能够正本清源,把一些好的想法的发展历史讲清楚。包括我在写这本新书的时候,也是花了很大劲儿。这个稀疏,从低维结构来说的话,实际上有300多年的历史。年轻同学们一定要记住这一点,人类知识发展都是站在巨人的肩膀上面,我想这里再重复一遍,在座的同学们,你们想在自己的领域做出历史上青史留名的工作的话,不了解你这个领域相关的思想的发展,你是很难做出真正有意义的工作的。这种独创性的工作的概率至少是非常非常少的。因为人类历史是一个盲人摸象的过程。最早大家做classification,认为视觉是一种基于detection的问题,那自然就是一个分类问题。但卓文他们最早从统计的生成模型的角度来看这个问题的话,于是区分discriminative model与generative model,自然就成了两个派别。最近我们一些工作发现,实际上这就是一头大象的两个面。我再举个例子,我们现在训练的网络是一个端到端的网络,利用这个网络来模拟一个函数的分布。实际上,90年代的Hinton也是想做这样一件事情,但是大家当时认为建立这样的模型是不对的。所以,很有可能花费这么多而学习到的网络,可能是一个更复杂系统里的局部而已。这实际上并不是我们发明的,而是控制领域早已踩过的坑,他们现在已经找到了正确的解决方法。所以我建议同学们不要光了解自己的领域发生了什么,也要通过了解历史,去关注其他领域所发生的问题。
那么回到主题上,我给大家一个建议,不忘初心。我思考了一下我做Vision的初心是什么?我做研究生的时候,当时看到整个领域实际上和现在还是有区别的,当时我硕士的题目是自动驾驶。我是学控制出身的,当时发现闭环系统最弱的一环不是控制,而是视觉,于是我就想解决视觉这个问题。同样,之前获得马尔奖的工作也是在好好研究如何从2d到3d,从图像到三维结构。
在我工作的第一阶段,主要研究数学的问题。后期,我就考虑把数学理论应用到三维重建中。在这过程中,发现一个大的问题,那就是计算问题。图像自然是非常高维的数据,我们发现很难去计算它,从一个漂亮的理论到让它实际有用通常会有很大gap,这其中的关键就是计算问题没有解决。理论通常有过于理想和简化的假设,这与实际问题之间有较大差距,这也是为什么后来机器学习替代了信息理论,强化学习替代了控制,这都是因为之前的理论很难指导实践。
因此在我的第二阶段,即做稀疏模型时,我就决定一定要把技术做到可以解决计算问题。因此,我们开始考虑需要多少计算量可以把想要的结构给有效地计算出来。后来深度学习发展出来,实际上我们当时开始猜测,深度学习是从语音数据、图像数据里面提取它的统计或者几何结构。我们过去几年的研究发现的确如此,实际上这也是摸到这个大象的一块。所以从这个角度来看,你会发现,当你去选择一个很大的方向,比如怎么解决视觉这个问题,不光要理解它后面的数学原理以及它的计算原理,更重要的是要建立有效的系统,它实际上是一头大象,我们的研究都是在摸大象不同的块。
最后说下我最近的工作,主要是在致力于闭环转录这件事情,这个事情非常有趣。在自然界大家都知道闭环转录是最universe的结构,从控制系统,到记忆系统,到DNA/RNA,它们都是一个闭环转录系统。再说我所关心的从高维数据发掘低维结构这个角度,你会发现,它其实就相当于把蛋白质转录到DNA这样的结构上,而目标实际上就是去measure转录的有多compact,这就是一个information theory的问题。目标清楚了,怎么做?实际上有个领域是专门做这个事情的,就是控制,这其中最重要的一个概念就是反馈和闭环,它决定你下一步怎么做能达到既定的目标。其实优化,game theory,对策论等等都是从控制理论出来的。那么这个闭环怎么模拟呢,正好就是对应到一段一段的深度网络,来模拟这些变换。实际上,最后发现,很有趣的一点是,通过一个闭环转录的概念,整个事情变成另一个白盒,整体框架就是一个控制闭环,而过程的每一段,如果能显式的写出来,就是一个个微分方程,也可以是统计方法或计算方法得到的深度网络。当你理解到这个层面的时候,一头大象整体就很清楚了,它就成了一个白盒。
最后,最中心的思想是说大家要想做出真的开创性工作,在我个人看来,第一,设计一个远大的正确的目标方向,例如就是去解决视觉的问题。第二是了解历史,知道这件事情相关的来龙去脉是什么。第三,了解相关的领域,借深度学习的话就是做学问也要越深越好、越宽越好,越深就是要去了解历史纵深看到idea的传承,越宽就是要去了解相关领域。不要忘了,我们现在做的很多东西,都源自控制,如果你了解了这些领域,你可能会有自己更独到的思想,你才能看到大象整体,相信我,那可能是你一生中最有成就感的事情。希望我的这些观点对大家有帮助。
胡瀚:关于与同行交流,如何去推广自己的工作。我想问一下祥雨老师。我记得去年有一次,我们一起去参加一个workshop,当时我们有近50位领域的专家和老师,祥雨是发言最活跃的老师之一,令人印象深刻。无论是发言的深度、广度,都特别令人的耳目一新。所以我想请问一下这方面祥雨有没有什么心得?
张祥雨:关于这个问题,我刚开始做深度学习主要是从工程入手,但是做了很多事情以后,我对这种“炼丹”式的工作开始不满意,很想知道各种“调参”背后的依据和解释。于是我形成了两个习惯,第一是不管实验中观察到什么现象,都要研究为什么、要如何解释;第二个是不管做哪项研究,都会花大量时间广泛梳理前人的工作,尤其关注领域与领域之间,各个碎片之间,重要的思想是怎么产生、怎么互相启发,最终形成完整的拼图。例如我在19、20年做self-supervised learning的时候,很多工作都把各种trick给玩出花来,但较少有工作去追溯背后的原理。我当时花了很多精力去学习和调研相关的知识脉络,比如对于InfoNCE loss,有一条研究线是基于information bottleneck(IB)学习的准则去演化的。我就沿着这条线去“考古”,从00年的IB学习,一路到13年variational-bound等,确实学到了很多改变我个人世界观的知识体系和思维方法,意识到了领域的发展是一脉相承、螺旋上升的。因此,在看到很多现在比较新的工作的时候,我就会立即产生很多想法。也是因为这个原因,每次参加现场的讨论时,我就能想到很多问题,因此跟大家交流也会相对比较愉快。
胡瀚:下一个问题给黄高老师。黄高老师的DenseNet令我印象比较深刻的其中一点就是它开源做的很好,后续更新也很频繁和即时,我觉得是一个典范。其实我们当时做Swin Transformer开源找参考对象的时候,第一想到的就是DenseNet。我觉得开源其实也是种交流,我想问问黄高老师有没有什么可以给大家分享的。
黄高:我个人是非常支持开源的,因为我自己就是开源的受益者。刚刚也提到,DenseNet是我第二个深度学习的工作,半年时间能够从入门深度学习到把ImageNet跑起来,如果没有别人的开源基础,难度可能非常大。光实现那些data augmentation,optimizer,可能要花很长的时间。也就是说,开源很大程度上促进整个学术界的发展。从另一方面,就是对开源作者自身来说,也有助于扩大自己的影响力。我们开源代码之后,很快就有很多人follow我们的工作。另外还有一点就是可以push自己规范地写代码。因为代码要开源出来给别人看,就不会去想着去玩一些trick,从而强迫自己去想一些更本质的问题,。现在当老师之后,我基本上要求所有的工作都要开源代码,这样也能防止发表一些错误的结果,并提高工作的质量。以上是我对开源的几个看法。
胡瀚:最后一个问题留给戴老师。我们都知道戴老师可能是现在国内高校里唯一的一位最佳论文获得者,我想问一下,我们国内的学术圈作为一个整体,包括高校、企业研究院,怎么能够整体提升我们论文的质量。
戴玉超:我的第一个感触就是刚才也提到过的这个国际交流。我们CVPR12年的这个工作,其实是跟澳大利亚国立大学里的李洪东老师一块儿合作的。我确实也感觉,回溯十年前,其实这个国际交流是非常重要的。哪怕就是说在现在这个国际形势下,包括疫情,包括国际关系的情况下,我还是经常给学生讲,不管是我们的学校的本科生还是研究生,我还是鼓励大家去交流。虽然说我们现在国内很多高校,比如像清华水平非常的高,但是我是觉得从不同的研究氛围来说,交流其实还是非常有必要的。大家有不同的知识背景,不同的文化体系等等是有利于这些创新性的成果的。第二个,从研究的工作方面的话,视觉跟其它领域的一些交叉其实也是非常重要。第三个,刚才提到最佳论文这块,我觉得咱们国内的第一单位的最佳论文奖,肯定是比较短的时间里面,完全可以期待,绝对是未来可期。我们自己培养学生,再拿一个这样的最佳论文,这也是我非常期望看到的。
点击进入—> CV 微信技术交流群
ICCV和CVPR 2021论文和代码下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看