原来他们是这样走过来的!
【AI红人荟】——这里是TechBeat人工智能社区为优秀的AI工作者开设的人物专访栏目。从膜拜“红人”到成为“红人”,TechBeat与你一起,在AI进阶之路上,升级打怪、完美通关~
本篇人物,是来自同济大学的研究生陈涵晟,去年他的团队获得了CVPR最佳学生论文奖,这是CVPR近十五年来,第一个中国高效的论文一作获得者。他的研究方向是3D计算机视觉,在研究生入学以来一直专注于研究基于图像的3D物体位姿估计问题,现已在CVPR发表两篇一作论文,其中一篇获得最佳学生论文奖。
以下为采访全文,欢迎阅读~
2022年的CVPR最佳学生论文奖(EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation),颁发给了来自同济大学的研究生陈涵晟及其团队。这是CVPR近十五年来,首次迎来来自中国高校的论文一作获奖者。即将进入斯坦福大学就读博士学位的陈涵晟,与我们聊了华丽标签背后,自己少年偏科、偏执3D建模学习、沉心做冷门基础研究的技术人经历,其中无不透露出他坚定于用视觉方式为世界创造美好的信仰理念。这份单纯执着的底气来自哪里?细聊之后,我们记录下他的非典型成长故事。
一个经典问题,人是应该补足短板?还是应该发展长板?这个问题,不同性格、不同成长阶段,应该会给出不同的答案。
而陈涵晟在聊到自己小时候的兴趣时,非常坦荡甚至有些自信地承认:从小就是理工科和英语好,语文一直最差,一直没变过。
电脑是自己从小玩到大无可替代的最佳玩伴。“上小学时候就被爸爸带着玩游戏,他近视,但是也不担心我会近视。玩多了就觉得游戏本身给你提供的创造空间有限,然后我就想到:里面的一部分内容是可以通过自己学习建模去创造的。”
进入初中,陈涵晟开始琢磨起来怎么自学3D建模。但是,为什么非得是3D呢?
他说:“3D游戏,可以提供一个让你从现实生活中短暂抽离出来,进入一个虚拟世界的沉浸感。我觉得这是其他任何媒体都没办法提供的神奇体验,而且是交互式的。其他媒体,比方说电影,是被动地去接受,而游戏是主动交互。这种感觉让人很上瘾。十几年前的赛车游戏就可以做到画面非常逼真了,现在更不得了。像是虚幻5这样的引擎,非常了不起。”
“如果你把3D从我的研究中拿掉,我就没有任何东西了。”陈涵晟笃定地讲到。
后来进入高中,陈涵晟成为一名业余的游戏开发者,做了非常多第三方内容。这些从小的“童子功”,让他现在对3D渲染各自应用的操作非常熟练。
本科时候,陈涵晟更进一步,把3D和自己喜欢的赛车爱好联系到了一起,如今看来,也是非常具有交叉学科思维了。他加入赛车队,利用仿真和建模技术,与空气动力学、流体仿真相结合去设计赛车的3D外形。
TR18赛车宣传照
2018年日本比赛,陈涵晟所在的队伍拿到了油车总季军的好成绩,“感觉这么多年对赛车的热爱和付出都获得了回报!”如果从小习得的3D建模本领是手中的super power,那么这次高光时刻的经历,是他用自己的power实现技术落地的最有力证明,相信也是他科研自信的来源之一。
2018日本参赛合照
对一件事物感情的培养或许就在一朝一夕之间。从一个喜欢在外面疯玩的混小子,到逐渐能坐得下来搞开发工作的稚气青年,陈涵晟从高中到开始,一点点收敛自己的玩心,一点点释放对计算机学习的锐气。他自己都承认说,研究生期间,是自己最“宅”的阶段,没有想到自己能有这么多耐心做下来钻研课题。
意料之中,做科研完全符合陈涵晟的兴趣爱好。稚气青年在一段段“宅”下来的学习思考之后,也顺理成章地慢慢成为一名有专业思考和研究产出的AI科研者。
另一个陈涵晟学生工作的高光时刻,莫过于去年拿到 CVPR 最佳学生论文奖的那一刻。
这是一篇关于 EPro-PnP 的论文,论文研究的问题是基于单张 2D 图像估计物体在 3D 空间中的位姿。陈涵晟团队从几何视觉算法出发,提出了 EPro-PnP 模块,其输出位姿的概率密度分布而非单一的位姿最优解,从而将不可导的最优位姿替换为了可导的概率密度,实现了稳定的端到端训练。
论文解读文章: 《CVPR 2022 最佳学生论文:单张图像估计物体在3D空间中的位姿估计》 Talk分享: https://www.techbeat.net/talk-info?id=685
陈涵晟介绍,如何在各种情况下(包括多模态歧义位姿情况下)把 PnP 变成一个端到端的模块,这个课题从本科毕业论文时候就着手做了。当时自学了很多基础书籍,比如《视觉Slam十四讲》等,里面就提到了这些经典问题。
“这本书把基础知识抛给你,问题提出来,但是具体怎么用?怎么解决?就要发挥自己的能动性,看你怎么去设计一个网络,并把它放到实际的应用问题里了。我们后来发现,在端到端训练这里,现有的方法确实存在理论缺陷,从理论上来看,肯定是有方法解决的。所以硕士期间一直在钻研这个问题,并最终通过提出EPro-PnP得到了一个比较圆满的解决方案。”
小范围的应用场景,包括自动驾驶领域当中,可以使用相机做3D的目标检测,或是机器人领域,利用相机来定位物体做抓取。从整个几何视觉领域来看,用概率方法来做一个可微分的位姿求解器,理论上会有更广泛的应用。
但是拿到 CVPR 最佳学生论文奖,实属是个意外。因为这个研究方向更偏基础几何视觉,其中需要调用到的数学内容比经验的东西要更多一些,所以对应的研究门槛也相对较高,相对来说得到的关注度就会低一点。在当下人工智能热点涌动的时代,EPro-PnP 显得非常冷门,相关论文很难成为一篇高引用的论文。
这次获奖的经历,陈涵晟倒是非常平常心,坦言:“整个CVPR会议都在家里远程参与,远程做分享、做报告。”但是,有一点让他受到了非常大的鼓励,就是:“关注度低的经典问题并不代表没有价值,这次经历说明埋头做冷板凳,也可以取得一些成就。这个对于做冷门方向的同学来说,是非常受到鼓舞的事情!”
最佳学生论文奖颁奖现场(由微软研究院Dr. Jianwei Yang在新奥尔良代领)
“几何视觉里还有很多等待解决的经典问题,包括3D重建、structure from motion这类问题。针对这些问题,也有很多新的解决方法,比方说nerf就是一种新的3D重建的方法。目前这个技术点非常热门,但它想解决的,实际上是计算机里非常经典的一个问题,非常值得深挖研究。包括现在的diffusion model,几年前研究的人也很少,但现在大家看到了好的效果,就都转身去关注它。但如果没有人做这些冷门的开创性的东西,可能就永远看不到技术创新的那一天。”陈涵晟分享道。
拿到 Best paper 这件事对陈涵晟的科研习惯也产生了影响。过去,陈涵晟倾向于独立完成工作,主动与外界发生连接、交流的动力也不是很足。但这次的获奖经历“强行”给了自己与前辈、牛人、同行在各种Talk、活动上交流的机会。他承认与外界交流,能够对打开自己的研究视野非常有帮助,是本次获奖很有意义的收获。陈涵晟也很期待10月份在巴黎的 ICCV 上能遇到更多切磋交流的伙伴。
今年秋天,陈涵晟即将进入斯坦福大学攻读计算机科学博士。细细想来自己申请博士的过程,陈涵晟总结,相比于硕士期间获得Best Paper的经历,自己3D建模+艺术+机械工程交叉领域的背景似乎更被申请学校的老师们看重。“老师们是可以看出你是真的从兴趣出发,有经验背景积累来做研究的,而不是为了名号、成绩、奖项这些。”
在登山圈中,有这样的任务分类:挑战(challenge)还是冒险(adventure)?挑战意味着,目前存在特定已知的艰难问题,等待大家去攻克,比方说这座山很高、很陡、地形复杂等等。而冒险则意味着,面前的路充满未知的风险,并不知道太多地形、气候变化等明确信息,需要登山者强大的驱动力和好奇心来解决前路面对的各种风险。两种任务同样都充满挑战,同样都不可或缺,同样会给登山者带来思考价值,但却对应了两种不同的探索态度、不同的求索风格。
在高速运转的计算机行业,哪些问题属于挑战?哪些属于冒险呢?
“挑战意味着challenging,你知道这个问题非常难,解决之后会给应用行业带来很大价值。比方说,我们同济大学汽车学院是做自动驾驶的,大家对未来的任务会有一个基本的规划,怎么去落地?怎么去设计方案?还有哪些板块需要攻克?这些都是非常具体、具有挑战性的工作。而冒险则意味着,你不去做,你就不知道这个问题未来会产生什么影响。如果去冒险,那么首先你要具备攻克很多挑战的能力和心态,去探索很少有人会去走的路。当有人证实了冒险的路可行之后,它就变成了一个challenge,可以不断优化细节、攻克更多可预见的难题的挑战任务。”陈涵晟聊到,创新领域的研究工作很多时候就是在做冒险。“我的重心不再放在应用层,而是希望有更大空间和资源来做之前没有人尝试过的idea。这个心态对基础研究来说,非常重要。”说到这里,陈涵晟语气十分坚定:“所有的研究课题都是自己proposal,不是别人给我的idea。”
如果目光放向未来,科技领域的工作更需要挑战还是冒险呢?陈涵晟认为,具体的挑战类型的工作,比方说需要编程来完成的工作,现在我们已经有了各种copilot,未来可能会有类似科幻电影《钢铁侠》里的JARVIS这样的通用AI助手,来协助完成基本工作。但是如果你想走得更远,做更多冒险工作,那么基础思维能力不可缺少。数学就是其中最重要的一环。这样基础的能力并不意味着可以直接拿来解决问题,而是可以提出新的问题,拓展人类的思维边界。这样的能力,短期来说AI还是很难实习,因此科技的进步仍然需要人类去推动。
工作照
成为在游戏、电影、娱乐、工程等方面利用3D建模技术进行设计的贡献者,是陈涵晟一直在做的事。技术与艺术的相融相生,从小时候起,就成为他观察世界的独特视角。“商业艺术,很大程度上是可以借助AIGC,来拓展更多应用场景,来迎合大众的需求。但是艺术的初衷并不是为了服务商业的,而是人类对美的表达和追求。审美的趋势、潮流的走向,从某种意义上来看,也是一种对未知的冒险,而非解决特定任务的挑战。这件事还是需要人类来引领,而非计算机可以实现。”
赛车CFD仿真中对湍流的(艺术风格)可视化
当AI可以解放更多人的双手,帮助大家从机械性工作里抽身出来,大家会有更多的时间、精力,也有更多AI工具,去动手享受创作的乐趣。对艺术、对创作的感受和理解,毋庸置疑会成为每个人必选的一项课题。艺术家安迪·沃霍尔曾说:“在未来社会,每个人都可能出名15分钟。”而现在看来,每个人都有机会每天当15分钟艺术家。
电影,尤其是科幻电影,是陈涵晟特别喜欢的艺术审美(商业艺术)表达形式。电影中的沉浸感会延伸我们的感官系统,拓展了生命的可能性,跟随不同角色的视角,也给我们带来不一样的体验。
其中,陈涵晟最喜欢、最希望推荐给大家的是两位科幻电影导演——丹尼斯·维伦纽瓦和克里斯托弗·诺兰的作品。“从技术的角度来看,我最喜欢诺兰的《星际穿越》,他把硬科幻的视觉表现搬上了大荧幕,请诺奖级别的物理学家和graphics行业内顶尖的工作室把基于物理模拟的黑洞视觉效果呈现出来,是技术和科幻最好的结合范例。从内容的内核角度上看,我最喜欢维伦纽瓦的《降临》这部电影,没有大场面打斗,但是平淡之中利用技术手段记录一个第三类接触的故事细节,带给人非常真实的感受,构建了一个非常沉浸的世界观。”
星际穿越电影海报
降临电影海报
--
陈涵晟的研究执着,还来源于对前人工作的敬畏。他说:“在研究领域,我觉得很少会出现从0到1颠覆式突破的情况,因为很多研究都是循序渐进的,都需要站在巨人的肩膀上。每一篇paper都是建立在很多paper的基础之上,提出进一步的问题和更完善一点的解决方法。”这样的理智,让他更有前进的底气和动力,在未来AI新人类时代,成为更有信念的冒险家!
//
嘉宾介绍陈涵晟
陈涵晟现为同济大学2020级硕士研究生,导师为熊璐教授,副导师为助理教授田炜。曾于2021年作为研究型实习生加入阿里巴巴达摩院,由王丕超博士指导。他的研究兴趣主要为3D计算机视觉,在研究生入学以来一直专注于研究基于图像的3D物体位姿估计问题,现已在CVPR发表两篇一作论文,其中一篇获得最佳学生论文奖。
个人网址:https://lakonik.github.io/engineering_art
-The End-