关于蚂蚁技术研究院的那些事儿|交互智能实验室篇

近日,计算机视觉三大顶级会议之一CVPR 2023 论文接收结果正式公布。据官方信息统计,2023年共收到 9155 份有效投稿,较22年增加12%,投稿论文数量创下新高,最终接收论文2360 篇,接收率为 25.78%。
图片
此次蚂蚁技术研究院交互智能实验室共有13篇论文入选,论文研究方向主要集中于生成模型与三维视觉领域。
图片

交互智能实验室

作为蚂蚁技术研究院首批落地建成的实验室,交互智能实验室主要研究方向为生成模型、三维视觉、多模态及人机交互。实验室成员来自清华大学、浙江大学、中国科学技术大学、香港中文大学、香港科技大学等。目前与清华大学、上海交通大学、香港大学、牛津大学、加州大学伯克利分校等多所海内外高校均有合作。在过去的一年多时间里,蚂蚁技术研究院交互智能实验室进行了生成模型与三维视觉领域的多项研究,包括基础生成模型(如生成对抗网络、扩散模型等)、生成模型的可控性与可解释性、三维感知的生成模型与视频生成模型、数字人及数字场景等细分领域,取得了一定阶段性的成果。截至目前,交互智能实验室共有21篇论文被国际顶会录用,其中ICML2022录用2篇,NeurIPS 2022 录用4篇,TPAMI2022录用1篇,ICLR2023录用1篇,CVPR2023录用13篇,聚焦计算机生成模型、三维视觉等领域的相关问题,为解决学术问题而不懈努力。

入选论文推介

获CVPR 2023收录:

Learning 3D-aware Image Synthesis with Unknown Pose Distribution
现有的三维感知图像生成工作需要一个准确的三维姿势(3D pose)先验来保证生成质量。然而获取一个准确的姿势先验是很困难的,通常需要大量的实验调试。为此,蚂蚁技术研究院交互智能实验室提出了用PoF3D来免除模型对三维姿势先验的依赖。首先,交互智能实验室为生成器配备了一个姿势学习器来从隐空间中推断出一个姿势,以自动学习真实图像的姿势分布。然后,为判别器设计了一个姿势预测的分支,并利用预测出的姿势作为判断图像真假的条件。在多个数据数据集上的实验表明,我们的方法在不借助任何先验的情况下,在图像质量和几何质量的测量指标上都达到了领域内的领先水平。

获ICLR 2023收录:

Towards Smooth Video Composition
论文提出了一个新的视频生成方法——StyleSV。基于生成对抗网络(GAN)的图片生成研究工作于近年虽然取得了显著的进展,然而如何利用GAN进行视频生成仍是一个颇有挑战的问题。面对这个挑战,蚂蚁技术研究院交互智能实验室针对不同跨度(短时、适中、长范围)的时序关系,分别对视频进行了细致的建模与改进,并在多个数据集上取得了相较于之前工作大幅度的提升,为基于GAN的视频生成方向提供了一个简单又有效的新基准。

蚂蚁技术研究院和他的实验室们

致力于做有用、有想象力的科研,蚂蚁技术研究院面向数字化、智能化的未来,瞄准世界科技前沿,推进关键核心技术攻关,促进“产学研用”深度融合,为中国数字经济的做强做大做优贡献力量。除交互智能实验室外,蚂蚁技术研究院还设有数据库实验室、图计算实验室、密码学实验室、程序设计语言与编译器实验室以及计算系统实验室共六大实验室,共同探索前沿技术领域发展。今天的蚂蚁技术研究院刚刚起步,交互智能实验室的些许成果,是我们这一年的成绩单,也是献给业界同仁给予我们更多支持与关注的邀请函,我们真诚地期待更多有识之士的加入打造一个科技探索的殿堂,共同追求科技的进步。

请查收蚂蚁技术研究院成绩单
图片

你可能感兴趣的:(关于蚂蚁技术研究院的那些事儿|交互智能实验室篇)