国际计算机视觉与模式识别会议(CVPR)是计算机科学领域中的顶级会议之一,也是图像处理、机器学习、人工智能等多个领域的交叉学科会议。
每年的CVPR会议都会有大量的论文投稿和学术交流活动,其中涵盖了包括图像处理、计算机视觉、模式识别、机器学习、深度学习、人工智能等多个研究方向,是该领域最具有影响力和代表性的学术会议之一。
CVPR 官网公布了CVPR2023 的最佳论文候选列表,分别来自斯坦福、谷歌、上海人工智能实验室、武汉大学、港中文、商汤等机构。
我们在这里展示出12篇论文,欢迎下载收藏!
1.Ego-Body Pose Estimation via Ego-Head Pose Estimation 论文详情页
作者:斯坦福大学
链接:https://www.aminer.cn/pub/63969ba690e50fcafdcf1920/
AI综述(大模型驱动):本文提出了一种基于个体头部姿态估计的新技术,通过个体头部姿态估计(EgoEgo)将问题分解为两个阶段,将头部运动作为中期表示。EgoEgo首先整合了slam和一个学习方法来估计准确的头部运动。然后,利用预先估计的头部姿势作为输入,EgoEgo利用条件传播生成多个 plausible全身体运动。这一分解使我们能够有效地利用大规模个体中心视频数据集和人脸运动数据集进行协同训练。
2.3D Registration with Maximal Cliques 论文详情页
作者:西北工业大学
链接:https://www.aminer.cn/pub/6464afb7d68f896efa35528b/
AI综述(大模型驱动):本文提出了一种最大向量三维注册方法(MAC),该方法能够获得最优的姿态假设。核心洞察力是淡化以前的最大向量约束,并在图中获取更多局部一致性信息以生成准确的姿态假设。1)构建了一个compatibility图,以生成初始对话之间的亲密关系,2)通过节点引导按钮选择,每个节点代表一个共识集,3)通过 SVD算法计算所选节点对转换假设,使用最佳假设进行注册。U3M、3DMatch、3DLoMatch和 KITTI的实证结果表明,MAC有效地提高了注册精度,
3.OmniObject3D: Large Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation 论文详情页
作者:上海人工智能实验室,香港中文大学,商汤,香港科技大学,南洋理工大学
链接:https://www.aminer.cn/pub/63c8b59590e50fcafd90bc29/
AI综述(大模型驱动):我们提出了全局实体3D数据集,它包含带有大量的真实扫描的3D对象。为在现实世界中促进三维感知、建模和生成而创建的数据库提供了一个巨大的广义探索空间。该数据集由2D和3D传感器捕捉到的6000多张照片组成。
4.MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures 论文详情页
作者:谷歌,西蒙弗雷泽大学
链接:https://www.aminer.cn/pub/62ea18d35aee126c0fca1069/
AI综述(大模型驱动):神经光线 Fields(NeRFs)已经证明了将三维图像从新视图合并的惊人能力。然而,这些算法依赖于基于射影运动的特殊卷积解析算法,这些模型与广泛部署的图形硬件的能力不相称。本文介绍了一种基于模块化矩阵的神经光射影表示,该表示可以有效地将新图像合并起来。该表示以一组矩阵表示单个恶性肿瘤和特征向量为特征。传统的显示方法产生了一个有特征的图像,每个片段都被一个小的观察相关MLP执行,以生成最终的片段颜色。这种方法使NeRF以传统的三角图像转换生成带有特征的对称图像。
5.DynIBaR: Neural Dynamic Image-Based Rendering 论文详情页
作者:谷歌,Cornell Tech
链接:https://www.aminer.cn/pub/637c3dd090e50fcafd77c6d8/
AI综述(大模型驱动):我们解决了从动画中生成新的视图的问题。基于时间变换的神经递质波束(即动态神经元波束)方法已经在这个问题上取得了令人印象深刻的结果。然而,对于具有复杂的对象运动和无限制摄像机的长视频,这些方法可能会产生混乱或不准确的帧制作,这严重阻碍了实际应用程序中的使用。我们提出了一种新的系统,该系统利用了先前的方法的优点,但也允许将该方法应用于具有挑战性的野外视频,where以前的方法无法产生高质量的帧制作。我们展示了我们的系统在带有挑战性的摄像机和物体运动特征的高清数据集上取得的显著改进。
6.Planning-oriented Autonomous Driving 论文详情页
作者:上海人工智能实验室,武汉大学,商汤
链接:https://www.aminer.cn/pub/63a2794890e50fcafd2940e0/
AI综述(大模型驱动):我们提出了一种新的自动驾驶系统框架。它融合了全栈汽车驱动任务和感知、预测和规划的模块。该框架是第一个在一组网络中集成所有可用程序的全面框架。为了达到这个目的,我们分析每个模块,并将其视为层次问题,以便所有这些任务都有助于实施(目标)规划。最后,我们引入了一个联合查询设计框架,它提供了额外的特征抽象来促进相互推理。
7.DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 论文详情页
作者:谷歌,波士顿大学
链接:https://www.aminer.cn/pub/630839f090e50fcafd6abc88/
AI综述(大模型驱动):大规模文本到图的传播模型在人工智能的进步中取得了令人惊叹的飞跃,允许从给定的文本 prompt中产生高品质和多样化的图像。然而,这些模型缺乏在给定的引用集中模拟受试者的外观,并在不同的上下文中产生新弹唱。在本文中,我们提出了一种新的文本语料库传播模型的"定制化"。
8.On Distillation of Guided Diffusion Models 论文详情页
作者:斯坦福大学,Stability AI & LMU Munich,谷歌
链接:https://www.aminer.cn/pub/63438d2190e50fcafd4eae51/
AI综述(大模型驱动):基于分类器的无监督传播模型最近被证明在高解析图生成中非常有效。然而,这些模型的缺点是它们在推理时间上计算昂贵。为了解决这个问题,我们提出了一种将无监督分类器驱动传播模型转换为比原始模型更快的方法。
9.Visual Programming: Compositional visual reasoning without training 论文详情页
作者:艾伦人工智能研究所
链接:https://www.aminer.cn/pub/637c3dd690e50fcafd77cd8b/
AI综述(大模型驱动):我们提出了维斯普罗格,一种根据自然语言指令解决复杂和组成性视觉任务的方法。它使用大规模语言模型的上下文学习能力生成类似模块程序,然后执行以得到解决方案和解释的可解释理由。生成的每个节点都会引入一个或多个远程计算机视觉模型、图像处理常规或python函数来生成中间输出。我们证明了维斯普罗格在4个不同的任务中具有灵活性,包括绘制图像问题回答、不射影子推理、事实知识实体标注以及语言引导图片编辑的能力。
10.What Can Human Sketches Do for Object Detection? 论文详情页
作者:University of Surrey
链接:https://www.aminer.cn/pub/64225b7d90e50fcafde14e97/
AI综述(大模型驱动):本文首次开发了一种基于素描的图像检索框架。结果是一个基于素描的图像检测框架。该框架不需要(i)知道测试的类别和(ii)需要额外指定标签和类别标记。Instead,我们证明了两种基本模型之间的直觉结合,可以有效地解决CLIP的问题,并为图像检索提供模型推广。在标准的图像检测数据集上评估我们的框架表现优于监督和弱监督对象检测器。
11.Data-driven Feature Tracking for Event Cameras 论文详情页
作者:University of Zurich
链接:https://www.aminer.cn/pub/637ee0ee90e50fcafd0f6f36/
AI综述(大模型驱动):事件摄像机在高分辨率和低噪声中非常受欢迎。然而,现有的特征跟踪方法都是手工制作或从原始原则中派生出来的。我们提出了第一个数据驱动功能追踪器,它利用低时隙事件来捕捉特征。通过一种新的框架注意模块将观察到的零射击传输到实际数据上。
12.Integral Neural Networks
——————————————————————————————————————
CVPR会议页:
https://www.aminer.cn/conf/5eba43d8edb6e7d53c0fb8a1/CVPR2023