CVPR2023 预训练论文合集

国际计算机视觉与模式识别会议(CVPR)是计算机科学领域中的顶级会议之一,也是图像处理、机器学习、人工智能等多个领域的交叉学科会议。

每年的CVPR会议都会有大量的论文投稿和学术交流活动,其中涵盖了包括图像处理、计算机视觉、模式识别、机器学习、深度学习、人工智能等多个研究方向,是该领域最具有影响力和代表性的学术会议之一。

AMiner通过AI技术,对 CVPR2023 收录的会议论文进行了分类整理,今日分享的是预训练主题论文,共27篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!

1.Scaling Language-Image Pre-training via Masking 论文详情页

作者:Yanghao Li,Haoqi Fan,Ronghang Hu,Christoph Feichtenhofer,Kaiming He

链接:https://www.aminer.cn/pub/63896cd690e50fcafde7a1f3/?f=cs

AI综述(大模型驱动):快速语言图像预训练(CLIP)是一种简单且更有效的方法来训练CLIP。我们的方法随机取出并删除训练中大量的图像片段。蒙面允许我们学习从相同的水平上给出的比对数据更多的图像文本对。这导致了精度和训练时间之间的有利竞争。在4000万个标记文本对上的实验中,通用程序提高了速度和准确性。

2.Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors 论文详情页

作者:Ji Hou,Xiaoliang Dai,Zijian He,Angela Dai,Matthias Nießner

链接:https://www.aminer.cn/pub/63fec3ce90e50fcafdd70808/?f=cs

AI综述(大模型驱动): 我们提出了一种用于将高分辨率感知器嵌入二维图的加权自适应学习框架的新方法。该算法利用了现有的大型射影成像数据,并将这些先验纳入了学习到的二维特征表示。与传统的三维透镜学习范式需要3D重建或多个视角对应的传统方法不同,我们的方法非常简单:我们在单个色调和深层补丁中掩盖每个片段的蓝色光束。我们证明,基于加权自适应的学习框架特别有效地将3D先验纳入二维图的强大支持向量机,帮助各种场景理解任务提高解析学习。实验表明,基于加权自适应的学习框架在ScanNet、NYUv2和Cityscapes等领域表现最好的自我监督训练方法之一。

3.REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory 论文详情页

作者:Ziniu Hu,Ahmet Iscen,Chen Sun,Zirui Wang,Kai-Wei Chang,Yizhou Sun,Cordelia Schmid,David A. Ross,Alireza Fathi

链接:https://www.aminer.cn/pub/6397ed4d90e50fcafdf43b4b/?f=cs

AI综述(大模型驱动):在本文中,我们提出了一种增强的图形语言模型(EVML),该模型学习将世界知识编码成大规模记忆。EVML由4个关键组件组成:内存、解码器、提取器和生成器。通过统一的解码器对各种多向世界知识的来源进行编码。解码器发现记忆中最重要的知识条目,并生成器将这些信息与输入查询相结合以产生输出。我们的方法的一个亮点是它可以使用多种多向的知识源来实现显著的改进。

4.Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information 论文详情页

作者:Weijie Su,Xizhou Zhu,Chenxin Tao,Lewei Lu,Bin Li,Gao Huang,Yu Qiao,Xiaogang Wang,Jie Zhou,Jifeng Dai

链接:https://www.aminer.cn/pub/6376f7e090e50fcafdb9c732/?f=cs

AI综述(大模型驱动):为了有效利用大规模模型的潜力,提出了各种训练策略,包括监督训练、轻度监督训练和自我监督训练。已经证明,结合多种训练策略和来自各种模块/来源的数据可以 greatly提高大型模型的训练。然而,目前的工作采用了一个多阶段预训练系统,其中复杂的管道可能会增加预训练的复杂性和不稳定性。因此,迫切需要将这些策略整合到一个单阶段的方法中。在本文中,我们首先提出了一种通用多阶段互信息公式,作为联合优化目标,并证明了所有现有的方法都是我们的框架的特殊案例。在这种统一的视角下,我们提出了一种称为最大化多阶段相互信息预训练(M3I预训练)的方法,该方法优于在维特比、COCO对象检测、LVIS长距离物体检测和AD20K语义分割中获得的最佳性能。

5.Geometric Visual Similarity Learning in 3D Medical Image Self-supervised Pre-training 论文详情页

作者:Yuting He,Guanyu Yang,Rongjun Ge,Yang Chen,Jean-Louis Coatrieux,Boyu Wang,Shuo Li

链接:https://www.aminer.cn/pub/6401669c90e50fcafd688d4f/?f=cs

AI综述(大模型驱动): 我们提出了一种新的图像相似性学习范式,即方形图像相似性学习。它将概率推断的先验融入到语义区域一致性的测量中,从而指导不同大小级别之间的预测和表示学习。我们的实验表明,在三维建模任务中,这项技术可以产生更强大的内景、外景和全球局部传输能力。

6.DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment 论文详情页

作者:Lewei Yao,Jianhua Han,Xiaodan Liang,Dan Xu,Wei Zhang,Zhenguo Li,Hang Xu

链接:https://www.aminer.cn/pub/6434cfd690e50fcafd7a476f/?f=cs

AI综述(大模型驱动):本文介绍了DetCLIPv2,一个有效的和可扩展的训练框架,结合大规模图像文本对进行开放词性标记(OVD)。与以前的OVD框架相比,DetCLIPv2直接从大量图像文本对中学习细粒度字符区域对齐,从而提高了模型的局部化能力。该模型通过联合训练和采用低分辨率输入来有效地利用图像文本对数据,DetCLIPv2在相同的训练时间上比DetCLIPv2使用更多图像文本对,并且提高了性能。

7.Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training 论文详情页

作者:Dezhao Luo,Jiabo Huang,Shaogang Gong,Hailin Jin,Yang Liu

链接:https://www.aminer.cn/pub/6400163c90e50fcafdd025a0/?f=cs

AI综述(大模型驱动):为实现可推广的视频文本对齐,我们提出了一种通用的方法,即视图动态投射(VDI)。通过将大型图像文本数据与局部时间特征集成到训练中来增强对齐能力,该方法实现了最先进的性能。在两个评估指标上进行了广泛的实证研究,并取得了有史以来最好的结果。

8.Non-Contrastive Learning Meets Language-Image Pre-Training 论文详情页

作者:Jinghao Zhou,Li Dong,Zhe Gan,Lijuan Wang,Furu Wei

链接:https://www.aminer.cn/pub/634e195790e50fcafd250b82/?f=cs

AI综述(大模型驱动):本文探讨了非对称语言图像预训练(nCLIP)的有效性,并研究了视觉自监督模型中表现出的优点。实验结果表明,non contrastive objective养活表示学习,而在零射击检测条件下,non contrastive objective在表示学习方面至少优于零射击识别。xCLIP是一个多项式框架,结合nCLIP和xCLIP,用于提高特征语义。这些相互作用使得xCLIP能够享受两种世界的最佳性能:在零射击传输和表示学习上实现更高的性能。

9.Position-guided Text Prompt for Vision-Language Pre-training 论文详情页

作者:Alex Jinpeng Wang,Pan Zhou,Mike Zheng Shou,Shuicheng Yan

链接:https://www.aminer.cn/pub/63a1751790e50fcafd1f49cc/?f=cs

AI综述(大模型驱动):本文提出了一种新的顶点引导文本求助范式,以提高基于图像和文本对的跨向量学习模型的视觉基础能力。该范式通过将图像分割为"N"块,并通过广泛使用的图像探测器识别每个块中的物体,将视觉基础任务转换为填充空白问题,从而鼓励模型预测给定的片段中的物体或归因给定的物体。通过引入PTP到许多最先进的VLP框架中,我们发现PTP在多个代表性的跨向量学习模型架构和几项基准上都实现了显著的改进。

10.MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training 论文详情页

作者:Runsen Xu,Tai Wang,Wenwei Zhang,Runjian Chen,Jinkun Cao,Jiangmiao Pang,Dahua Lin

链接:https://www.aminer.cn/pub/641d14e590e50fcafdf762c0/?f=cs

AI综述(大模型驱动):本文介绍了基于LiDAR的自我监督前训练方法和一个精心设计的数据效率的3D物体检测基准。灵感来自downstream 3D物体探测器的场景向量分区,我们设计了掩盖和重塑策略,以解决局部点分布的问题,并提出了MV Jar,该策略结合了两种模型建模所提出的分布,提高了性能。实验结果表明,MV Jar在各种数据规模上均表现出优异的3D物体检测性能,达到高达6.4%。与原始训练相比,基准测试实现了高达90%的mAPH提升。

—————————————————————————————————————

想查看全部预训练论文,可以点击这里:

https://www.aminer.cn/conf/5eba43d8edb6e7d53c0fb8a1/CVPR2023

你可能感兴趣的:(人工智能,计算机视觉,预训练,CVPR,学术论文)