计算机视觉最新进展概览2021年9月14日到2021年9月22日

1、Dense Semantic Contrast for Self-Supervised Visual Representation Learning

视觉预训练的自监督表示学习在样本(实例或像素)识别和实例语义发现方面取得了显著的成功,但预训练模型与下游密集预测任务之间仍存在不可忽视的差距。 具体来说,这些下游任务需要更精确的表示,换句话说,来自同一对象的像素必须属于共享的语义类别,这是前面的方法所缺乏的。 在本文中,我们提出了稠密语义对比(density Semantic Contrast, DSC),用于在稠密层次上建模语义类别决策边界,以满足这些任务的需求。 此外,我们提出了一个密集的跨图像语义对比学习框架用于多粒度表示学习。 特别地,我们通过从不同角度挖掘像素之间的关系来明确地探索数据集的语义结构。 对于图像内关系建模,我们从多个视图中发现像素邻居。 对于图像间的关系,我们强制来自同一语义类的像素表示要比来自不同语义类的像素表示更相似。 实验结果表明,在目标检测、语义分割和实例分割等下游密集预测任务中,该模型的性能优于当前最先进的方法。 代码将提供。  

2、Federated Contrastive Learning for Decentralized Unlabeled Medical Images

计算机视觉中的标签有效范式是基于对未标记数据的自我监督对比预训练,然后用少量标签进行微调。 在临床领域实际使用联合计算环境和医学图像的学习带来了特定的挑战。 在本研究中,我们提出了FedMoCo,一个鲁棒联邦对比学习(FCL)框架,它可以有效地利用去中心化的无标记医疗数据。 FedMoCo有两个新模块:元数据传输(节点间统计数据增强模块)和自适应聚合(基于表征相似分析的聚合模块)。 据我们所知,这是第一次在医学图像上的整箱工作。 我们的实验表明,在为下游任务提取有意义的表征方面,FedMoCo的表现始终优于FedAvg(一种开创性的联邦学习框架)。 我们进一步证明,FedMoCo可以大幅减少下游任务(如COVID-19检测)所需的标记数据量,以实现合理的性能。  

3、Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR

自监督单目深度预测为获取每个像素的3D位置提供了一种经济有效的解决方案。 然而,现有的方法往往导致精度不理想,这对自主机器人至关重要。 在本文中,我们提出了一种新的两级网络,利用低成本稀疏(如4波束)激光雷达来推进自监督单目密集深度学习。 与现有的稀疏激光雷达方法主要采用耗时的迭代后处理方式不同,我们的模型融合了单目图像特征和稀疏激光雷达特征来预测初始深度图。 在此基础上,进一步设计了一种高效的前馈细化网络来修正这些初始深度图在伪三维空间中的误差,并具有实时性。 大量的实验表明,我们提出的模型在自监督单目深度预测和完成任务方面显著优于所有最新的自监督方法,以及基于稀疏激光雷达的自监督单目深度预测方法。 通过精确的密度深度预测,我们的模型在KITTI排行榜上的下游任务单目3D物体检测中,比最先进的基于稀疏激光雷达的方法(Pseudo-LiDAR++)高出68%以上。  

4、Primary Tumor and Inter-Organ Augmentations for Supervised Lymph Node Colon Adenocarcinoma Metastasis Detection

标记数据的缺乏是开发精确和健壮的基于深度学习的组织病理学应用模型的主要瓶颈。 淋巴结转移检测的问题尤其突出,因为该组织的肿瘤与非肿瘤比率较低,导致病理学家需要花费大量的劳动和时间进行注释。 这项工作探索了如何在目标域有限或没有表示的情况下增加结肠癌转移检测的训练数据的替代方案。 通过对有限训练数据可用性的交叉验证实验的详尽研究,我们评估了利用其他组织已有数据的器官间方法和利用原发肿瘤的器官内方法。 这两种方法几乎不需要额外的注释工作。 我们的结果表明,这些数据增强策略可以有效地提高转移检测的准确性,但最重要的是提高鲁棒性。  

5、An End-to-End Transformer Model for 3D Object Detection

提出了一种基于Transformer的端到端三维点云目标检测模型3DETR。 与现有的检测方法采用一些3d特定的归纳偏差相比,3DETR只需要对香草Transformer块进行最小的修改。 具体来说,我们发现带有非参数查询和傅立叶位置嵌入的标准Transformer与使用带有手工调优超参数的3d特定运算符库的专门架构具有竞争力。 尽管如此,3DETR在概念上很简单,易于实现,可以通过整合3D领域知识来进一步改进。 通过大量的实验,我们表明3DETR在具有挑战性的ScanNetV2数据集上比完善和高度优化的VoteNet基线性能高出9.5%。 此外,我们还证明了3DETR适用于非检测的3D任务,可以作为未来研究的基石。  

6、Multi-Scale Aligned Distillation for Low-Resolution Detection

在实例级检测任务(例如,对象检测)中,降低输入分辨率是提高运行时效率的一个简单选项。 然而,这个选项在传统上大大降低了检测性能。 本文的重点是通过从高或多分辨率模型中提取知识来提高低分辨率模型的性能。 我们首先确定了将知识蒸馏(KD)应用于教师和学生网络的挑战,这些网络在不同的输入分辨率下发挥作用。 为了解决这一问题,我们探索了通过移动特征金字塔位置在不同输入分辨率模型之间空间对齐特征地图的想法,并引入对齐多尺度训练来训练多尺度教师,使其能够将知识提取给低分辨率学生。 进一步,我们提出交叉特征级融合,动态融合教师的多分辨率特征,更好地指导学生。 在几个实例级检测任务和数据集上,通过我们的方法训练的低分辨率模型与通过传统多尺度训练训练的高分辨率模型具有竞争力,而在mAP方面比后者的低分辨率模型高出2.1%到3.6%。

7、PnP-DETR: Towards Efficient Visual Analysis with Transformers

最近,DETR率先使用变压器解决视觉任务,直接将图像特征图转换为目标检测结果。 虽然有效,但由于在某些区域(如背景)上的冗余计算,翻译完整的特征图可能是昂贵的。 在这项工作中,我们将减少空间冗余的想法封装到一个新颖的轮询和池(PnP)采样模块中,我们构建了一个端到端PnP- DETR体系结构,自适应地分配其计算空间,以提高效率。 具体来说,PnP模块将图像特征映射抽象为精细的前景目标特征向量和少量的粗背景背景特征向量。 该转换器对细-粗特征空间内的信息交互进行建模,并将特征转换为检测结果。 此外,pnp增广模型无需像现有方法那样训练多个模型,只需改变采样特征长度,即可在单个模型上实现各种性能和计算之间的理想权衡。 因此,它为不同计算约束的不同场景的部署提供了更大的灵活性。 我们进一步验证了PnP模块在全光学分割和最近基于变压器的图像识别模型ViT上的通用性,并显示了一致的效率增益。 我们相信我们的方法是一步有效的视觉分析与Transformers,其中空间冗余是常见的观察。计算机视觉最新进展概览

你可能感兴趣的:(计算机视觉,tensorflow,线性代数,深度学习)