带掩码的自编码器（MAE）最新的相关论文推荐

1、Heterogeneous Graph Masked Autoencoders

Yijun Tian, Kaiwen Dong, Chunhui Zhang, Chuxu Zhang, Nitesh V. Chawla

生成式自监督学习(SSL)，特别是带掩码自编码器已经成为最令人兴奋的学习范式之一，并且在图学习方面显示出巨大的潜力。但是现实世界的图总是异构的，这带来了三个关键的挑战，现有的方法忽略了:

如何捕获复杂的图结构?
如何整合各种节点属性?
如何编码不同的节点位置?

这篇论文研究了异构图上的SSL的问题，并提出了一种新的异构图掩码自编码器模型HGMAE来解决这些问题。HGMAE通过两种创新的掩码技术和三种独特的训练策略捕捉全面的图信息。论文通过大量的实验证明，在跨多个数据集的多个任务上，HGMAE优于对比和最先进的基线。

2、Federated Self-Supervised Contrastive Learning and Masked Autoencoder for Dermatological Disease Diagnosis

Yawen Wu, Dewen Zeng, Zhepeng Wang, Yi Sheng, Lei Yang, Alaina J. James, Yiyu Shi, Jingtong Hu

https://arxiv.org/pdf/2208.11...

在皮肤病诊断中，由于收集的患者私人数据存在于分布式移动设备上。联邦学习 (FL) 可以使用去中心化数据来训练模型，同时保持数据本地化。现有的 FL 方法假设所有数据都有标签。但是由于标签成本高，医学数据通常没有完整的标签。自监督学习 (SSL) 方法、对比学习 (CL) 和掩码自编码器 (MAE) 是可以利用未标记数据来预训练模型，然后使用有限标签进行微调。但是结合 SSL 和 FL 是遇到的一个挑战。例如，CL 需要不同的数据，但每个设备只有有限的数据。对于 MAE，虽然基于ViT的 MAE 在集中学习中比 CNN 具有更高的准确性，但尚未有人研究 MAE 在 FL 中使用未标记数据的性能。此外，服务器和客户端之间的 ViT 同步与传统的 CNN 不同。因此，需要设计特殊的同步方法。

这篇论文提出了两个用于标签有限的皮肤病诊断的基于联邦学的自监督学习框架。第一个具有较低的计算成本，适用于移动设备。第二个具有高精度，适合高性能服务器。基于 CL提出了具有特征共享的联邦对比学习（FedCLF）。为不同的对比信息共享特征，而不需要共享原始数据以保护隐私。基于 MAE，提出了 FedMAE。知识拆分将每个客户那里学到的全局知识和本地知识分开。仅聚合全局知识以获得更高的泛化性能。对皮肤病数据集的实验表明，所提出的框架比现有技术具有更高的准确性。

3、Multimodal Learning with Channel-Mixing and Masked Autoencoder on Facial Action Unit Detection

Xiang Zhang, Huiyuan Yang, Taoyue Wang, Xiaotian Li, Lijun Yin

https://arxiv.org/pdf/2209.12244

利用多模态数据的可以为面部动作单元 (AU) 检测建立一个稳健的模型。但是由于多模态数据的异构性，多模态表示学习成为主要挑战之一。仅通过一个特征提取器很难从多模态中提取相关特征，以前的研究还没有充分挖掘多模态融合策略的潜力。前期融合通常需要在推理过程中使用所有模态，而后期融合和中间融合增加了特征学习的网络规模。与后期融合的大量工作相比，前期融合探索通道信息的工作很少。本文提出了一种新的多模态网络，称为多模态通道混合（MCM），可以作为一种预训练模型来学习更加稳健的表示并促进多模态融合。在自动面部动作单元检测的下游任务中评估学习的表示。我们对两个公共数据集（BP4D 和 DISFA）进行了广泛的实验，评估所提出的多模式框架的有效性和稳健性，结果表明论文的方法相当或优于于最先进的基线方法。

4、Contrastive Masked Autoencoders are Stronger Vision Learners

Zhicheng Huang, Xiaojie Jin, Chengze Lu, Qibin Hou, Ming-Ming Cheng, Dongmei Fu, Xiaohui Shen, Jiashi Feng

https://arxiv.org/abs/2207.13532

论文提出了一种一种新的自我监督预训练方法：对比的带掩码的自编码器 (CMAE)。通过新的设计将对比学习 (CL) 和掩码图像模型 (MIM) 精心统一起来，CMAE 充分利用了它们各自的优势，并学习了具有强实例可识别性和局部可感知性的表示。CMAE 由两个分支组成，其中在线分支是非对称编码器-解码器，目标分支是动量更新编码器。在训练期间，在线编码器从掩码图像的潜在表示中重建原始图像，以学习整体特征。输入完整图像的目标编码器通过与其在线对应物的对比学习来增强特征可辨别性。为了使 CL 与 MIM 兼容，CMAE 还引入了两个新组件。CMAE 在图像分类、语义分割和对象检测基准上实现了最先进的性能。CMAE-Base 在 ImageNet 上实现了 85.3% 的 top-1 准确率，在 ADE20k 上实现了 52.5% 的 mIoU，分别超过了之前的最佳结果 0.7% 和 1.8%。代码也即将公开。

5、Test-Time Training with Masked Autoencoders

Yossi Gandelsman, Yu Sun, Xinlei Chen, Alexei A. Efros

https://arxiv.org/abs/2209.07522

Test-Time Training通过对每个测试输入使用自监督优化模型来动态适应新的测试分布。论文使用带掩码自编码器来解决这个单样本学习问题。从经验上讲，这个简单方法提高了分布位移的许多可视基准的泛化能力。理论上，可以用偏差-方差权衡来描述这种改进

6、Exploring Target Representations for Masked Autoencoders

Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, Rongrong Ji

https://arxiv.org/pdf/2209.03917

MAE已成为自监督视觉表征学习的流行训练范式。这些模型随机屏蔽输入的一部分，并根据目标表示重新构建被屏蔽的部分。这篇论文首先表明：对于学习好的表示来说，仔细选择目标表示不是必须的，因为不同的目标往往派生出相似的行为模型。在这种观察的驱动下，论文提出了多级带掩码的蒸馏管道，使用一个随机初始化的模型作为老师，无需仔细设计目标表示就能够有效地训练高容量模型。论文还进一步探索了使用更大能力的教师模型，获得了具有显著转移能力的学生模型。在不同的分类、迁移学习、目标检测和语义分割任务中，论文提出的使用dBOT进行知识蒸馏的方法优于以往的自监督方法。

7、SdAE: Self-distillated Masked Autoencoder

Yabo Chen, Yuchen Liu, Dongsheng Jiang, Xiaopeng Zhang, Wenrui Dai, Hongkai Xiong, Qi Tian

https://arxiv.org/pdf/2208.00449

随着基于生成的自监督学习(SSL)方法的发展（如BeiT和MAE），如何通过屏蔽输入图像的随机补丁和重建丢失的信息来学习良好的表示已经引起了越来越多的关注。BeiT 和 PeCo 需要一个“预训练”阶段来生成用于表示补丁的离散码列表。MAE不需要这个过程，但设置像素作为重建目标可能会在预训练和下游任务之间引入优化差距，良好的重建质量不一定会导致模型的高描述能力。考虑到上述问题，本文提出了一种简单的自蒸馏掩码自编码器网络SdAE。SdAE由一个使用编码器-解码器结构来重建缺失信息的学生分支和一个生成掩码标记的潜在表示的教师分支组成。通过提供多个信息均衡的屏蔽视图来提高性能，同时也降低了计算复杂度。论文的方法具有很好的泛化性:在仅300轮预训练的情况下，普通的vito - base模型在ImageNet-1k分类上达到了84.1%的微调精度，在ADE20K分割上达到了48.6 mIOU，在COCO检测上达到了48.9 mAP，大大超过了其他方法。代码在这里https://github.com/AbrahamYab...

8、MeshMAE: Masked Autoencoders for 3D Mesh Data Analysis

Yaqian Liang, Shanshan Zhao, Baosheng Yu, Jing Zhang, Fazhi He

https://arxiv.org/pdf/2207.10228

自我监督的预训练使VIT在不同的数据模式(如图像和3D点云数据)下完成各种任务。这篇论文探索了基于transformer的3D网格数据分析学习范式。将Transformer架构应用到新的模式通常是并不简单，论文首先将Vision Transformer适应到3D网格数据处理，即mesh Transformer。将一个网格划分为几个不重叠的局部补丁，每个补丁包含相同数量的面，并利用每个补丁中心点的三维位置形成位置嵌入。受MAE的启发，还探索了基于transformer结构的3D网格数据预训练如何有利于下游3D网格分析任务。随机屏蔽网格的一些补丁，并将损坏的网格输入mesh Transformer，然后通过重构掩码补丁的信息，网络能够学习网格数据的判别表示。论文将此方法命名为MeshMAE，它可以在网格分析任务中（分类和分割）产生最先进的或相当的性能，这篇论文还进行了全面的消融研究，以展示方法中关键设计的有效性。

9、Masked Autoencoders that Listen

Po-Yao Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer

https://arxiv.org/pdf/2207.06405

这篇论文研究了基于图像的掩模自编码器(MAE)在音频谱图的简单扩展。遵循MAE中的Transformer编码器-解码器设计，audio -MAE首先以高掩码率编码音频谱图，只通过编码器层提供非掩码令牌。然后解码器对带有掩码标记的编码上下文进行重新排序和解码，重建输入谱图。因为音频谱图在局部时间和频带中高度相关所以在解码器中加入局部窗口注意是有益的。论文还对编码器进行微调，使其在目标数据集上具有较低的掩蔽率。audio - mae在6个音频和语音分类任务上产生了优于其他使用外部监督的预训练的近期模型的最先进的性能。代码和模型将在这里https://github.com/facebookre...

https://avoid.overfit.cn/post/097b5f48893f462a847fa23dacb91bcc

作者：Monodeep Mukherjee