XD742971636

【深度学习】MAT: Mask-Aware Transformer for Large Hole Image Inpainting

论文：https://arxiv.org/abs/2203.15270
代码：https://github.com/fenglinglwb/MAT

文章目录

PS
Abstract
Introduction
Related Work
Method
- 总体架构
- 卷积头
- Transformer主体
- - Adjusted Transformer Block
- Multi-Head Contextual Attention
Style Manipulation Module
- Loss Functions
Experiments
- Datasets and Metrics
- Implementation Details
- Ablation Study
- Comparison with State of the Arts
MAT: Mask-Aware Transformer for Large Hole Image Inpainting (Supplementary Material)
- Pluralistic Generation
- Limitations and Failure Cases
Conclusion
补充材料
- Network Architecture
- Free-Form Mask Sampling and Statistics
- Tokenization
- 模型配置
- CelebA-HQ 256×256结果
- LPIPS结果
- 高分辨率的泛化能力
- 多样性-保真度权衡
- 其他定性结果

PS

Generator 参数统计：

Generator                            Parameters  Buffers  Output shape        Datatype
---                                  ---         ---      ---                 ---     
mapping.fc0                          262656      -        [1, 512]            float32  
mapping.fc1                          262656      -        [1, 512]            float32  
mapping                              -           512      [1, 12, 512]        float32  随机噪声mapnet
synthesis.first_stage.conv_first:0   6660        16       [1, 180, 512, 512]  float32  
synthesis.first_stage.conv_first:1   -           -        [1, 180, 512, 512]  float32  ConV特征提取
synthesis.first_stage.enc_conv.0:0   291780      16       [1, 180, 256, 256]  float32  
synthesis.first_stage.enc_conv.0:1   -           -        [1, 180, 256, 256]  float32  
synthesis.first_stage.enc_conv.1:0   291780      16       [1, 180, 128, 128]  float32  
synthesis.first_stage.enc_conv.1:1   -           -        [1, 180, 128, 128]  float32  
synthesis.first_stage.enc_conv.2:0   291780      16       [1, 180, 64, 64]    float32  
synthesis.first_stage.enc_conv.2:1   -           -        [1, 180, 64, 64]    float32  encoder token化
synthesis.first_stage.tran.0:0       942660      262160   [1, 4096, 180]      float32  
synthesis.first_stage.tran.0:1       -           -        [1, 4096, 180]      float32  
synthesis.first_stage.tran.1:0       1559880     262176   [1, 1024, 180]      float32  
synthesis.first_stage.tran.1:1       -           -        [1, 1024, 180]      float32  
synthesis.first_stage.tran.2         1885320     32       [1, 256, 180]       float32  Swin Transformer
synthesis.first_stage.ws_style       92340       -        [1, 180]            float32  
synthesis.first_stage.to_square      46336       -        [1, 256]            float32  
synthesis.first_stage.down_conv      1167120     64       [1, 180, 1, 1]      float32  
synthesis.first_stage.to_style       65160       -        [1, 360]            float32  SMM模块
synthesis.first_stage.tran.3         1559880     262176   [1, 1024, 180]      float32  
synthesis.first_stage.tran.4         1234440     262176   [1, 4096, 180]      float32  Swin Transformer
synthesis.first_stage.dec_conv.0:0   876243      64       [1, 180, 128, 128]  float32  
synthesis.first_stage.dec_conv.0:1   -           -        [1, 180, 128, 128]  float32  
synthesis.first_stage.dec_conv.1:0   876243      64       [1, 180, 256, 256]  float32  
synthesis.first_stage.dec_conv.1:1   -           -        [1, 180, 256, 256]  float32  
synthesis.first_stage.dec_conv.2:0   876243      64       [1, 180, 512, 512]  float32  
synthesis.first_stage.dec_conv.2:1   -           -        [1, 180, 512, 512]  float32  decoder
synthesis.first_stage                -           -        [1, 3, 512, 512]    float32  粗略图
synthesis.enc.EncConv_Block_512x512  37440       32       [1, 64, 512, 512]   float32  
synthesis.enc.EncConv_Block_256x256  221440      32       [1, 128, 256, 256]  float32  
synthesis.enc.EncConv_Block_128x128  885248      32       [1, 256, 128, 128]  float32  
synthesis.enc.EncConv_Block_64x64    3539968     32       [1, 512, 64, 64]    float32  
synthesis.enc.EncConv_Block_32x32    4719616     32       [1, 512, 32, 32]    float32  
synthesis.enc.EncConv_Block_16x16    4719616     32       [1, 512, 16, 16]    float32  U-Net encoder
synthesis.to_square                  131328      -        [1, 256]            float32  
synthesis.to_style.conv              7079424     48       [1, 512, 2, 2]      float32  
synthesis.to_style.pool              -           -        [1, 512, 1, 1]      float32  
synthesis.to_style.fc                525312      -        [1, 1024]           float32  
synthesis.dec.Dec_16x16:0            6295044     320      [1, 512, 16, 16]    float32  
synthesis.dec.Dec_16x16:1            -           -        [1, 512, 16, 16]    float32  
synthesis.dec.Dec_32x32:0            7081989     2112     [1, 512, 32, 32]    float32  
synthesis.dec.Dec_32x32:1            -           -        [1, 512, 32, 32]    float32  
synthesis.dec.Dec_64x64:0            7081989     8256     [1, 512, 64, 64]    float32  
synthesis.dec.Dec_64x64:1            -           -        [1, 512, 64, 64]    float32  
synthesis.dec.Dec_128x128:0          3344645     32832    [1, 256, 128, 128]  float32  
synthesis.dec.Dec_128x128:1          -           -        [1, 256, 128, 128]  float32  
synthesis.dec.Dec_256x256:0          1229957     131136   [1, 128, 256, 256]  float32  
synthesis.dec.Dec_256x256:1          -           -        [1, 128, 256, 256]  float32  
synthesis.dec.Dec_512x512:0          504389      524352   [1, 64, 512, 512]   float32  
synthesis.dec.Dec_512x512:1          -           -        [1, 64, 512, 512]   float32  U-Net decoder
synthesis                            -           -        [1, 3, 512, 512]    float32  精细图
---                                  ---         ---      ---                 ---     
Total                                59986582    1748800  -                   -

Discriminator参数统计，用了VGG16.

Discriminator     Parameters  Buffers  Output shape        Datatype
---               ---         ---      ---                 ---     
Dis.0.conv        320         16       [1, 64, 512, 512]   float32 
Dis.1.skip        8192        16       [1, 128, 256, 256]  float32 
Dis.1.conv0       36928       16       [1, 64, 512, 512]   float32 
Dis.1.conv1       73856       16       [1, 128, 256, 256]  float32 
Dis.1             -           -        [1, 128, 256, 256]  float32 
Dis.2.skip        32768       16       [1, 256, 128, 128]  float32 
Dis.2.conv0       147584      16       [1, 128, 256, 256]  float32 
Dis.2.conv1       295168      16       [1, 256, 128, 128]  float32 
Dis.2             -           -        [1, 256, 128, 128]  float32 
Dis.3.skip        131072      16       [1, 512, 64, 64]    float32 
Dis.3.conv0       590080      16       [1, 256, 128, 128]  float32 
Dis.3.conv1       1180160     16       [1, 512, 64, 64]    float32 
Dis.3             -           -        [1, 512, 64, 64]    float32 
Dis.4.skip        262144      16       [1, 512, 32, 32]    float32 
Dis.4.conv0       2359808     16       [1, 512, 64, 64]    float32 
Dis.4.conv1       2359808     16       [1, 512, 32, 32]    float32 
Dis.4             -           -        [1, 512, 32, 32]    float32 
Dis.5.skip        262144      16       [1, 512, 16, 16]    float32 
Dis.5.conv0       2359808     16       [1, 512, 32, 32]    float32 
Dis.5.conv1       2359808     16       [1, 512, 16, 16]    float32 
Dis.5             -           -        [1, 512, 16, 16]    float32 
Dis.6.skip        262144      16       [1, 512, 8, 8]      float32 
Dis.6.conv0       2359808     16       [1, 512, 16, 16]    float32 
Dis.6.conv1       2359808     16       [1, 512, 8, 8]      float32 
Dis.6             -           -        [1, 512, 8, 8]      float32 
Dis.7.skip        262144      16       [1, 512, 4, 4]      float32 
Dis.7.conv0       2359808     16       [1, 512, 8, 8]      float32 
Dis.7.conv1       2359808     16       [1, 512, 4, 4]      float32 
Dis.7             -           -        [1, 512, 4, 4]      float32 
Dis.8             -           -        [1, 513, 4, 4]      float32 
Dis.9             2364416     16       [1, 512, 4, 4]      float32 
fc0               4194816     -        [1, 512]            float32 
fc1               513         -        [1, 1]              float32 
Dis_stg1.0.conv   160         16       [1, 32, 512, 512]   float32 
Dis_stg1.1.skip   2048        16       [1, 64, 256, 256]   float32 
Dis_stg1.1.conv0  9248        16       [1, 32, 512, 512]   float32 
Dis_stg1.1.conv1  18496       16       [1, 64, 256, 256]   float32 
Dis_stg1.1        -           -        [1, 64, 256, 256]   float32 
Dis_stg1.2.skip   8192        16       [1, 128, 128, 128]  float32 
Dis_stg1.2.conv0  36928       16       [1, 64, 256, 256]   float32 
Dis_stg1.2.conv1  73856       16       [1, 128, 128, 128]  float32 
Dis_stg1.2        -           -        [1, 128, 128, 128]  float32 
Dis_stg1.3.skip   32768       16       [1, 256, 64, 64]    float32 
Dis_stg1.3.conv0  147584      16       [1, 128, 128, 128]  float32 
Dis_stg1.3.conv1  295168      16       [1, 256, 64, 64]    float32 
Dis_stg1.3        -           -        [1, 256, 64, 64]    float32 
Dis_stg1.4.skip   65536       16       [1, 256, 32, 32]    float32 
Dis_stg1.4.conv0  590080      16       [1, 256, 64, 64]    float32 
Dis_stg1.4.conv1  590080      16       [1, 256, 32, 32]    float32 
Dis_stg1.4        -           -        [1, 256, 32, 32]    float32 
Dis_stg1.5.skip   65536       16       [1, 256, 16, 16]    float32 
Dis_stg1.5.conv0  590080      16       [1, 256, 32, 32]    float32 
Dis_stg1.5.conv1  590080      16       [1, 256, 16, 16]    float32 
Dis_stg1.5        -           -        [1, 256, 16, 16]    float32 
Dis_stg1.6.skip   65536       16       [1, 256, 8, 8]      float32 
Dis_stg1.6.conv0  590080      16       [1, 256, 16, 16]    float32 
Dis_stg1.6.conv1  590080      16       [1, 256, 8, 8]      float32 
Dis_stg1.6        -           -        [1, 256, 8, 8]      float32 
Dis_stg1.7.skip   65536       16       [1, 256, 4, 4]      float32 
Dis_stg1.7.conv0  590080      16       [1, 256, 8, 8]      float32 
Dis_stg1.7.conv1  590080      16       [1, 256, 4, 4]      float32 
Dis_stg1.7        -           -        [1, 256, 4, 4]      float32 
Dis_stg1.8        -           -        [1, 257, 4, 4]      float32 
Dis_stg1.9        592384      16       [1, 256, 4, 4]      float32 
fc0_stg1          1048832     -        [1, 256]            float32 
fc1_stg1          257         -        [1, 1]              float32 
---               ---         ---      ---                 ---     
Total             36231618    736      -                   -

Abstract

最近的研究表明，在修复图像中存在长距离相互作用的建模非常重要。为了实现这个目标，现有的方法利用独立的注意力技术或transformers，但通常考虑到计算成本而采用较低的分辨率。在本文中，我们提出了一种新颖的基于transformer的大孔修复模型，它将transformers和卷积的优点结合起来，以高效地处理高分辨率图像。我们精心设计了框架的每个组件，以保证修复图像的高保真度和多样性。具体而言，我们定制了一个专门用于修复图像的transformer块，其中注意力模块仅从部分有效令牌（通过动态掩码指示）聚合非局部信息。大量实验证明了新模型在多个基准数据集上的最先进性能。代码已发布在https://github.com/fenglinglwb/MAT。

Introduction

图像补全（也称为修复）是计算机视觉中的一个基本问题，其目标是使用合理的内容填充缺失的区域。它有许多应用，包括图像编辑[23]、图像重新定位[9]、照片修复[53, 54]和对象移除[3]。

在图像修复中，建模上下文信息是至关重要的，特别是对于大的遮罩（mask）。为缺失区域创建合理的结构和纹理需要对图像中的非局部先验[4, 7, 38, 56] 进行上下文理解。先前的工作使用堆叠卷积来达到大的感受野，并对长距离关系进行建模，这在处理对齐的数据（例如，面部，身体）和纹理密集的数据（例如，森林，水域）时效果良好。然而，在处理具有复杂结构的图像时（例如，图1第2行的第一个示例），对于完全卷积神经网络（CNN）来说，很难表征远距离区域之间的语义对应关系。这主要是由于CNN的固有属性，即有效感受野的缓慢增长和邻近像素的不可避免的主导性。为了明确地模拟图像修复中的长距离依赖关系，一些研究[61, 65, 66] 提出在基于CNN的生成器中使用注意力模块。然而，由于二次计算复杂性的限制，注意力模块仅应用于相对小规模的特征图，其效果没有充分利用长距离建模的潜力。

与将注意力模块应用于CNN不同，Transformer [52] 是一种自然的架构，用于处理非局部建模，在每个块中都使用了注意力机制。最近的研究[55,68,77] 采用Transformer结构来解决图像修复问题。然而，受复杂性问题的影响，现有的方法只使用Transformer来推断低分辨率（例如32×32）的预测结果，因此产生的图像结构较粗糙，特别是在处理大规模遮罩时，影响最终图像质量。

在本文中，我们开发了一种新的修复Transformer，能够为大遮罩修复生成高分辨率的结果。由于某些区域缺乏有用信息（当给定的遮罩排除了大多数像素时，这是常见情况），我们发现通常使用的Transformer块（LN→MSA→LN→FFN）在对抗性训练中表现较差。因此，我们对传统的层归一化[1]进行了自定义修改，并使用特征拼接替换了残差学习，以增加优化的稳定性并提高性能。我们分析了这些修改为何对学习至关重要，并在经验上证明了它们的非平凡性。另外，为了处理从高分辨率输入提取的所有标记之间可能的大量交互作用，我们提出了一种新型的多头自注意力（MSA），称为多头上下文注意力（MCA）。它只使用部分有效的标记来计算非局部关系。采用的标记选择由动态遮罩指示，该遮罩由输入遮罩初始化，并通过空间约束和长距离交互进行更新，从而在不损失效果的情况下提高了效率。此外，我们在提出的框架中加入了一种新颖的样式操作模块，从根本上支持多样性生成。如图1所示，我们的方法成功地使用视觉上逼真且非常多样的内容填补了大空洞。我们的贡献总结如下：

• 我们开发了一种新颖的修复框架MAT。它是第一个能够直接处理高分辨率图像的基于Transformer的修复系统。

• 我们精心设计了MAT的组件。提出的多头上下文注意力通过利用有效的标记有效地进行了长距离依赖建模，标记由动态遮罩指示。我们还提出了修改后的Transformer块，使得对大遮罩进行训练更加稳定。此外，我们设计了一种新颖的样式操作模块以增加多样性。

• MAT在多个基准数据集，包括Places [78] 和CelebA-HQ [25] 上取得了新的技术水平。它还实现了多样的修复效果。

Related Work

图像修复一直是计算机视觉中一个长期存在的问题。早期的扩散方法[2,6]将邻近未损坏的信息传播到空洞中。

在内部或外部搜索空间内，基于补丁或示例的方法[10–12,19,28,30,50]根据人工定义的距离度量，借用具有相似外观的补丁来完成缺失区域。PatchMatch [3] 提出了一种多尺度补丁搜索策略，以加速修复过程。此外，在文献中还广泛研究了偏微分方程[5, 17]和全局或局部图像统计[14, 15, 31]。虽然传统方法通常可以获得视觉上逼真的结果，但缺乏高层次的理解使它们无法生成语义上合理的内容。

近年来，深度学习在图像修复上取得了巨大成功。Pathak等人[42]将对抗性训练[16]引入到修复中，并利用基于编码器-解码器的架构来填补空洞。此后，针对图像修复开发了许多U-Net结构[45]的变体[34, 57, 64, 69]。

此外，还提出了更复杂的网络或学习策略来生成高质量的图像，包括全局和局部判别[22]、上下文注意力[35, 61, 65, 66]、部分[33]和门控[67]卷积等。多阶段生成也受到了广泛关注，其中包括利用中间线索，如物体边缘[40]、前景轮廓[63]、结构[44]和语义分割图[49]。

为了实现高分辨率图像修复，一些尝试已经开始发展逐步生成系统，例如[18, 32, 41, 71, 72]。最近，研究人员将注意力转向更具挑战性的设置，其中最具代表性的问题是多样性生成和大空洞填充。

对于前者，郑等人[76]提出了一个具有两个并行路径的概率框架，能够产生多个合理的解决方案。UCTGAN [74]通过优化KL散度将实例图像空间和遮罩图像空间投影到共同的低维流形空间，以实现缺失内容的多样性生成。随后，[55]和[68]利用双向注意力或自回归Transformer来实现这一目标。尽管这些方法提高了多样性，但由于变分训练和光栅扫描顺序生成，它们的修复和推理性能有限。另一方面，一些方法[37, 51, 75, 77]被提出来解决大空洞修复问题。例如，CoModGAN [75]利用调制技术[8, 26, 27]来处理大范围的缺失区域。在本研究中，我们开发了一种新的框架，同时实现高质量的多样性生成和大空洞填充，将长距离上下文交互和无条件生成的优势带入图像修复任务中。

Method

给定一个遮罩图像，表示为IM = I ⊙ M，图像修复的目标是为缺失区域生成视觉吸引人且语义合理的内容。在本研究中，我们提出了一种面向大遮罩修复的mask-aware transformer（MAT），支持条件下的长距离交互。此外，考虑到图像修复问题的不适定性，即可能有许多合理的解来填补大空洞，我们的方法旨在支持多样性生成。

总体架构

如图2所示，我们提出的MAT架构包括一个卷积头，一个具有五个阶段变分分辨率（不同数量的tokens）的transformer主体，一个卷积尾部和一个样式操作模块，充分发挥transformer和卷积的优势。

具体来说，卷积头用于提取tokens，然后主体由五个阶段的transformer块组成，用于通过提出的多头上下文注意力（MCA）对长距离交互进行建模。对于主体输出的tokens，采用基于卷积的重构模块将空间分辨率上采样到输入大小。

此外，我们采用另一个Conv-U-Net来细化高频细节，依靠CNN的局部纹理细化能力和高效性。最后，我们设计了一个样式操作模块，通过调节卷积的权重使模型能够生成多样性的预测。我们方法中的所有组件将在下面详细介绍。

卷积头

卷积头接收未完成的图像IM和给定的遮罩M，并产生用于tokens的1/8大小的特征图。它包含四个卷积层，一个用于改变输入维度，其他用于降低分辨率。

我们主要采用卷积头有两个原因。

首先，早期视觉处理中的局部归纳先验的整合对于更好的表示[43]和优化性能[60]仍然至关重要。另一方面，它被设计用于快速降采样，以减少计算复杂性和内存成本。此外，我们经验性地发现这种设计比ViT [13]中使用的线性投影头更好，这在补充材料中得到验证。

Transformer主体

Transformer主体通过建立长距离对应关系来处理tokens。它包含了五个阶段的提出的调整过的transformer块，其中包含了一个有效的注意力机制，并由额外的遮罩引导。

Adjusted Transformer Block

我们提出了一种新的transformer块变体，以处理带有大空洞遮罩的优化问题。具体而言，我们移除了层归一化（LN）[1]，并采用融合学习（使用特征拼接）代替残差学习。如图3所示，我们将注意力的输入和输出进行了拼接，并使用一个全连接（FC）层：

其中，Xk,ℓ是第k个阶段中第ℓ个块的MLP模块的输出。在经过几个transformer块后，如图3所示，我们采用一个带有全局残差连接的卷积层。值得注意的是，我们在transformer块中放弃了位置嵌入，因为研究[59, 62]表明3×3卷积足以为transformers提供位置信息。因此，信息的传递仅依赖于特征相似性，从而促进了长距离交互。

分析。Transformer [52] 的通用架构包含两个子模块，一个是多头自注意力（MSA）模块，另一个是MLP模块。在每个模块之前都应用了层归一化，并在每个模块之后使用了残差连接[20]。然而，我们观察到当处理大规模遮罩时，使用通用的块进行优化时会出现不稳定的问题，有时甚至会导致梯度爆炸。我们将这个训练问题归因于无效标记（其值接近零）的比例较大。在这种情况下，层归一化可能会过分放大无用的标记，导致训练不稳定。此外，残差学习通常鼓励模型学习高频内容。然而，考虑到开始时大部分标记都是无效的，在GAN训练中没有适当的低频基础的情况下，直接学习高频细节是困难的，这使得优化变得更加困难。用拼接取代这种残差学习导致了明显优越的结果，这在第4.3节中得到了验证。

Multi-Head Contextual Attention

为了处理大量的标记（对于512×512的图像，最多有4096个标记）和给定标记的低保真度（最多90%的标记是无用的），我们的注意力模块采用了位移窗口[36]和动态遮罩，能够利用少量可行的标记进行非局部交互。输出是有效标记的加权和，如图3所示，其数学表达式为：

遮罩更新策略。遮罩（M’）指示一个标记是否有效或无效，它由输入遮罩初始化，并在传播过程中自动更新。更新遵循一个规则，即在注意力后，只要一个窗口中至少有一个有效标记，该窗口中的所有标记都将被更新为有效。如果一个窗口中的所有标记都是无效的，在注意力后它们仍然保持无效。如图4所示，在从（a）到（b）的注意力传播中，左上角窗口中的所有标记变为有效，而其他窗口中的标记仍然无效。经过几次窗口的移动和注意力传播后，遮罩被更新为完全有效。

分析。对于由缺失区域主导的图像，缺省的注意力策略不仅无法利用可见信息填充空洞，而且还会损害有效像素的有效性。为了减少颜色差异或模糊度，我们提议仅使用有效标记（由动态遮罩选择）来计算关联。我们的设计的有效性在第4.3节中得到了体现。

Style Manipulation Module

Loss Functions

Experiments

Datasets and Metrics

我们在512×512分辨率下对Places365-Standard [78]和CelebA-HQ [25]数据集进行了实验。

具体来说，在Places数据集上，我们使用180万张训练集图像和3.65万张验证集图像来分别训练和评估我们的模型。在训练过程中，图像被随机裁剪或填充到512×512大小，而在评估过程中则进行中心裁剪或填充。对于CelebA-HQ数据集，我们有24,183张训练集图像和2,993张验证集图像。尽管我们在512×512图像上进行训练，但在补充材料中我们展示了我们的模型在更大分辨率上也表现良好。

在大空洞设置方面，我们遵循[75]的方法，选择了感知度量，包括FID [21]、P-IDS [75]和U-IDS [73]来进行评估。我们建议不要使用像素级的L1距离、PSNR和SSIM [58]等指标，因为初步研究[29,47]表明，这些指标与人类对图像质量的感知关系较弱，尤其对于不适定的大规模图像修复问题。虽然我们计算了LPIPS [73]，但在视觉质量评估中，这个指标的表现也不理想。

Implementation Details

在我们的框架中，我们将卷积通道数和全连接维度都设置为180，分别用于卷积头部、主体和重构模块。5级transformer组的块数和窗口大小分别为{2, 3, 4, 3, 2}和{8, 16, 16, 16, 8}。最后的Conv-U-Net首先将分辨率下采样到1/32，然后再上采样到原始大小，其中卷积层数和不同尺度的通道数取自[27]。映射网络由8个全连接层组成，样式操作模块由卷积层和AvgPool层实现。与[55, 68, 77]不同，我们的transformer架构没有进行预训练。

所有实验在8块NVidia V100 GPU上进行。

按照[75]的方法，我们在Places365-Standard上训练了5000万张图像，在CelebA-HQ上训练了2500万张图像。批大小为32。我们采用Adam优化器，其中β1 = 0，β2 = 0.99，并将学习率设置为1 × 10−3。自由形式的遮罩在补充文件中有详细描述。

Ablation Study

在本节中，我们分析了我们框架中哪些组件对最终性能的贡献最大。为了快速探索，我们只使用Places [78]数据集中的100,000张训练图像（约占全部图像的5.6%），分辨率为256×256，并对模型进行了500,000次样本的训练（相当于完整设置的10%）。我们采用前10,000张验证图像进行评估。定量比较结果如表1所示。

Conv-Transformer Architecture. 我们探索了transformer所建模的远程上下文关系是否有助于填充大空洞。将transformer块替换为卷积块（表1中的“B”模型），我们发现在所有指标上都出现了明显的性能下降，尤其是在P-IDS和U-IDS上，表明修复后的图像失去了一些保真度。此外，在图5中我们展示了一些视觉示例。与完全卷积网络相比，我们的MAT充分利用了远程上下文来很好地重建了网络结构和恐龙骨架的纹理，表现出了远程交互的有效性。

调整后的Transformer块。在我们的框架中，我们开发了一种新的transformer块，因为传统设计很容易导致不稳定的优化，这种情况下我们需要降低transformer主体的学习率。如表1所示，我们的设计（“A”模型）在FID上的性能比具有原始transformer块的模型“C”提高了0.39。如图5所示，我们注意到我们的设计产生了更具吸引力的结果，支持高质量的图像修复。特别是对于第一个示例，尽管缺失区域非常大，我们的方法仍然可以恢复出一个在语义上一致且在视觉上逼真的室内场景。

多头上下文注意力。为了快速填充缺失区域，我们提出了多头上下文注意力（MCA）。为了更深入地了解其效果，我们构建了一个没有从有效标记进行部分聚合的模型。定量结果如表1中的模型“D”所示。值得注意的是，FID下降了0.1，但其他指标变化不大。我们认为所提出的上下文注意力有助于保持颜色一致性并减少模糊。如图5所示，没有MCA的模型为第一个示例生成了颜色不正确的内容，同时为第二个示例产生了模糊的伪影。定量和定性结果都验证了我们的MCA的强大能力。

样式操作模块。为了处理大遮罩，在条件性远程交互之外，我们还引入了无条件生成。为了量化我们的框架的无条件生成能力，我们去掉了噪声样式操作。从表1中的模型“E”的结果中，我们发现在P-IDS和U-IDS上有很大的差距，表明随机噪声样式的调制进一步提高了修复图像的自然性。

重建中的高分辨率。由于计算复杂度的二次增加，现有的方法[55,68, 77]采用transformer来合成低分辨率结果，通常是32×32，用于后续处理。相比之下，我们的MAT架构利用其计算效率，使得在重建阶段可以输出高分辨率的结果。如表1所示，我们完整的“A”模型相比于模型“F”显著提高，证明了高分辨率预测的重要性。

Comparison with State of the Arts

我们将提出的MAT与一些最先进的方法进行了比较。为了公平比较，我们使用公开可用的模型对相同的遮罩进行测试。如表2所示，MAT在CelebA-HQ和Places上实现了最先进的性能。特别是，即使我们只使用Places365-Standard的一个子集（180万张图像）来训练我们的模型，远远少于CoModGAN [75]（800万张图像）和Big LaMa [51]（450万张图像），MAT仍然取得了有希望的结果。此外，我们的方法在参数效率上远远优于第二名的CoModGAN和基于transformer的ICT [55]。如图8所示，与其他方法相比，我们提出的MAT恢复出更多具有照片般真实感的图像，并且产生较少的伪影。例如，我们的方法成功恢复了视觉上令人愉悦的花朵和规则的建筑结构。

MAT: Mask-Aware Transformer for Large Hole Image Inpainting (Supplementary Material)

Pluralistic Generation

我们框架固有的多样性主要来源于样式操作。如图6所示，样式变体导致不同的填充结果。在图6的第一个示例中，我们观察到从一个微笑变为一个露齿笑。而第二个示例展示了不同的脸部轮廓和外观。至于最后一个示例，我们发现了不同的窗户和屋顶结构。

Limitations and Failure Cases

在没有语义标注的情况下，MAT通常在处理具有各种形状的对象时遇到困难，例如奔跑的动物。如图7所示，由于缺乏语义上下文的理解，我们的方法未能恢复出猫和汽车。另外，受到注意力中的下采样和预定义窗口大小的限制，我们需要对图像进行填充或调整大小，使其大小成为512的倍数。

Conclusion

我们提出了一种面向遮罩的变换器（MAT），用于多样化的大空洞图像修复。通过利用所提出的调整后的变换器架构和部分注意机制，我们的MAT在多个基准测试中实现了最先进的性能。此外，我们设计了一个样式调制模块来提高生成的多样性。广泛的定性比较已经证明了我们的框架在图像质量和多样性方面的优势。

补充材料

Network Architecture

如第3.1节所示，我们提出的MAT是一个两阶段的框架，其中第一阶段包括一个卷积头部、一个变换器主体和一个卷积重建尾部，而第二阶段是一个Conv-U-Net。鉴别器的设计遵循CoModGAN [75]的设计。

给定一个H×W的输入，头部首先应用一个卷积将通道数从4（图像3 + 掩码1）改变为180，然后采用三个步幅为2的卷积来将特征大小下采样到H 8×W 8。特征被转换为令牌，作为变换器主体的输入。主体由五个阶段的变换器块组成，其中块数分别为{2, 3, 4, 3, 2}，相应的特征大小为{H 8×W 8, H 16×W 16, H 32×W 32, H 16×W 16, H 8×W 8}。下采样和上采样都是通过卷积实现的。变换器块的详细结构在第3.3节中展示。

然后，来自主体的输出令牌被转换为2D特征，传递给重建尾部。卷积尾部将特征大小从H 8×W 8上采样到H×W，并生成完整的图像，在此过程中，对所有层进行样式调制以实现多样化的生成。

第二阶段的Conv-U-Net接收粗糙预测和输入的掩码，用于后续高保真度细节渲染。它首先将特征大小下采样到H 32×W 32，然后再将大小上采样回H×W。每个分辨率都采用了快捷连接。编码器中的卷积通道数从64开始，并在每次下采样后加倍，最多为512，而解码器使用对称的设置。此外，所有解码层都由图像条件和噪声非条件样式表示进行调制。

Free-Form Mask Sampling and Statistics

参考DeepFill v2 [67]，我们使用随机大小、形状和位置来生成自由形式的掩码，包括矩形和画笔笔画。在训练期间，我们采用了大掩码采样策略。完整尺寸或半尺寸矩形的数量在[0, 3]或[0, 5]范围内均匀采样。笔画的数量在[0, 9]范围内随机采样，笔刷宽度在[12, 48]范围内随机，顶点数量在[4, 18]范围内随机。在测试期间，除了大掩码设置外，我们还引入了小掩码采样策略，其中完整尺寸或半尺寸矩形的数量在[0, 2]或[0, 3]范围内，笔画的数量在[0, 4]范围内，而其他设置保持不变。请注意，我们的模型是在大掩码上进行训练，并在小掩码和大掩码设置下进行评估。如图A.2所示，我们展示了用于评估的Places Val数据集 [78]上的掩码统计信息。可以观察到，大掩码非常多样和复杂。

Tokenization

如在附录A中所述，我们采用了一堆卷积（卷积头部）来提取用于变换器主体的令牌，这是专门针对修复问题设计的。与ViT [13]的线性投影相比，我们的设计具有两个优点。首先，堆叠卷积可以逐渐填充缺失区域，生成更有效的令牌。其次，多尺度下采样特征可以通过快捷连接传递给解码器，改善优化过程。如表C.1和图C.3所示，堆叠卷积获得了明显优于线性投影的结果。使用线性投影的模型更容易生成不好的伪影，并且无法借用周围纹理来填充缺失区域，而我们的MAT成功地恢复了高保真度的内容。定量和定性结果都证明了我们MAT的有效性。

模型配置

在与消融研究相同的实验设置下，我们探索了几种模型变体，包括变换器主体的特征宽度、块数和窗口大小，Conv-U-Net保持不变。结果如表D.2所示。性能与模型容量和注意范围呈正相关。

CelebA-HQ 256×256结果

我们提供了256×256 CelebA-HQ [25]的定量结果。如表F.3所示，相比其他方法，我们的MAT在FID [21]、P-IDS [75]和U-IDS [73]指标上取得了显著改进。

LPIPS结果

如在第4.1节中讨论的，LPIPS [73]不是用于大掩码修复，特别是对于多样性生成系统来说，因为填充缺失区域可能有很多合理的解决方案。因此，我们仅提供LPIPS结果供参考。如表F.4所示，我们的方法在CelebA-HQ [25]和Places [78]数据集上实现了优越或可比的性能。请注意，我们只使用了完整数据的22.5%来训练我们的Places模型。

高分辨率的泛化能力

尽管我们是在512×512的图像上进行训练的，但我们的模型对更大的分辨率也有良好的泛化能力。例如，我们将在512×512分辨率下训练的模型和Big LaMa [51] 迁移到1024×1024分辨率。与Big LaMa相比（FID降低6.31％，PIDS提高4.98％），我们的模型（FID降低5.83％，P-IDS提高9.51％）在大掩码设置下在Places数据集上获得了更优秀的结果。

我们建议在训练和测试过程中保持分辨率一致，以获得更好的视觉质量。

多样性-保真度权衡

为了评估保真度和多样性，除了使用FID（同时考虑多样性和保真度），我们还遵循[？，？]使用改进的精度和召回率分别衡量样本的保真度（精度）和多样性（召回率）。如表H.5所示，与CoModGAN相比，在Places数据集上，我们的方法获得更好的FID，更高的召回率，但略低于CoModGAN的精度。值得注意的是，我们使用了更少的训练数据。

其他定性结果

我们在Places [78]数据集上展示了更多MAT与其他最先进方法的视觉比较结果。如图J.4和图J.5所示，我们的方法产生了更多的照片逼真的结果，并且几乎没有瑕疵，显示了MAT的有效性。由于CelebA-HQ [25]可能涉及版权问题，我们不在该数据集上提供视觉比较结果。如果需要的话，您可以使用提供的代码和模型处理CelebAHQ图像，或者与作者联系。

你可能感兴趣的:(深度学习机器学习,深度学习,transformer,人工智能,GAN,MAT)

智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
工业级应用无人机及机巢/机场选择对比 yychen_java 无人机
一、主流无人机厂商及产品性能对比大疆创新（DJI）代表型号：Mavic3行业版：续航45分钟，支持RTK厘米级定位，热成像相机，适用于电力巡检电力巡检电力巡检、消防救灾消防救灾消防救灾。Matrice300RTK：载重2.7kg，IP45防护，支持多传感器协同，用于测绘测绘测绘、安防监控安防监控安防监控。核心优势：生态完善，软件适配性强（如无人机管理平台无人机管理平台无人机管理平台），性价比高。极
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
LeetCode98-验证二叉搜索树学习的学习者 LeetCode Python 二叉搜索树
上个星期和导师去了华农一趟名义上是和导师去参加一个国家级的项目其实没我啥事都是我导师在那口若悬河当时和那边的本科生去了另一间会议室交流了关于GAN的知识偶然听说大家都在用pytorch好像最新版的也挺好用的反正就是学术界目前主要用这个框架工业界主要用Tensorflow(没办法，Google出品)这两天也拿来瞧了瞧好像也确实可以的！！！98-验证二叉搜索树给定一个二叉树，判断其是否是一个有效的二叉
基于图像比对的跨平台UI一致性校验工具开发全流程指南——Android/iOS/Web三端自动化测试实战追寻向上 ui android ios
一、需求背景与方案概述1.1为什么需要跨平台UI校验？在移动互联网时代，同一产品需覆盖Android、iOS和Web三端。由于不同平台的开发框架（如Android的MaterialDesign与iOS的Cupertino风格）及渲染引擎差异，UI界面易出现以下问题：布局错位：按钮位置偏移、文本换行不一致视觉差异：颜色色差、字体粗细不同交互逻辑冲突：滑动方向、弹窗动画不一致传统人工测试效率低且易遗漏
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
通过LoRA（Low-Rank Adaptation）低秩矩阵分解来高效微调权重变化背太阳的牧羊人模型微调矩阵线性代数深度学习人工智能自然语言处理 LoRA
LoRA的原理LoRA的核心思想是用低秩矩阵分解来建模参数的变化，而不是直接调整整个权重矩阵。这种方法通过减少微调的参数数量来提高训练效率。基本公式假设预训练模型的某一层权重为(W\in\mathbb{R}^{d\timesk})，LoRA的调整方式是：[W’=W+\DeltaW]其中(\DeltaW)是调整后的权重变化。LoRA假设权重变化(\DeltaW)的秩较低，可以表示为两个低秩矩阵的乘积
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
纯血鸿蒙系统 HarmonyOS NEXT自动化测试实践夜阑卧听风吹雨，铁马冰河入梦来 python Appium自动化测试 harmonyos 华为
1、测试框架选择hdc：类似android系统的adb命令，提供设备信息查询，包管理，调试相关的命令@ohos.UiTest：鸿蒙sdk的一部分，类似androidsdk里的uiautomator，基于Accessibility服务，提供模拟UI操作的能力。但是需要用arkTS语言来写自动化case，并且用例需要打包到被测app里面hypium：鸿蒙官方的自动化框架，功能比较完善，可以基于pyth
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
DeepSeek 大模型落地成都高新区：科技赋能警务的创新变革 AGI大模型学习科技人工智能 DeepSeek 大模型 chatgpt 大模型应用 AI大模型
在科技飞速发展的当下，人工智能正以前所未有的速度融入各个领域，深刻改变着人们的生活与工作方式。公安领域也不例外，积极拥抱科技创新，成为提升警务效能、维护社会稳定的关键路径。全国第一例警用DeepSeek大模型落地成都高新区，这一突破性举措在警务智能化发展进程中具有里程碑意义，为公安工作带来了全方位的革新。一、警用DeepSeek大模型落地的时代背景近年来，国产AI蓬勃发展，不断涌现出令人瞩目的成果
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
Angular Material 17版本升级指南 t0_54manong 编程问题解决手册 angular.js 前端 javascript 个人开发
最近，我在将项目从AngularMaterial的15.0.3版本升级到17.0.4版本时，遇到了一个有趣的错误。错误发生在主题设置过程中，尤其是在尝试使用background值时。在旧版本中，主题设置一切正常，但升级后出现了如下错误信息：(status-bar:#e0e0e0,app-bar:#f5f5f5,background:#fafafa,hover:rgba
vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程 weixin_39564151 vs code配置python
如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
matsim开发教程若木胡大数据信息可视化
以下是基于MATSim的二次开发教程指南，结合交通仿真框架的核心功能和开发实践，提供从环境搭建到高级开发的完整路径：一、MATSim简介MATSim（Multi-AgentTransportSimulation）是一个基于Java的开源交通仿真框架，专注于大规模多智能体（Agent）交通行为模拟，支持动态需求建模、路径规划优化、政策评估等应用场景。二、开发环境搭建1.基础依赖JavaJDK11+：
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task neverwin6 llama python 服务器
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers不能适配，所以要升级到0.40.0以上才行，但是如果升级的话，那么直接在沿用老版本的lm_eval评测就会出现：Traceback(mostrecentcalllast):File"main.py"
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
AttributeError: partially initialized module ‘cv2‘ has no attribute ‘_registerMatType‘ (most likely hunter206206 python pyopencv python
这个错误表明在导入cv2（OpenCV）模块时，发生了循环导入问题，导致模块未能正确初始化。具体来说，cv2模块在初始化过程中尝试调用_registerMatType方法，但由于循环导入，该方法尚未定义。以下是可能的原因和解决方法：1.OpenCV安装问题可能是OpenCV安装不完整或损坏。可以尝试重新安装OpenCV。解决方法：使用pip重新安装OpenCV：pipuninstallopencv
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end