ZZE15832206526

学习汇报汇报

学习内容：

1、 DefectGAN: Weakly-Supervised Defect Detection using Generative Adversarial Network（GAN的半监督方法进行缺陷检测）
2、 Dual Attention Network for Scene Segmentation（一种引入时间注意力机制和空间注意力机制的实例分割方法）
3、 PGA-Net: Pyramid Feature Fusion and Global Context Attention Network for Automated Surface Defect Detection（在金字塔特征融合五种分辨率特征图的基础上，加上了注意力机制，进行特征融合，在NEU，MT，Road上进行测试）
4、在之前的瓷砖数据集上，改进了评价指标，在之前Unet的基础上增加了注意力机制，AttU_Net,对于之前收敛速度慢的情况，可能是只训练了50epoch，显示收敛的慢，之前的U_Net也是在50epoch左右收敛。后面会增加一下，然后尝试一下，把RNN用在U_Net的skip融合上。
5、下载了DeepCrack数据集，由于数据集数量少，也是采用图像增强的技术扩展，模型采用ResU_Net 进行预测。

学习内容：
一、DefectGAN: Weakly-Supervised Defect Detection using Generative Adversarial Network
- 1.1 Abstract
- 1.2 INTRODUCTION
- 1.3 METHOD
- - 1.3.1 Negative-to-Positive Translation
  - 1.3.2 Architecture
  - 1.3.3 Loss Function
- 1.4 EXPERIMENTS
- - 1.4.1 Evaluation Metrics
  - 1.4.2 Results and Analysis
二、Dual Attention Network for Scene Segmentation
- 2.1 Abstract
- 2.2 Introduction
- 2.3 Dual Attention Network
- - 2.3.1 Overiew
  - 2.3.2 Position Attention Module
  - 2.3.3 Channel Attention Module
  - 2.3.4 Attention Module Embedding with Networks
- 2.4 Experiments
- - 2.4.1 Datasets and Implementation Details
  - 2.4.2 Results on Cityscapes Dataset
  - 2.4.3 Results on PASCAL VOC 2012 Dataset
  - 2.4.4 Results on PASCAL Context Dataset
- 2.5 Conclusion
3 PGA-Net: Pyramid Feature Fusion and Global Context Attention Network for Automated Surface Defect Detection
- 3.1 Abstract
- 3.2 INTRODUCTION
- 3.3 RELATED WORKS
- 3.4 METHODOLOGY AND DESIGN
- - 3.4.1 System Overview
  - 3.4.2 Multilevel Features Extraction Module
  - 3.4.3 Pyramid Feature Fusion Module
  - 3.4.4 Global Context Attention Module
  - 3.4.5 Boundary Refinement Block
  - 3.4.6 Deep Supervision
- 3.5 EXPERIMENTS AND RESULTS
- - 3.5.1 Datasets
  - 3.5.2 Evaluation Metrics
- 3.5 CONCLUSION
4 MT数据集的Att_Unet
5 DeepCrack数据集

提示：以下是本篇文章正文内容，下面案例可供参考

一、DefectGAN: Weakly-Supervised Defect Detection using Generative Adversarial Network

使用生成对抗网络的弱监督缺陷检测

1.1 Abstract

目前基于深度学习的一般对象分割方法需要大量的区域级人工标注。相反，我们提出了在弱监督学习中检测缺陷的DefectGAN，这需要很少的人工注释。在实际应用中，对训练数据集中的图像只进行了正面和负面的标注。尽管是在图像级别而不是区域级别的标签上进行训练，DefectGAN在定位缺陷区域方面有显著的能力。

1.2 INTRODUCTION

为了避免区域级人工标注的严重压力，提出了一些基于弱监督学习的人工标注方法。然而，GAN是用多个图像对进行训练的，因此需要人为地为每个阳性样本生成负图像。然后将生成的图像和对应的正样本标记为一对。使各种缺陷尽可能真实地生成是一种困难而耗时的生成算法，特别是后续研究的换向器气缸表面缺陷的生成。

我们提出了另一种弱监督的方法DefectGAN，它从收集到的图像中学习仅仅标记为两类，消极和积极的图像。我们避免生成成对的图像。主要工作如下：

能够通过学习图像级别而不是区域级别的注释来检测缺陷区域。DefectGAN通过训练标有这两个类的图像，学习将图像从NG域(负)转换为P域(正)。缺陷区域可以通过简单地比较由DefectGAN生成的阴性和阳性图像来定位。
与监督学习方法相比，有可比性和可能更好的性能。虽然该方法是弱监督的，但在CCSD-NL数据集上，其精度与SegNet方法相当，分别为81.05%和82.33%。此外，在DAGM 2007上，该方法的视觉效果优于SegNet方法。
DefectGAN能够检测一些不在训练数据中的缺陷类型。这意味着它有可能检测到一些看不见的缺陷。

1.3 METHOD

1.3.1 Negative-to-Positive Translation

在训练阶段，我们提出的DefectGAN通过训练包含工业现场正、负样本的数据集来学习负图像和正图像之间的映射关系。然后在测试阶段，将负向图像输入训练良好的DefectGAN模型，生成相应的正向图像，然后进行简单的后处理，将被测试的负向图像与生成的正向图像进行灰度比较，定位缺陷区域。
我们使用CycleGAN[18]来学习这两个域NG（负）和P（正）给定的训练样本之间的映射
我们引入了两个从负到正的映射的生成器：G1：NG→P和一个逆映射：G2：P→NG，如下图：

另外，我们介绍了两种对抗性鉴别器：（1）DNG，旨在区分{ng}和{G2§}和（2）DP，旨在区分{p}和{G1(NG)}。经过对抗性训练过程后，不仅G1(NG)中的图像分布与P的分布难以区分，而且DefectGAN还可以实现G2(G1(NG))≈NG，称为循环一致性。

1.3.2 Architecture

下表分别显示了发生器和鉴别器的体系结构。生成器网络包含几个卷积层、几个残差块和几个转置的卷积层。我们对256块×256张训练图像使用了9个残余块。每个残差块包括两个相同的卷积层，具有3个×3内核，1个步幅和256个滤波器。在生成器中每个卷积层后，采用实例归一化和ReLU。
对于鉴别器网络，在最后一层后进行一次卷积，得到一维输出。在鉴别器中采用斜率为0.2的泄漏ReLU代替ReLU，避免了梯度消失的问题。

1.3.3 Loss Function

我们所采用的总损失由两种类型的损失组成：（1）对抗性损失和（2）周期一致性损失。
（1）对抗性损失计算了映射g1和g2的对抗性损失。对于从负g1到正的映射：NG→P及其鉴别器DP，对抗性损失表示为：
其中Ep∼§[logDP§]表示输入属于无缺陷域p数据（p)的无缺陷图像p)和Eng∼pdata(ng)[log（1−DP（G1(ng)））的鉴别器DP输出结果的平均值表示输入属于缺陷域p数据(ng)的缺陷图像ng的结果1减去鉴别器DNG输出的结果的平均值。生成器G1试图生成与域P的图像相似的图像，从而迫使DP（G1(ng)）接近1并最小化LGAN（G1、Dp、NG、P）。同时，鉴别器DP试图区分生成的图像G1(ng)和真实图像p，这迫使DP（G1(ng)）接近0，并最大化LGAN（G1、DP、NG、P）。这种优化被描述maxDPminG1LGAN(G1、DP、NG、P)。对于另一个映射G2：P→NG及其鉴别器DNG，对抗性损失与描述为maxDNGminG2LGAN(G2、Dng、P、NG)的优化相似。
（2）Cycle Consistency Loss
对于发电机G1和G2，我们希望将发电机G1产生的G1(ng)输入另一个发电机G2后，输出的G2(G1(ng)与ng相似，即ng→G1(ng)→G2(G1(ng))≈ng。同样，另一个周期应该实现相似性：p→G2§→G1(G2§)≈p。特别是，使用L1范数来衡量周期一致性损失，表示为：

(3) The Total Loss
总损失包括两个gan的对抗性损失和循环一致性损失：
值得注意的是，通过循环一致性损失，将负图像和正图像的共同特征保存为。经过彻底的训练，使用从负到正的映射，即生成器G1在测试阶段生成正图像。由DefectGAN(G1)生成的检测到的负图像和相应的正图像的一些例子如图3、图4和图5所示。在比较配对图像后，我们发现视觉上的灰度、纹理和边缘特征只存在缺陷区域和边缘特征，其他区域几乎没有差异。在这里，我们通过简单地计算灰度水平上的每个像素的差值，输出一个相同大小的新图像。该值越小，与缺陷的关系就越小。因此，缺陷区域在输出图像中被突出显示。经过简单的去噪和膨胀处理后，缺陷的定位如图所示。

1.4 EXPERIMENTS

本文验证了DefectGAN对工件和纹理两种产品缺陷检测的有效性。前者来自数据集CCSDNL，后者来自数据集DAGM2007[21]。然后将我们的方法与基于监督和弱监督学习的SegNet[22]和CAM[23]两种方法进行了比较。

1.4.1 Evaluation Metrics

（1）mIoU

（2）ttest，ttest是评估模型时间成本的另一个重要指标。将图像i的测试时间表示为ti，然后计算整个测试集的平均测试时间为ttest：

1.4.2 Results and Analysis

二、Dual Attention Network for Scene Segmentation

2.1 Abstract

在本文中，我们通过捕获基于自注意机制的丰富的上下文依赖关系来解决场景分割任务。与以往通过多尺度特征融合来捕获上下文的工作不同，我们提出了一个双注意网络(DANet)来自适应地集成局部特征与其全局依赖性。具体来说，我们在扩展的FCN之上附加了两种类型的注意模块，它们分别模拟了空间维度和通道维度上的语义相互依赖关系。位置注意模块通过对所有位置的特征进行加权和，有选择性地聚合每个位置的特征。相似的特征将会相互关联，而不管它们之间的距离如何。同时，信道注意模块通过整合所有通道图之间的相关特征，选择性地强调相互依赖的通道图。我们总结了这两个注意模块的输出，以进一步改进特征表示，从而有助于更精确的分割结果。我们在三个具有挑战性的场景分割数据集上实现了新的分割性能，即 Cityscapes, PASCAL Context and COCO。

2.2 Introduction

场景分割是一个基本的、具有挑战性的问题，其目标是将场景图像分割和解析成与语义类别相关联的不同图像区域，包括东西（如天空、道路、草地）和离散物体（如人、汽车、自行车）。为了有效地完成场景分割的任务，我们需要区分一些令人混淆的类别，并考虑到不同外观的对象。例如，“田野”和“草”的区域往往难以区分，而“汽车”的物体可能经常受到鳞片、遮挡和照明的影响。因此，有必要提高特征表示对像素级识别的识别能力。

我们提出了一个新的框架，称为双注意网络(DANet)，用于自然场景图像的分割，如图2.它引入了一种自我注意机制来分别捕获空间维度和通道维度中的特征依赖性。具体来说，我们在扩展的FCN上附加了两个平行的注意模块。一个是位置注意模块，另一个是通道注意模块。对于位置注意模块，我们引入了自我注意机制来捕捉特征图中任意两个位置之间的空间依赖关系。对于某一位置的特征，通过加权求和对所有位置的特征进行聚合来进行更新，其中权重由对应两个位置之间的特征相似性决定。也就是说，任何两个具有相似特征的位置都可以有相互的改进，而不管它们在空间维度上的距离如何。对于信道注意模块，我们使用类似的自注意机制来捕获任意两个通道映射之间的通道依赖关系，并使用所有通道的加权和更新每个通道映射。

需要注意的是，在处理复杂多样的场景时，我们的方法比以前的方法更有效和灵活。以图中的街景为例。首先，由于灯光和视野的原因，一些“人”和“红绿灯”和“红绿灯”是不显眼或不完整的物体。如果探索简单的上下文嵌入，来自占主导地位的突出对象（如汽车，建筑）的上下文将会损害这些不显眼的对象标签。相比之下，我们的注意力模型选择性地聚集了不明显物体的相似特征，以突出其特征表征，避免了显著物体的影响。第二，“车”和“人”的尺度是多样化的，识别这些不同的物体需要在不同的尺度上的上下文信息。在不同的尺度上，应该被平等地对待，以表示相同的语义。我们的注意机制模型只是为了从全局的角度自适应地整合任意尺度的相似特征，这可以在一定程度上解决上述问题。第三，我们明确地考虑了空间和通道关系，以便场景理解可以从长期依赖中获益。

2.3 Dual Attention Network

2.3.1 Overiew

问题1：给定一个场景分割的图片，东西或物体，在尺度、照明和视图上都是不同的。由于卷积操作会导致一个局部的接受域，因此与具有相同标签的像素所对应的特征可能会有一些差异。
解决：为了解决这个问题，我们通过建立特征与关注之间的关联来探索全局上下文信息机制，该方法可以自适应地聚合随机化的上下文信息，从而提高了场景分割的特征表示能力。

我们设计了两种类型的注意模块，在扩张残差网络生成的局部特征上绘制全局上下文，从而获得更好的像素级预测的特征表示。我们采用了一个预先训练好的残余网络，以扩张策略作为骨干。需要注意的是，我们在后两个ResNet块中删除了降采样操作，并采用了扩展卷积，从而将动态特征图的大小扩大到输入图像的1/8。它保留了更多的细节，而不需要添加额外的参数。然后将扩张残差网络的特征输入两个平行的注意模块。以图的上部的空间注意模块为例，我们首先应用卷积层得到降维的特征。然后，我们将这些特征导入位置注意模块，并通过以下三个步骤生成空间远程上下文信息的新特征。第一步是生成一个空间注意矩阵，用来模拟特征的任意两个像素之间的空间关系。接下来，我们在注意矩阵和原始特征之间进行矩阵乘法。第三，我们对上述相乘法的结果矩阵和原始特征进行元素和运算，以获得反映上下文的最终表示。

2.3.2 Position Attention Module

我们首先将其输入一个卷积层，分别生成两个新的特征图B和C，其中{B，C}∈R^C×H×W。然后我们将它们重塑为R^C×N，其中N=H×W是像素数。然后，我们在C和B的之间进行矩阵乘法，并应用一个softmax层来计算空间注意图S∈R^N×N：

其中s_ji测量了第i个位置对第j个位置的影响。
同时，我们将特征A输入卷积层，生成一个新的特征图D∈R^C×H×W，并将其重塑为R^C×N。然后，我们在D和S的之间进行矩阵乘法，并将结果重塑为R^C×H×W。最后，我们将其乘以尺度参数α，用特征a进行元素和运算，得到最终输出E∈R^C×H×W如下:

2.3.3 Channel Attention Module

通道注意模块的结构如图所示。与位置注意模块不同的是，我们从原始特征A∈R^C×H×W直接计算出通道注意图X∈R^C×C。具体来说，我们将A重塑为R^C×N，然后在A和a的转座之间进行矩阵乘法。最后，我们应用softmax层获得通道注意图X∈R^C×C:

此外，我们在X和a的转座子之间进行矩阵乘法，并将它们的结果重塑为R^C×H×W。然后我们将结果乘以一个尺度参数β，用a进行元素和运算，得到最终输出E∈R^C×H×W：

我们在计算两个通道的关系处理之前不使用卷积层来嵌入特征，因为它可以保持不同通道映射之间的关系。此外，与最近通过全局池化或编码层来探索信道关系的工作不同，我们利用所有相应位置的空间信息来建模信道相关性。

2.3.4 Attention Module Embedding with Networks

为了充分利用长期上下文信息，我们聚合了这两个注意模块的特征。具体地说，我们将两个注意模块的输出转换为一个卷积层，并执行一个元素级和来完成特征融合。最后，按照卷积层生成最终的预测图。我们不采用级联操作，因为它需要更多的GPU内存。请注意，我们的注意力模块很简单，可以直接插入到现有的FCN管道中。它们不会增加太多的参数，但却有效地加强了特征表示。

2.4 Experiments

为了评价该方法，我们在 Cityscapes dataset、 PASCAL VOC2012、PASCAL Context dataset和COCO Stuff数据集上进行了综合实验。实验结果表明，DANet在三个数据集上都取得了最先进的性能.

2.4.1 Datasets and Implementation Details

Cityscapes:该数据集有从50个不同城市捕获的5000张图片。每幅图像有2048×1024像素，具有19个语义类的高质量像素级标签。训练集中有2979张图像，验证集有500张图像，测试集中有1525张图像。
PASCAL VOC 2012:该数据集有10,582张图像用于训练，1,449张图像用于验证，1,456张图像用于测试，其中涉及20个前景对象类和一个背景类。
PASCAL Context:该数据集为整个场景提供了详细的语义标签，其中包含4998张用于训练的图像和5105张用于测试的图像。我们用最常见的59个类和一个背景类别（总共60个类）来评估该方法。

2.4.2 Results on Cityscapes Dataset

与基于FCN(ResNet-50)的基本模型相比，使用位置注意模块在平均IoU中为75.74%，提高了5.71%。同时，单独使用通道上下文模块的性能比基线模块高出4.25%。当我们将这两个注意模块集成在一起时，性能进一步提高到76.34%。

位置注意模块（PAM）的效果如图4所示。使用位置注意模块，一些细节和对象边界更加清晰，如第一行的“极点”和第二行的“人行道”。对局部特征的选择性融合增强了对细节的识别能力。同时，图5表明，通过我们的频道注意模块(CAM)，一些错误分类的类别现在被正确分类，如第一行和第三排的“公交车 ”。信道映射之间的选择性集成有助于捕获上下文信息。语义的一致性得到了明显的提高。

对于位置注意（PAM），整体自我注意图的大小为(H×W)×(H×W)，这意味着对于图像中的每个特定点，都有一个对应的子注意图的大小为(H×W)。在图6，对于每个输入图像，我们选择两个点（标记为#1和#2），并分别在第2列和第3列中显示它们对应的子注意力图。我们观察到位置注意模块可以捕获清晰的语义相似性和随机关系。例如，在第一行中，红点#1被标记在一个建筑物上，它的注意力地图（在第2列中）突出显示了建筑物所在的大部分区域。此外，在子注意图中，边界是非常清晰的，即使其中一些边界是远离点#1。至于第二点，它的注意力地图集中在大多数被标记为“汽车”的位置上。在第二行中，全局特征内的“交通标志”和“人”也是如此，即使相应的像素数量更少。第三行是“植被”类和“人”类。特别是，第2点对附近的“骑手”类没有反应，但它对远处的“人”有反应。

2.4.3 Results on PASCAL VOC 2012 Dataset

2.4.4 Results on PASCAL Context Dataset

在本小节中，我们在帕斯卡上下文数据集上进行了实验，以进一步评估我们的方法的有效性。我们对pascalVOC2012数据集采用相同的训练和测试设置。帕斯卡尔上下文的定量结果如表6所示。基本模型（简略的FCN-50）产生的平均IoU为44.3%。DANet-50将性能提高到50.1%。此外，通过深度预训练的网络ResNet101，我们的模型结果达到了平均IoU52.6%，大大优于以前的方法。

2.5 Conclusion

本文提出了一种用于场景分割的双注意网络(DANet)，它利用自注意机制自适应地集成了局部语义特征。具体地说，我们引入了一个位置注意模块和一个通道注意模块来分别捕获空间维度和通道维度中的全局依赖性。消融实验表明，双注意模块能有效地捕获远程上下文信息，并得到更精确的分割结果。我们的注意力网络在四个场景分割数据集上取得了一致的出色表现，即城市景观、PascalVOC2012、Pascal上下文和COCO内容。

3 PGA-Net: Pyramid Feature Fusion and Global Context Attention Network for Automated Surface Defect Detection

3.1 Abstract

由于表面缺陷的复杂性，实现表面缺陷检测的全自动化仍然是一个挑战。虽然类间的缺陷包含相似的部分，但缺陷在外观上存在很大的差异。为了解决这些问题，本文提出了一种用于表面缺陷像素级检测的金字塔特征融合和全局上下文注意网络，称为PGA-Net。在该框架中，首先从主干网络中提取多尺度特征。然后利用金字塔特征融合模块，通过一些有效的密集跳跃连接，将这些特征融合成五种分辨率。最后，将全局上下文注意模块应用于相邻分辨率的融合特征图，使有效的信息从低分辨率融合特征图传播到高分辨率融合特征图。此外，在框架中加入边界细化块，细化缺陷的边界，改进预测结果。最终的预测是五种分辨率的融合特征图的融合。对4个真实缺陷数据集的评估结果表明，该方法在平均并集和平均像素精度上优于最新的方法(NEU-Seg：82.15%，DAGM2007：74.78%，MT_defect：71.31%，Road_defect：79.54%)。

3.2 INTRODUCTION

由于缺陷的复杂性，在自动缺陷检测任务中存在三个主要挑战：1)对比度较低：在工业生产中，灰尘的存在和光强的变化导致图像中缺陷与背景的对比度较低。图1(a)显示，红框中的缺陷几乎不可见，2）类内差异：与工业生产不同，其他应用中的缺陷形状不规则。如图1(b)所示，同类缺陷的多尺度差异很大；3)类间相似性：由于生产过程的不确定性，一些不同种类的缺陷差别不大。图1©显示了不同类型的缺陷（黄色和蓝色的方框），它们在纹理和灰度信息上非常相似。随着计算机视觉的快速发展，上述挑战在工业生产中正逐渐得到解决。

目前，基于CNN的检测方法在工业缺陷检测中得到了广泛的应用，它通过设计不同的网络模型来完成缺陷检测。对于低对比度，模型需要有效地利用对象的特征来区分对象和背景之间的区别。CNN不同层次的特征对物体有不同的敏感性。低级特征具有较高的分辨率，可以产生清晰而详细的边界，但上下文信息较少，而高级特征具有更抽象的语义信息，擅长进行类别分类，但形状和位置较弱。大多数的方法主要集中于从网络的深层中提取的高级特征。由于这些方法缺乏从浅层中提取的低层次特征（如边界、纹理和灰度信息），导致预测能力较差。

为了解决这些问题，本文提出了一个金字塔特征融合模块，该模块使用多尺度卷积（具有不同大小的内核）从最后一次卷积中对特征映射进行加权骨干网络每个阶段的层，以获得不同阶段的上下文信息，然后在每个阶段融合这些提取的相同分辨率的特征。这不仅避免了网格工件和信息的缺乏，而且充分提取了上下文信息。同时，使用与卷积核宽度相同大小的条不会带来大的计算。对于类间相似性，模型还需要实现对图像中不同类别对象（包括它们之间的连接和差异）的整体感知，实现每个像素需要分类在正确的位置。为了解决这一问题，我们在相邻的分辨率融合图中添加了全局上下文注意模块，从低分辨率融合图中提取全局上下文信息，然后对高分辨率融合图进行加权，以细化类别像素的空间位置。这不仅确保了信息的有效传播，而且也不会增加计算量。

本文五项主要贡献如下：

介绍了一种基于深度学习的表面缺陷检测方法，该方法在四种不同的表面缺陷数据集上取得了最先进的性能。
提出了一种基于像素级而不是图像级或区域级的表面缺陷检测方法。同时，该方法的目的是检测和区分不同类型的缺陷，而不仅仅是突出图像中的明显区域。
提供了一个金字塔特征融合模块，该模块将主干CNN各个阶段的多层次特征融合成多尺度分辨率，并分别学习这些分辨率。
设计了一个全局上下文注意模块，它嵌入到这些分辨率中，以确保从低分辨率到高分辨率的高效信息传输。
在该方法中加入了深度监督和边界细化技术来优化多分支网络，并在训练过程中加速收敛。最终的框架在四个缺陷数据集上取得了优异的性能。

3.3 RELATED WORKS

根据不同的表面缺陷检测任务，基于挖掘挖掘的方法可以分为图像级缺陷分类、区域级缺陷检测和像素级缺陷分割。

图像级缺陷分类：Masci等提出了一种用于钢缺陷分类的多尺度金字塔池化网络，但不要求所有图像的大小都相等。Natarajan等提出了一种通过迁移学习和支持向量机(SVM)分类器实现的灵活的多层深度特征提取方法，克服了小数据集导致的过拟合问题。He等人提出了一种用于特征提取的CNN半监督模型，并将表示特征输入到一个分类器中，用于钢表面缺陷的分类。然而，这些方法并不能给出缺陷的确切位置。同时，当图像中存在多种缺陷时，这些方法的精度也会降低。

区域级缺陷检查：He等提出了一种多层次特征融合网络，该网络将从骨干CNN中提取的多层次层次特征结合为一个分辨率，用于钢板缺陷检测。陈晓强等人提出了一种基于CNN的方法，通过CNN和朴素贝叶斯数据融合方案分析各个视频帧进行裂纹检测。周等人改进了一种深度卷积神经网络，并将一种新的锚定机制应用于为对象生成合适的候选框，并结合多层次特征构造超特征用于分裂销缺陷检查的鉴别。这些方法的缺点是只能通过一个或多个紧拟合的边界框提供一个粗糙的缺陷区域，而不能准确地描述缺陷的边界。

像素级缺陷分割：目前最有效的表面缺陷检测方法是基于全卷积网络。在[36]中提出了一种新的CNN，它以特征金字塔的方式从上到下集成上下文信息，用于路面裂缝检测。任等提出了一种基于深度学习的缺陷分类框架，然后通过训练后的分类器与原始图像进行卷积，获得像素级预测。杨等提出了一种基于多尺度特征聚类的全卷积的纹理表面缺陷检测方法。与基于图像级和区域级的方法相比，基于像素级的方法可以更准确地定位缺陷，准确地描述缺陷边界。然而，这些方法的结果也需要改进：1)这些方法大多集中于高级特征，而忽略了低级特征信息的重要性。同时，输出只有单边预测，检测结果较差。2）这些方法部分采用多侧预测，然后将这些预测直接融合输出最终预测，缺乏不同分辨率特征图的内在关系。相反，我们提出了一个金字塔特征融合模块来充分利用不同层的特征信息。我们将这些特性融合成不同的分辨率，并采用全局上下文注意模块来逐步融合它们。

3.4 METHODOLOGY AND DESIGN

3.4.1 System Overview

本文将表面缺陷检测视为一项像素化的任务。该方法的结构包括五个主要部分：1）多层特征提取网络；2）金字塔特征融合模块；3）全局上下文注意模块；4）边界细化块；5）深度监督，如图所示。

首先，将原始图像的批大小和相应的ground truth输入网络，通过卷积和池化操作的特征提取网络提取多层特征。该模型通过前向传播来学习训练样本各图像中的有效特征，并将这些特征逐一对应于ground truth，从而告知这些特征的属性。在前向传播过程中，利用输出特征映射和ground truth来计算损失。然后采用反向传播算法将损失最小化，实现了网络优化的目标。
接下来，将这些特征输入金字塔特征融合模块。通过卷积和反褶积（使用不同的内核和步幅）操作来调整维数，使融合后的特征映射具有相同的维数。通过一些密集的跳跃，同时连接并融合这些特性成5个分辨率。
然后，在这些分辨率中嵌入的全局上下文注意力机制，以允许有效的信息从低分辨率传播到高分辨率。每个全局上下文关注的输出之后都是边界细化。调整每个分辨率的尺寸大小，使其与原始图像相同，从而生成预测贴图。.
最后，将这些预测图进行融合，生成最终的预测。

3.4.2 Multilevel Features Extraction Module

本文在使用ImageNet数据集预训练的VGG-16模型上构建了深度特征提取模块(FEM)，提取多层特征进行表面缺陷检测。有限元法包括五个块，这些块提取不同的外观信息，从浅细层(block_1和block_2)到深粗层(block_4和block_5)。每个块由卷积层、修正的线性单元激活函数(ReLU)、批归一化和除最后一个块外的最大池化层组成。有限元法的细节见表，所有这些层在反向传播过程中都通过随机梯度下降进行优化，以最小化预测和ground truth之间的差异。

3.4.3 Pyramid Feature Fusion Module

本文提出了金字塔特征融合(PFF)模块，如图所示，
可分为三个步骤:第一，输入大小为W*H的图片，并通过FEM模块在不同的阶段生成多级特征PFF模块获得每个阶段的最后一层特征：conv1_2、conv2_2、conv3_3、conv4_3和conv5_3。为简单起见，这五个特征可以用特征集F：f=(f₁、f₂、f₃、f₄、f₅)表示，其中f₁表示conv1_2特征等等。第二，通过加权多尺度感受域生成多上下文信息，同时将该信息映射到5个不同分辨率的特征图：Tn=(W/2ⁿ，H/2ⁿ)，其中n=（0,1,2,3,4）、W和H分别表示输入图像的宽度和高度。对于f₁(分辨率R₁=T₀)，该模块通过一堆卷积层将其缩小到5个分辨率，输出特征映射Yⁱ₁如下：

σ指ReLU激活，down-scale()表示通过W_k×k(核大小为k×k，步幅s=k)缩小特征图f₁，b表示偏差，*表示卷积。
对于f₅(分辨率R₅=T₄)，模块将其上采样为5个分辨率下，输出特征映射Yⁱ₅如下：
upsample()是指在训练过程中学习到的参数ψ进行反褶积。对于f₂、f₃和f₄的分辨率在t₀和t₄之间，模型使用down-scale（）和upsample（）的组合将它们调整为5个分辨率，输出特征映射Yⁱ_l如下：
最后，将输出中维度相同的特征融合，生成最后5个融合特征图。这五个融合的特征可以被定义为

在PFF中定义的所有卷积层之后都是ReLU激活和批处理归一化，这些参数都是可训练的，如表二所示。通过这种方法，该模型有效地从CNN的不同阶段获取多尺度上下文信息，实现了对对象的整体感知。

3.4.4 Global Context Attention Module

由PFF生成的不同分辨率的最终融合特征图包含了各种视觉上下文信息，其中的每一个都可以用来产生结果预测。一种方法是利用双线性上样本将这些融合的特征放大到与原始图像相同的维度，然后通过卷积层将它们的通道改变为类数来预测分割结果。然而，这些方法的缺点是：1)它们缺乏不同分辨率预测之间的内部关系信息，2)直接使用具有大核的双线性上样本可能会导致一些详细信息的缺失，且参数是不可训练的。其他U型模型，在解码过程中逐步将从低分辨率到高分辨率的相邻特征图结合起来。但是，这些方法也存在两个缺点：1)解码过程中相邻特征图的组合类型过于单一，缺乏多样化的表示，2)缺乏来自低分辨率（高级）的全局上下文信息，可以提高解码过程中的高分辨率（低级别）特征图。

为了解决上述问题，我们提出了一个全局上下文注意模块，该模块包括两个阶段：

第一阶段：采用3×3卷积法调整高分辨率和低分辨率融合特征图的信道尺寸，然后通过全局池化到低分辨率，获得全局上下文，然后与高分辨率特征图相乘。输出的fs1如下：

其中x和*分别表示元素向乘法和卷积，G（·）表示全局池化操作，σ表示ReLU激活，f_h和f_l表示高分辨率和低分辨率的融合特征图，W_3×3表示可训练参数，b表示偏差。

第二阶段：将低分辨率的融合特征图以高分辨率上采样到相同的维度，然后加入f_s1。第二阶段f_s2的输出如下：

，其中上样本（；ψ）是指在训练过程中学习到的参数ψ的反褶积，⊕是指元素级加法。

3.4.5 Boundary Refinement Block

在本文中，我们添加了边界细化块，以进一步提高检测精度，如图4(b).所示边界细化视为残差结构，输出细化评分图S˜如下：

S和R（·）分别表示粗评分图和残差分支，*表示卷积，σ为ReLU激活，W_1×1表示可训练参数，+为跨通道连接，b表示偏差。

3.4.6 Deep Supervision

虽然充分利用了多级特性，但参数的装载量也明显增加了，这可能会带来额外的优化难度。为了解决这一问题，我们在模型中加入了深度监督，旨在简化训练过程，加速网络模型的优化。由PFF模块在每个分辨率下生成的融合特征图可以单独进行裂纹预测。我们在上述5个分辨率融合的ground truth中添加一个每像素的损失（交叉熵）。

其中，Ti和Pi分别表示第i幅图像的ground truth和预测概率，N表示批处理大小，在测试阶段，将五个分支产生的预测结果进行融合，输出检测结果。

3.5 EXPERIMENTS AND RESULTS

3.5.1 Datasets

1)数据集描述：本文选取4个表面缺陷数据集，包括NEU-DET缺陷数据集、DAGM2007缺陷数据集、道路缺陷数据集来验证和评估该方法的适用性和通用性。

NEU-Seg数据集：NEU-Seg缺陷数据集是[51]收集的标准化高质量数据库，旨在解决热轧钢条的自动识别问题。该数据集包括来自带状钢板的六类表面缺陷，包括补片、裂纹、凹坑表面、包容、划痕和卷入比例。每个原始图像的分辨率为200×200，每个类包含300张带有紧密匹配的边界框注释的图像。然而，为了实现像素级表面缺陷检测任务，这种形式的注释并不满足CNN模型的训练。在这项工作中，我们选择了三个典型的缺陷（包含、补丁和划痕），并通过开放注释工具LabelMe进行像素级注释。这个数据集被命名为NEU-Seg数据集。由于热轧板情况的复杂性，类内缺陷的外观存在较大差异，而类间缺陷的部件相似，与背景的对比度较低。这些因素给热轧带钢表面缺陷的检测带来了巨大的挑战。图5为部分NEU-Seg原始图像的ground truth。

DAGM2007数据集：这个由人工生成的数据集[47]表示在纹理背景下的缺陷，非常接近现实世界。该数据集包含许多类别的缺陷，每个原始图像的分辨率为512×512。在DAGM2007的标签图像中，缺陷区域大致被椭圆覆盖。在本实验中，我们选择了六种类型的缺陷并重新定义了原始标签（我们没有改变原始缺陷区域的大小，只是改变了标签图像中的索引），新标签图像中的不同索引代表了不同的类别。图6为DAGM2007数据集的部分缺陷图像和相应的ground truth。

MT缺陷数据集：磁贴缺陷数据集，包含1344张缺陷图像，每个原始缺陷图像对应一个像素级标签。MT数据集包括五种类型的缺陷：不均匀、磨损、裂纹、吸孔和断裂，所有这些缺陷图像都具有不同的分辨率。这些缺陷图像大多包含一系列的噪声，如缺陷形状的多样性、纹理的复杂性和光照强度的变化等，所有这些因素都给检测带来了巨大的挑战。在本实验中，我们检测了磁性砖缺陷数据集的五种类型的缺陷（气孔、裂纹、断裂、断裂和不均匀）。图7显示了部分原始缺陷图像和相应的ground truth。

道路缺陷数据集：此数据集包含两个类（裂纹、嵌块）。破解图像的数量为500张，大小约为2000×1500像素，由[36]收集。我们通过CCD收集的嵌式贴片图像包含800张图像，大小约为3000×2000。每个缺陷图像对应于一个具有不同索引的像素级标签。

3.5.2 Evaluation Metrics

与其他分割方法相比，采用平均交叉过并集(mIoU)来进行预测结果的评价。其数学定义如[11]所示。我们还使用了在这个实验中处理每个图像的平均运行时间来显示该方法的实时性能。

3.5 CONCLUSION

本文提出了一种用于表面缺陷检测的自动缺陷检测网络。在该框架中，利用特征提取模块从缺陷图像中提取多层特征。引入了金字塔特征融合模块，将这些多层特征融合成不同的分辨率。全局上下文注意模块使有效的信息从低分辨率的融合特征图传播到高分辨率的融合特征图。在框架中添加了边界细化块来细化对象的边界预测。在框架中应用深度监督，加快网络优化过程。

4 MT数据集的Att_Unet

训练图像：只有50epochs

用原始U-Net训练图像：

也是在50epoch左右收敛。

对于单个图片效果的话，对于类似缺陷的干扰识别不明显。

5 DeepCrack数据集

部分Crack图片的图片和Ground truth如下：

训练过程图像：

验证集的结果：

测试集的结果：

你可能感兴趣的:(机器学习,计算机视觉,深度学习)

TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情