秋男不吃牛肉豆制品牛奶小麦

「4」「======」cvpr2020论文学习

文章目录

- - HRDNet: High-resolution Detection Network for Small Objects
  - - High-Resolution Detection Network
    - Experiments
  - MultiResolution Attention Extractor for Small Object Detection
  - Stitcher: Feedback-driven Data Provider for Object Detection
  - - - Stitcher
  - Augmentation for small object detection
  - Small Object Detection using Context and Attention
  - MultiResolution Attention Extractor for Small Object Detection
  - (cvpr2019) ScratchDet: Training Single-Shot Object Detectors from Scratch
  - - - ScratchDet
  - IPG-Net: Image Pyramid Guidance Network for Small Object Detection
  - **3. Image Pyramid Guidance Network(IPGNet)**
  - - **3.1 Challenges to be solved**
    - - **Overall Structure**
        
        **3.2 IPG转换模块**
      - **3.4 Backbone Network**
      - **3.5 IPG Fusion Module**
      - **4. Experiments**
      - **4.1 Experiments Details**
        
        **4.2 MS COCO**
  - LayoutLM: Pre-training of Text and Layout for Document Image Understanding
  - - 1. Introduction
    - - 2.1 The BERT Model
      - 2.2 The LayoutLM Model
      - 2.3 Model Architecture
      - 2.4 Pre-training LayoutLM
      - 2.5 Fine-tuning LayoutLM
    - 3. EXPERIMENTS
    - - **3.1 Pre-training Dataset**
      - **3.2 Fine-tuning Dataset**
      - 3.3 Document Pre-processing
      - 3.4 Model Pre-training
      - 3.5 Task-specific Fine-tuning

前言最近需要汇报小目标检测相关的论文，开坑记录下。

HRDNet: High-resolution Detection Network for Small Objects

论文地址
摘要随着网络逐渐加深，小目标检测问题成为一个具有挑战性的问题。通常来说增大输入图片的分辨率能够有效缓解这个问题。单纯的扩大分辨率极大的增加了模型的运算量，为了避免这些问题，本文提出了HRDNet模型。

High-Resolution Detection Network

模型包括Multi-Depth Image Pyramid Network (MD-IPN) and Multi-Scale Feature Pyramid Network (MS-FPN) 两个部分。MD-IPN通过使用多深度主干模型保持位置信息，即将高分辨率输入馈入到浅层网络，保持了更多位置信息同时降低了计算量；将低层的卷积输入馈入到深层网络中来提出更多语义信息。通过从高到低的卷积层提取小目标不同的特征来提升小目标的表现，同时维持中大物体的识别效果。MS-FPN这部分用来对齐和融合由MD-IPN生成的多尺度特征图，减少多尺度多深度特征之间的信息不平衡。
HRDNet的主要思想是用深层主干网络处理低分辨率的图像，浅层神经网络处理高分辨率图像。已经有文献[Fast tiny object detection in large-scale remote sensing images]证明了使用浅而小的神经网络对高分辨率图像进行提取的优势。MD-IPN可以看作有多个输入流的图像金字塔网络的变体，MD-IPN在处理大型、小型对象之间的权衡，以及高性能和低性能计算复杂性。使用浅层网络从高分辨率图像中提取特征，但浅层网络的语义表达能力较弱，所以需要给深层的骨干网络输入低分辨率图像来获得语义特征，因此MD-IPN的输入形成了一个以固定比例 $\alpha$ 递减的图像金字塔，MD-IPN网络的输出是一系列多尺度特征要素组，每个组包含多层次的特征图。

MD-IPN部分产生多分辨率、多尺度的特征图，与FPN不同，语义信息不仅从高级特征传播到低级特征，而且从低分辨率图像传递到高分辨率图像，因此，多尺度FPN的计算分为两个方向，多尺度FPN的基本操作与传统FPN相同。最高分辨率的特征 $F_{0,0}$ 不仅保持用于检测小物体的高分辨率，还结合了多尺度流的强语义特征。

本文提出的MS-FPN结构可以公式化为：Up表示2x up-sampling，卷积Conv()表示为1x1卷积。

最终的输出为 $F_i^{'}=Conv(F_{0,i})$

Experiments

表1对比了Cascade R-CNN和不同分辨率输入的HRDNet。

图像分辨率对于小物体检测很重要，在一定程度上提高分辨率能够带来更好的性能。实验探究不同分辨率对物体检测的影响，下图显示不同分辨率下AP精度的变化，最后发现分辨率为3800x2800时，HRDNet性能最好。

MultiResolution Attention Extractor for Small Object Detection

论文地址
摘要

Stitcher: Feedback-driven Data Provider for Object Detection

论文地址
摘要目标检测器的性能与物体大小有较大关系，本文研究发现在大多数训练过程中，小物体对于训练产生的损失几乎没有作用，产生的不平衡优化导致性能变差。基于此发现，提出了含有反馈驱动的数据provider—Stitcher。在Stitcher，图像被resize为更小的分量，然后将其stitche成与regular images相同的尺寸。Stitched images包含了smaller object，利用loss作为反馈来进行迭代更新。通过对各种检测器，backbones、datasets等进行实验后发现，Stitcher稳定地大幅度提高了性能，同时在训练和inference阶段没有增加额外的计算量。

以Resnet50和FPN为组件的Faster RCNN模型为例，研究在迭代过程中不同规模的损失分布。将objects按照小、中和大scales进行定义。具体地，在t次迭代中，小物体的损失函数为 $L_s^t$ ， $r_s^t$ 表示小目标的损失函数占总体损失函数的比例。从图中发现，超过50%的iterations，小目标损失函数的占比小于0.1，对小目标信息的缺乏导致了整体较差的性能。
在Stitcher中，提出了一个反馈驱动的data provider，通过以反馈的形式利用训练损失来提升目标检测的性能。核心思想是利用当前iteration的损耗信息作为反馈来自适应的决定下一个iteration的输入。如图3所示，如果当前iteration中小目标损失占比过小时，t+1次迭代的输入就是Stitched images，其中小物体更加丰富。否则输入则仍保持为regular images. 图像拼接能够缓解原始数据分布上输入特征空间的图像级别不平衡，反馈的方式也能够减轻不平衡方向的优化。

本文验证了Stitcher在不同的frameworks, backbones, datasets甚至实例分割上的有效性，在所有的设置当中，我们的方法有极大的优势，特别在小物体检测中。Stitcher包含了multi scale的图像，所以可以将其与multi-scale training相比较，后者训练时间更长但表现也不佳，Stitcher可以轻松的集成到任何检测器中。

Stitcher

Stitcher看作是一个数据provider，视penalization信号来决定输出regular images还是stitched images。

Training Level Module - Selection Paradigm
按照以下步骤计算小目标物体损失函数的占比，物体属于哪种规模应由其面积决定，但是在检测任务重，实例物体的ground truth是无法得到的，所以采用box area进行代替。
Time Complexity
只有在训练的过程中会用到Stitcher，因此对于inference的时间不会产生负担。Stitcher包括图片拼接和模式选择两个部分，图片拼接时使用最近邻插值方式缩小图像，在迭代过程中采用拼接图像会超出普通运算0.02s，入训练Resnet50-FPN的RCNN模型需要8.7个小时，添加了Stitcher后时间会延长一刻钟。

Augmentation for small object detection

论文地址
摘要最近目标检测取得了较好的进展，但是在检测小目标时的准确率仍较低。本文通过对小目标进行过采样来尝试解决这个问题。

Small Object Detection using Context and Attention

摘要本文提出一种使用上下文的物体检测方法来提高小目标检测的准确性，所提的方法结合不同层的的特征作为上下文信息，还提出了带有注意力机制的目标检测，能够包含来自目标层的上下文信息。

单看图像无法分辨出天空中的小目标是鸟，但通过结合上下文作为额外信息可以识别出鸟。首先，为提供有关小对象的足够信息，利用了小目标周围的像素信息。通过将小物体的特征与上下文的特征结合起来，可以增加小物体的信息以便更好的检测物体；其次，在早起使用了注意力机制来关注小物体，这有助于较少来自背景的不必要的浅层信息。
本文的基模型选择了baseline SSD，然后使用提高小对象探测能力的组件。首先，SSD与特征融合结合起来得到上下文信息，成为F-SSD；然后，SSD与attention模块结合起来让网络将注意力集中到重要的部分，成为A-SSD了；最后，将注意力模块与特征融合模块结合在一起，成为FA-SSD.

F-SSD: SSD with context by feature fusion
为了对给定的feature map提供上下文信息，我们将其与来自深层的feature maps进行融合。由于特征图有不同的空间大小，因此我们提出了如图4的融合方法。在进行特征concate之前，对上下文特征进行卷积，让其与目标特征有相同的空间尺寸，将上下文特征通道设置为目标通道的一半。仅对于F-SSD，我们还向目标要素添加了一个额外的卷积层，不改变通道的空间大小和数量。而在特征concate之前，需要对每一个feature map进行normalization。因此，我们对每层进行batch normalization 和Relu。最后，将target features 和context features进行concate。
A-SSD: SSD with attention module
如图在conv4_3和conv7后面添加了two-stage attention模块，attention stage的结构如图5所示。
Experiments
本文采用基于VGG16作为backbone的SSD模型，对于FA-SSD，对conv4_3和conv7进行特征融合，将conv4_3作为target，将conv7和conv8_2用作上下文layers；将conv7作为target，conv8_2和conv9_2作为context layers。在用于小物体检测的浅2层应用attention module，attention module的输出与目标特征有相同的size。
Inference time
对比了SSD,F-SSD, A-SSD,FA-SSD的表现，如表1，发现后三种方式都比SSD效果好，意味着每个组件都可以改善基准。FA-SSD整体的性能没有F-SSD好，但是FA-SSD在小物体检测方面表现出最佳的性能和显著的改进。
为了对attention模块更加理解，对来自FA-SSD的attention mask进行可视化，attention mask是从sigmoid function之后取得，conv4_3有512channels，conv7有1024channels，每个channel集中在不同的对象上，可视化其中一部分如图8。

MultiResolution Attention Extractor for Small Object Detection

摘要小物体由于分辨率小和尺寸小而难检测，现存的小物体检测方法主要集中在数据预处理或者降低大小物体之间的差异。受到人类视觉注意力机制的启发，本文提出了两种特征提取方法来挖掘小物体最有用的信息。
选择Faster-RCNN作为基础探测器，将特征提取器替换为本文提出的MRAE来探测小物体。MRAE使用方便，与现有的四种基于特征的方法相比，MRAE因为注意力权重在特征融合方面更有效。MRAE方法凸显除了Resnet的多级别上最有用的特征图，还进行了特征融合来进一步强调重要信息。几个级别的特征图进行加权和，其中注意力权重通过小型网络学习(卷积层、全连接层)然后跟随一个softmax层。

Related Work
为了解决这个问题，使用传统的图像金字塔和filter 金字塔方法来检测金字塔结构中的小物体。
Soft attention
本文提出的MRAE突出了ResNet网络中多个级别的游泳的特征图，进而进行特征融合来进一步增强有用的信息。通过小型网路学习出各级别特征图的权重，然后经过softmax层。
本文提出的两个模块：首先提出的软注意力模块使用max-pooling层来产生注意力值，第二个方法用于设计基于注意力的特征交互小网络，其中定义了模版特征级别，根据模版与其他特征级别之间的余弦相似度生成最终的attention maps。在ResNets中，特征提取网络有四个levels，其中一个级别由带有相同大小的特征图的多个conv层组成，其中conv2,conv3,conv4, conv5分别表示为C1,C2,C3,C4。Conv5用于模拟VGG16网络中的全连接层功能，使用C1,C2,C3来生成注意力图。
我们附上一个小网络来获得attention权重，注意力权重定义为每个级别要素生成最终的attention map的权重。这个小型网络包含1x1转换层和一个max-pooling层，1x1conv层用于降低维度，它等于深度方向上的总和。将卷积层的输出维度设置为1，global max pooling层用于提取特征图的最大值来获得最值得关注的特征像素，到目前位置得到的三个指连接到softmax层中获得一组归一化后的值。

Attention-based feature interaction MRAE
如果将 $C_t$ 输出作为模版，分别计算 $C_{i(i!=t)}, i=1,2,3$ 的输出与模版的余弦相似度，如果将 $C_1$ 作为模板，增加一个由1x1conv layer和全连接层组成的小型网络来映射出一个vector进行相似度计算，余弦相似度表示为：
$D^2, D^3分别表示C2和C3的attention degree，将$ {D^1=1, D^2, D^3}$输入到softmax层中，得到注意力权重。

(cvpr2019) ScratchDet: Training Single-Shot Object Detectors from Scratch

论文地址
代码地址
摘要目前的目标检测器大多从分类数据集ImageNet上预训练的现成网络中通过微调得到的，这可能会引起两个问题：1)，分类和检测网络对平移变换的敏感性不同，分类任务倾向于平移不变性，因此需要下采样操作来获取更好的性能，但对象检测更注重局部的纹理信息，因此谨慎使用下采样操作；2)一般检测器都是采用在ImageNet上预训练过的网络作为backbone，如果需要更改网络架构，还需要在大型数据集上进行预训练，成本比较高。
从零开始训练检测器是一种解决方案，但一般从零开始的检测器通常比预训练的检测器性能差，可能会带来训练中的收敛问题。在这篇文章中尝试从头开始训练目标检测器，通过分析先前的优化工作，发现从零开始训练检测器中被忽略的一点是BatchNorm。利用BatchNorm带来的稳定的、可预测的梯度，可以稳定地从头开始训练检测器，同时保持独立于网络结构的良好性能。利用这个优势，我们能够探索各种类型的对象检测网络，而不会产生不收敛。通过对下采样因子的广泛采用和分析提出了Root-Resnet骨干网络，该网络充分利用了原始图像的信息。
我们从头训练一个网络至少要达到两个条件：解放任何类型网络的架构限制，同时保证训练的收敛性；训练出来的模型效果比预训练的模型效果近似或者更好。在论文[30]中，认为从零开始训练检测器中缺少BatchNorm是导致收敛性较差的主要原因。因此本文将BatchNorm集成到骨干网和检测头子网中，发现BatchNorm帮助检测器以任何形式的网络中很好的收敛，超出预训练baseline的准确性。因此，我们能够自由修改体系结构，而不受预训练模型的限制。通过利用这一优势，我们分析各种配置的基于Resnet和VGGnet的SSD检测器的性能，发现第一卷积层的采样步幅对检测性能有较大的影响。基于这一点，我们通过引入新的模块来重新设计检测器的体系结构，此结构保留了检测特征图的大量信息，并从根本上提升检测器的准确性，特别是针对小物体。
DSOD首先从头训练了一阶对象检测器，并提出了一系列能产生良好性能的远离。GRP-DSOD通过应用门控循环特征金字塔改进了DSOD算法。

ScratchDet

BatchNorm for train-from-scratch
不失一般性地，考虑采用Batch-Norm在SSD中，SSD由主干子网和检测头子网组成，原始的SSD框架中没有BatchNorm。BatchNorm让优化过程更加平滑，允许网络有更大的搜索空间和更快的收敛速度。DSOD成功的从零开始训练检测器，但是，它将结果归因于DenseNet的深入监督，而没有强调BatchNorm的作用。作者认为有必要强调BatchNorm对训练检测器的影响。为了证明我们的论点，作者从头训练不含有BatchNorm的SSD，batchsize设置为128，如表1中显示在VOC2007数据集上为67.6%的mAP。
BatchNorm in the backbone subnetwork
我们在backone的每一个卷积层中增加Batch-Norm，然后从头开始训练，从表中可以看出增加BatchNorm后mAP提升了5.2%。更重要的，在backbone中增加BatchNorm能够平滑优化过程。因此，可以使用更大的学习率来进一步提高性能，她们的表现都优于在预训练的VGG16模型中微调的SSD。表明在backbone中增加BatchNorm是从头训练SSD的关键问题之一。
BatchNorm in the detection head subnetwork
为了分析BatchNorm在检测头子网中的作用，我们绘制了训练损失值，梯度的L2范数和梯度的L2范数对训练steps的波动。在图1(b)和图1©中的蓝色曲线，默认学习率为0.001从头开始训练SSD时，L2梯度范数有较大的波动，特别在训练的初期，这导致损失值突然变化并收敛到一个不好的局部最小值。这个结果有助于解释以下现象：使用大学习率从头开始或通过预训练的网络训练SSD时，可能会导致梯度爆炸、稳定性差等。
如果将BatchNorm集成到检测头子网中能够让损耗情况更加平滑，如图1中的红色曲线，mAP从67.6%上升到71%。在平滑的landscape下可以设置更大的学习率，带来更大的搜索空间和更快的收敛速度，mAP从71%上升到75.6%。使用BatchNorm，即使采取了较大的学习率有助于跳出局部最小值来产生稳定的梯度。
BatchNorm in the whole network
作者研究了在骨干网络和检测头子网中使用BatchNorm的检测器性能。在整个探测器网络使用BatchNorm后，再采用较大的学习率进行检测器训练，与预训练的VGG16主干初始化的探测器相比，该探测器的mAP升高1.5%。
Performance analysis of ResNet and VGGNet 截断的VGG16和ResNet-101是SSD中使用的两个流行的骨干网络。ResNet101产生比VGG16更好的分类结果。但是在DSSD所示，基于VGG16的SSD优于基于ResNet101的SSD，作者认为是优于ResNet101的第一个卷积层中的下采样操作引起的，这个操作会严重影响检测精度，特别针对小物体。在删除ResNet18的conv1中的下采样操作已形成图3©中的结构，检测性能从73.1%提升到77.6%，再删除第二个下采样操作来形成图(b)的结构，结果改进较小。总而言之，第一卷积层中的下采样对检测精度有不良影响，特别是对小物体。
Backbone network redesign for object detection为了克服基于ResNet的骨干网进行对象检测的缺点，同时保留其强大的分类能力，作者设计了一种Root-ResNet的新体系结构，删除第一卷积层中的下采样操作，用3x3卷积替代7x7的卷积核。有了大量的输入，Root-ResNet能够图像中的更多信息，从而提取出强大的特征进行小物体检测。将四个卷积块替换成四个残差块直到Root-Resnet的末端。每个残差块由两个分支组成，一个分支是由步长为2的1x1卷积层，另一个分支是步长为2的3x3卷积层和步幅为1的3x3卷积层。每个卷积层的输出通道设置为128。这些残差块能提高计算效率，不降低性能。

IPG-Net: Image Pyramid Guidance Network for Small Object Detection

论文链接

摘要对基于传统神经网络的目标检测器，存在一个典型的难题：空间信息被保留在浅层中，但浅层网络又没有足够的语义信息，相反地，较高层中有足够的语义信息，但丢失了很多空间信息，导致了严重的信息失衡现象。为了在浅层获取足够的语义信息，FPN用来构建一个从上到下的传播途径。本文除了从上到下结合浅层信息，还提出了IPG-Net来确保每一层的空间信息和语义信息的丰富性。本文提出的IPGNet包含两个主要部分：图像金字塔转换模块和图像金字塔融合模块，我们的主要思想是将图像金字塔导引到主干流中，来缓解信息不均衡问题，减少小物体特征的消失。IPG转换模块确保了即使在网络的最深层，仍有足够的空间信息能够进行bounding box的分类和回归。此外，本文设计了一个有效的金字塔融合模块来融合图像金字塔和backbone流中的特征。
好的特征提取器应该具备两个特征：浅层图像信息用来进行边界框回归，因为目标检测是典型的回归任务；足够的语义信息用于分类，意味着输出的特征来自深层网络。本文设计的IPG-Net通过更好的解决信息失衡问题来提取更好的特征。
深层卷积网络随着网络加深会引起位置信息或者空间信息的丢失，对于分类问题，这个属性带来的问题不大，但bounding box回归对于检测任务是很重要的。这样空间信息丢失会导致目标检测中的特征未对齐(未对齐表示在anchors和卷积特征之间的距离)。除了空间信息的丢失之外，在更深的卷积层中小物体更容易丢失。我们认为，这些对象检测问题都是由于现有的卷积网络结构的局限性导致的，无法通过修改典型网络架构来解决。
图像金字塔用于为骨干网的特征金字塔的每一阶提供更多的空间信息，对于骨干网络的每个stage，计算其在特征金字塔相应level的图像金字塔特征。图像金字塔特征通过浅而轻的IPG转换模块计算得到，与深层主干相比有更丰富的空间信息。然后设计一个IPG融合模块来将新的图像金字塔功能融合到backbone网络中。
融合模块执行两个步骤来融合两种功能，首先，将原始特征进行转换后对齐数据大小，将其投影到隐藏空间中；其次，使用常见的数学运算来结合两个特征。加、乘和级联都用于我们的实验中，并获得了不停程度的改进。

3. Image Pyramid Guidance Network(IPGNet)

3.1 Challenges to be solved

Anchor Misalignment 虽然更深的CNN可以更好的提取特征，但也会模糊这些特征。深层特征中的对象位置不总是与这些对象在原始图片的位置对齐。但是基于anchor的检测程序遵循以下假设：对象在任何特征层的位置都与相应原始图像中的位置对齐。因此，在anchor和卷积特征之间存在着未对准。这种现象随着CNN深度的增加变得更加严重。

FPN Misalignment特征金字塔网络将深层特征与浅层特征进行融合来缓解信息失衡问题，然而，由于深层CNN主干已经引起了anchor未对齐，因此，FPN的融合不能实现深层特征与相应的浅层特征之间正确的对齐。例如，没有图像金字塔的指导，由于特征R2与特征R1之间已经存在未对齐问题，因此特征P1=upsample(P2)+conv(R1)也有未对齐问题。
Feature Vanishment for Small Objects较深的CNN相对于初始图像尺寸来说跨度大了32，因此在分类问题上有较好的性能。然而，大stride也导致了输入图像详细信息的缺失。小对象检测取决于详细信息，因此，我们通常使用浅层特征检测小物体，但浅层特征缺乏语义信息。使用FPN建立一个从上到下的路径来为浅层特征提供语义信息是至关重要的。虽然FPN在一定程度上提高了浅层的检测难度，但小物体的信息仍严重丢失。由于小物体的细节信息在深层的CNN backbone中已经大大破坏。这也是为什么我们建议使用图像金字塔guidance向浅层提供浅层信息的原因。

Overall Structure

IPG-Net的整体结构如图1，由常用的如ResNet的backbone 网络改造得到，能够给现有的方法提供公平的对比。IPG-Net包含两个主要部分：IPG transformation module，IPG fusion module。前者从图像金字塔中接收一组不同分辨率的图像，从中提取特征来进行融合。IPG转换模块的功能是提取浅层特征来提供空间信息和详细信息，图金字塔特征用于guide主干网络来保留空间信息和小物体特征。此外，使用融合模块进行指导，IPG融合模块的功能是融合骨干网的深层功能和IPG转换模块的浅层功能。IPG融合模块的思想是首先对两种类型的特征进行转换，然后将它们融合在一起，来实现物体检测的增强效果。

3.2 IPG转换模块

由于CNN缺乏尺度不变能力，因此图像金字塔用来获取多级特征来降低图像尺度的影响。通常，大部分模型的表现能够通过这种方式显著提高，但在训练阶段的成本较高。与传统方法不同，本文使用图像金字塔来指导骨干网络，以减少信息不平衡问题并学习更好的检测特征。更好的特征意味着则这些不同尺度的特征有丰富的空间信息和足够的语义信息，即没有严重的特征不对齐或者信息失衡。
IPG转换模块的输入是图像金字塔集合 $set={I_i}, i \in [0, N)$ . 在IPset中的图分辨率降低2倍。第一个图像是具有HxW分辨率的 $I_0$ ，与物体检测的常用图像分辨率相同。N表示图像金字塔的级数。
下面介绍IPG转换模块的典型结构，如图2。IPG转换模块由两部分组成，一个是7x7卷积后面接上2x2 maxpooling模块，另一部分是一个残差块设计。残差块接收相同尺寸的特征但输出不同维度的特征，特征图的输出维度与主干网的尺寸对齐。使用浅层子网络提取图像金字塔特征的主要原因有两个：一方面，浅层网络能够保留更多的空间/详细信息，而deep CNN将会破坏空间信息。另一方面，由于浅层设计，计算成本和网络参数的数量不会增加太多。
IPG转换模块输出的每个组件 $set={F_i},i\in [0,N)$ 被表示为 $F_i = f(I_i), i\in [0,N)$ 。其中 $f (.)$ 表示IPG转换模块， $F_i$ 表示第i个level的图像金字塔特征。这些来自不同level的特征形成了新的图像金字塔特征。

3.4 Backbone Network

IPG-Net的主干网修改于标准的ResNet。这篇文章在标准ResNet的尾部增加了新的stage，每个stage包含了两个与ResNet相同的Bottleneck模块。Ablation研究表明，增加一个new stage能够比其他情况表现更好，太深的backbone网络对检测也有害，网络太深也会加大训练难度。使用比标准ResNet更深的卷积网络的原因是，IPG转换模块提供足够的空间信息给backbone Network，这保证了在没有太多信息失衡的情况下训练deep CNN。Deeper骨干网络使我们产生更好的语义信息，这对分类是有利的，并可以覆盖更大范围的对象。

3.5 IPG Fusion Module

3.5.1 Formulation
IPG融合模块是一个比较灵活的模块， $f ()$ 和 $g ()$ 分别对应IPG转换模块的网络和backbone network。方程 $\beta$ 可以在不同版本中灵活使用。 $O_i$ 表示第i个level的融合模块输出。 $I_0$ 和 $I_i$ 分别表示在level0和leveli的图像。 $\beta$ 表示融合模块的基本融合方程。 $f_i$ 表示第i个level下，IPG转换模块的输出， $g_i$ 表示第i个level下，backbone的网络输出。

在IPG-Net中IPG融合模块的位置如图1，每个融合模块包括两个输入。本文在融合模块提出了Sum、Product和Concatenation三种融合方式，其他类型的设计也表现的较好，但在这篇文章中没有进行讨论。
3.5.2 Element-wise Sum
此版本将图像金字塔信息作为附加信息，因此将 $F_i$ 和 $R_i$ 相加。首先，需要调整这两类特征的通道尺寸，使用通道线性插值来进行通道转换。

其中W表示不同的线性变化情况。
3.5.3 Residual Product
这部分使用 $W_s \times CT(F_i)*W_m *R_i$ 来表示骨干特征中丢失的信息。增加了骨干网络丢失的信息之后，执行LN(layer norm)操作对融合特征进行标准化处理。
3.5.4 Concatenation
将图像金字塔特征和主干网特征进行级联

4. Experiments

4.1 Experiments Details

Datasets 在MS COCO和Pascal VOC数据集上进行实验。

4.2 MS COCO

which fusing strategy is better
这篇论文针对图像金字塔和backbone网络特征融合提出了三种策略，为对比这三种方式的有效性和差异，在相同的基准上执行不同的策略，分别记录大、中和小物体的AP。三个版本的小对象的结果相似，但大、中型物体有所差异。从表中结果发现SUM策略对于IPG融合的效果最好。

How deep is better for the IPG-Net
表3表示了mAP不随网络深度的增加而增加，提升主要来自于大物体，小物体对应的指标有所降低。这个发现与本文的观点一致，浅层网络特征对小物体来说更重要。本文还研究了保持最后3个阶段的空间大小的效果，结果表明，小物体和中型物体略有改善，mAP的改善不明显。5stages的深度对于IPG-Net来说是性能最好的。
The position of the IPG fusion
这部分使用IPG-Net和4stages的ResNet进行实验，首先增加一个图像金字塔特征到骨干网络中，然后增加image pyramid的level来判断增加level是不是更好。表4发现，具有不同配置的IPG-Net相比ResNet实现了轻微的改善。IPG-Net对IPG Fusion的位置不敏感。
The effect on deep layers
图像金字的指导功能是将小物体的空间信息和图像细节信息提供给深层特征，实验证明IPG在深层中的有效性。IPG-Net和ResNet的深度是7stages，但仅使用后面4个stages的输出。
表5显示了IPG-Net几乎在所有指标上实现了比ResNet主干更好的表现。表5表明IPG-Net可以很好的用作RetinaNet的特征提取器。

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

摘要本文中，我们提出了LayoutLM来对跨扫描文档图像的文本和布局信息之间的交互进行联合建模，这对于大量实际文档图像理解任务（例如从扫描文档中提取信息）很有帮助。而且，我们利用图像特征将单词的视觉信息整合到LayoutLM模型中。

1. Introduction

本文提出了layoutLM模型，这是一种用于文档图像理解任务的简单而有效的文本和布局预训练方法。受到Bert模型的启发，Bert模型的输入主要包括文档嵌入和位置嵌入，LayoutLM进一步增加了两种类型的输入嵌入：(1) 2-D position embedding，表示文档中token的相对位置；(2) 扫描文档中的token的image embedding.

2.1 The BERT Model

BERT模型是一种基于注意力的双向语言建模方法。也已证明，BERT模型可从具有大规模训练数据的自我监督任务中显示有效的知识转移。 BERT的体系结构基本上是多层双向转换编码器。它接受令牌序列并堆叠多层以产生最终表示。详细地，给定使用WordPiece处理的一组令牌，通过将相应的单词嵌入，位置嵌入和片段嵌入相加来计算输入嵌入。然后，这些输入嵌入将通过多层双向转换器传递，该转换器可以使用自适应注意机制生成上下文表示。

BERT框架中有两个步骤：预训练和微调。在预训练期间，该模型使用两个目标来学习语言表示：屏蔽语言建模（MLM）和下一句预测（NSP），其中MLM随机屏蔽一些输入令牌，目标是恢复这些屏蔽令牌，以及NSP 是一个二进制分类任务，将一对句子作为输入并对它们是否是两个连续的句子进行分类。在微调任务中，使用特定于任务的数据集以端到端的方式更新所有参数。 BERT模型已成功应用于一系列NLP任务。

2.2 The LayoutLM Model

尽管类似BERT的模型已成为一些具有挑战性的NLP任务的最新技术，但它们通常仅将文本信息用于任何类型的输入。当涉及到视觉上丰富的文档时，可以将更多信息编码进预训练模型。因此，我们利用来自文档版面丰富的视觉信息，并将其与输入文本对齐。
有两种类型的功能可以显著改善视觉信息丰富的文档中的语言表示，它们是：

文档布局信息显然，文档中单词的相对位置对语义表示起了很大的作用。以表单理解为例，给定表单中的密钥（例如“ Passport ID：”），则其对应值更可能在其右侧或下方而不是左侧或上方。因此，我们可以将这些相对位置信息嵌入为二维位置表示。基于Transformer中的self-attention机制，将2-D位置特征嵌入到语言表示中会更好地使布局信息与语义表示对齐。
视觉信息与文本信息相比，视觉信息是文档表示中另一个重要的重要功能。通常，文档包含一些视觉信号以显示文档段的重要性和优先级。视觉信息可以由图像特征表示，并可以有效地用于文档表示中。对于文档级视觉特征，整个图像可以展示文档布局，这是文档图像分类的基本功能。对于单词级的视觉特征，粗体，下划线和斜体等样式也是序列标记任务的重要提示。因此，我们认为将图像特征与传统文本表示形式相结合可以为文档带来更丰富的语义表示形式。

2.3 Model Architecture

为了利用现有的预训练模型并适应文档图像理解任务，我们使用BERT架构作为主干并添加了两个新的输入嵌入：2-D位置嵌入和图像嵌入。

2-D Position Embedding与在序列中对单词位置进行建模的位置嵌入不同，2-D Position Embedding旨在对文档中的相对空间位置进行建模。为了表示元素在扫描文档图像中的空间位置，我们将文档页面视为具有左上角原点的坐标系。在此坐标系下，bounding box精确的表示为 (x0, y0, x1, y1),(x0, y0)代表回归框的左上角，(x1, y1)代表回归框的右下角。我们添加具有两个嵌入表的四个位置嵌入层，其中代表相同尺寸的嵌入层共享相同的嵌入表。这意味着我们在嵌入表X中查找x0和x1的位置嵌入，并在表Y中查找y0和y1。
Image Embedding为了利用文档的图像特征并使图像特征与文本对齐，我们添加了图像嵌入层以用语言表示来表示图像特征。更详细地讲，使用OCR结果中每个单词的边界框，我们将图像分为几部分，并且它们与单词具有一对一的对应关系。我们使用Faster R-CNN模型中的这些图像作为令牌图像嵌入来生成图像区域特征。对于[CLS]令牌，我们还使用Faster R-CNN模型使用整个扫描的文档图像作为关注区域（ROI）来生成嵌入，以使需要[CLS]令牌表示形式的下游任务受益。

2.4 Pre-training LayoutLM

Task #1 : Masked Visual-Language Model 受masked语言模型的启发，我们提出Masked Visual-language Model（MVLM），以学习带有2-D position embeddings和text embeddings线索的语言表示。在预训练期间，我们随机掩盖一些输入标记，但保留相应的2-D position embeddings，然后训练模型以在给定上下文的情况下预测掩盖标记。这样，LayoutLM模型不仅可以理解语言上下文，而且可以利用相应的2-D位置信息，从而弥合了视觉和语言模态之间的鸿沟。
Task #2: Multi-label Document Classification 为了理解文档图像，许多任务要求模型生成高质量的文档级表示形式。由于IIT-CDIP测试模块针对每个文档图像都包含多个标签，因此在预训练阶段，我们还使用多标签文档分类（MDC）损失函数。给定一组扫描的文档，我们使用文档标签来监督预训练过程，以便该模型可以聚集来自不同领域的知识并生成更好的文档级表示形式。由于MDC损失函数需要每个文档图像的标签，而对于较大的数据集可能不存在该标签，因此在预训练期间它是可选的，将来可能不会用于预训练较大的模型。将在第3节中比较MVLM和MVLM + MDC的性能。

2.5 Fine-tuning LayoutLM

预训练的LayoutLM模型在三个文档图像理解任务上进行了微调，包括表单理解任务，收据理解任务以及文档图像分类任务。对于表单和收据的任务，LayoutLM会为每个token预测{B，I，E，S，O}标签，并使用顺序标签来检测数据集中的每种实体。对于文档图像分类任务，LayoutLM使用[CLS] token的表示形式预测类标签。

3. EXPERIMENTS

3.1 Pre-training Dataset

预训练模型的性能在很大程度上取决于数据集的规模和质量。因此，我们需要大规模的扫描文档图像数据集来预训练LayoutLM模型。我们的模型在IIT-CDIP Test Collection 1.0上进行了预训练，该模型包含600万以上的文档，以及1100万以上的扫描文档图像。此外，每个文档在XML文件中都有其对应的文本和元数据。文本是通过将OCR应用于文档图像而产生的内容。元数据描述了文档的属性，例如唯一标识和文档标签。尽管元数据包含错误且不一致的标签，但是在此大规模数据集中扫描的文档图像非常适合进行模型预训练。

3.2 Fine-tuning Dataset

FUNSD Dataset 我们对FUNSD数据集评估我们的方法，以学习复杂扫描文档中的表单。该数据集包括199个real，完全注释的扫描表单，其中包含9,707个句子和31,485个单词。这些表单被看作相互链接的句子的列表。每个句子包括唯一标识符，标签（即，问题，答案，标题或其他），边界框，与其他实体的链接的列表以及单词的列表。数据集分为149个训练样本和50个测试样本。我们采用词级F1-score作为评估指标。
The SROIE Dataset 我们也在收据信息提取数据集SROIE上评估了我们的模型。SROIE数据集包括626个训练数据和347个测试数据。每个收据单被看作带有bounding boxes的文本行列表，每个收据被标注为{公司，日期，地址，总数}，评估指标是F1-score。
The RVL-CDIP Dataset

3.3 Document Pre-processing

要利用每个文档的版面信息，我们需要获得每个token的位置信息。但是，预训练数据集（IIT-CDIP测试集合）仅包含纯文本，而缺少其相应的bounding boxes。在这种情况下，我们重新处理扫描的文档图像以获得必要的布局信息。像IIT-CDIP Test Collection中的原始预处理一样，我们通过将OCR应用于文档图像来类似地处理数据集。不同之处在于，我们同时获得了识别的单词及其在文档图像中的对应位置。借助开源OCR引擎Tesseract6，我们可以轻松地获得识别以及二维位置。我们以hOCR格式存储OCR结果，hOCR格式是一种标准规范格式，它使用层次结构表示法清楚地定义了一个文档图像的OCR结果。

3.4 Model Pre-training

我们使用预训练的BERT模型参数初始化LayoutLM模型参数。具体来说，我们的BASE model有同样的结构：a 12-layer Transfromer with 768 hidden sizes，12 attention heads，其中包含113M 参数。因此，我们使用BERT base model来初始化我们模型中的所有模块，除了2-D位置嵌入层。对于LARGE设置，我们的模型有一个24-layer 带有1024hidden sizes 和16 attention heads，也是由预训练的BERT LARGE model进行初始化，其中包含343M 的参数。我们选择15%的input tokens用作预测，我们在80％的时间内用 [MASK]tokens 替换这些令牌，在10％的时间内替换了随机tokens，并在10％的时间内替换了不变的tokens。然后，模型使用交叉熵损失预测相应的tokens。
此外，我们增加了带有四个嵌入元素(x0, y0, x1, y1)的2-D位置嵌入层，其中(x0, y0)代表bounding box的左上角，(x1, y1)代表bounding box的右下角。考虑到文档布局在不同页面大小下有所不同，因此将实际坐标scale到0～1000。此外，在Faster-RCNN模型中也使用ResNet101作为backbone网络，此模型在Visual Genome dataset的基础上预训练得到。

3.5 Task-specific Fine-tuning

我们在三个文档图像理解任务上评估LayoutLM模型：表单理解，收据理解和文档图像分类。我们遵循典型的微调策略，并以端到端的方式在特定于任务的数据集上更新所有参数。

Form Understanding此任务需要提取和构造表单的文本内容。它旨在从扫描的表单图像中提取键值对。更详细地，此任务包括两个子任务：语义标记和语义链接。语义标记是将单词聚合为语义实体并为其分配预定义标签的任务。语义链接是预测语句之间关系的任务。在这项任务中，我们关注语义标注任务，语义链接任务是超出范围的。在这个任务上进行LayoutLM finetune，将语义标注任务看作序列标注问题。我们将最终的表示传递到一个线性层，然后接到softmax层来预测每个token的label.
Receipt Understanding 该任务需要根据扫描的收据图像填充几个预定义的语义槽。例如，给定一组收据，我们需要填写特定的位置（例如公司，地址，日期和总计）。与需要标记所有匹配的实体和键值对的形式理解任务不同，语义槽的数量由预定义的键固定。因此，该模型仅需要使用序列标记方法来预测相应的值。
Document Image Classification 给出一个视觉丰富的文档，这个任务的目的是预测每个文档图像的相应种类。与现有的基于图像的方法不同，我们的模型不仅包括图像表示形式，而且还包括使用LayoutLM中的多模式体系结构的文本和布局信息。因此，我们的模型可以更有效地结合文本，布局和图像信息。为了在此任务上微调我们的模型，我们将LayoutLM模型的输出与整个图像嵌入连接在一起，然后是用于类别预测的softmax层。我们对模型进行了30个时期的微调，批量大小为40，学习率为2e-5。

你可能感兴趣的:(论文学习,深度学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
Manus AI与多语言手写识别
ManusAI与多语言手写识别背景与概述手写识别技术的发展现状与挑战ManusAI的核心技术与应用场景多语言手写识别的市场需求与难点ManusAI的技术架构深度学习在手写识别中的应用多语言支持的模型设计数据预处理与特征提取方法多语言手写识别的关键挑战不同语言字符的多样性处理上下文语义与书写风格适应性低资源语言的训练数据获取解决方案与优化策略迁移学习在多语言任务中的应用端到端模型的优化与轻量化用户反
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python 全代码）全流程解析（二）
基于LIDC-IDRI肺结节肺癌数据集的人工智能深度学习分类良性和恶性肺癌（Python全代码）全流程解析（二）1环境配置和数据集预处理1.1环境配置1.1数据集预处理2深度学习模型训练和评估2.1深度学习模型训练2.1深度学习模型评估笑话一则开心一下喽完整代码如下：模型文件如下深度学习模型讲解---待续第一部分内容的传送门第三部分传送门1环境配置和数据集预处理1.1环境配置环境配置建议使用ana
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
2025年人工智能、虚拟现实与交互设计国际学术会议学术小八学术人工智能 vr 交互
重要信息官网：www.aivrid.com时间：2025年10月17-19日地点：中国-东莞部分介绍征稿主题包括但不限于：生物特征模式识别机器视觉专家系统深度学习智能搜索自动编程智能控制智能机器人系统组件虚拟现实平台用于VR/AR的AI平台数据和生成、操作、分析和验证浸入式环境和虚拟世界的生成优化和现实的渲染人工智能与用户体验个性化推荐系统情感计算与用户响应虚拟现实与沉浸式技术沉浸式环境设计交互设
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
【第三章:神经网络原理详解与Pytorch入门】02.深度学习框架PyTorch入门-(4)Pytorch实战 IT古董人工智能课程深度学习神经网络 pytorch
第三章:神经网络原理详解与Pytorch入门第二部分：深度学习框架PyTorch入门第四节：Pytorch模型构建内容：如何搭建复杂网络以及如何修改模型与保存一、构建复杂神经网络结构在PyTorch中，构建复杂模型通常通过继承nn.Module类，分模块组织层与前向传播逻辑。示例：自定义一个卷积神经网络（CNN）importtorch.nnasnnimporttorch.nn.functional
探秘AI大模型：一键获取深度学习精华-PPT全面解读曹筱习Dwayne
探秘AI大模型：一键获取深度学习精华-PPT全面解读【下载地址】AI大模型PPT资源下载本仓库提供了一个名为“ai大模型ppt”的资源文件下载。该资源文件详细介绍了AI大模型的相关内容，包括但不限于AI大模型的定义、应用场景、技术架构、发展趋势等。通过这份PPT，您可以深入了解AI大模型的核心概念和实际应用，为您的学习和研究提供有力支持项目地址:https://gitcode.com/open-s
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen