怎么全是重名

Deep learning-based small object detection: A survey（2023）

文章目录

Abstract
Introduction
- Contribution
Generic SOD algorithms
- 提高输入特征的分辨率（Most Important）
- - Methods
- 尺度感知训练
- - Methods
- 融合上下文信息
- - Methods
- 数据增强
- - Methods
- 其他策略
- - Methods
关键的SOD任务
- 小人脸检测
- - Methods
- 小型行人检测
- - Methods
- 航拍图像中的SOD
- - Methods
Evaluation of SOD
- Dataset
- 评估指标
- Performance on generic SOD
- 小人脸检测性能
- Performance on small pedestrian detection
- Performance on aerial images
- Further discussion
Challenges and future directions
- Challenges of SOD
- Future directions
Conclusion

Abstract

小目标检测(SOD)在现实世界的许多应用中都很重要，包括刑事调查、自动驾驶和遥感图像。SOD由于其低分辨率和噪声表示一直是计算机视觉中最具挑战性的任务之一。随着深度学习的发展，人们引入深度学习来提高超SOD的性能。

本文针对SOD的难点，从提高输入特征分辨率、尺度感知训练、融合上下文信息和数据增强四个方面对基于深度学习的SOD研究论文进行了分析。我们还回顾了关于SOD关键任务的文献，包括小人脸检测、小行人检测和航空图像目标检测。此外，我们在四个众所周知的小对象数据集上对关键SOD任务的通用SOD算法和方法进行了全面的性能评估。我们的实验结果表明，通过网络配置来提高输入特征的分辨率可以显著提高wide FACE和Tiny Person的性能。最后，对SOD今后的研究方向进行了展望。

Introduction

小目标检测(SOD)[41]是目标检测领域的一个新兴研究领域。SOD已广泛应用于医学图像分析、海上救援、监控视频人脸识别、无人机场景分析等领域。近年来发表了许多有前途的基于深度学习的SOD工作。小目标可以用两种主要方式定义，一种定义方法是相对尺寸(relative size)[42]，即对象的边界框的宽度和高度与图像的宽度和高度之比小于0.1，或者对象的边界框的面积与图像的面积之比小于0.03（Tiny0.01）;另一种定义方法是绝对大小，其中COCO[43]数据集表明，如果对象的大小小于32 × 32像素（Tiny是16×16），则对象较小。示例如图1所示。这些定义意味着小物体的视觉特征是有限的。
SOD性能差的主要原因是小对象的分辨率较低，占用的像素比大对象少;在卷积网络中，由于下采样和池化操作导致空间位置信息丢失，使得检测头对小目标的定位更加困难。小对象数据集的大量稀缺性是SOD进步的另一个障碍。
现有的小对象数据集主要集中在特定场景;人脸见[47]，行人[48-51]，交通场景[52-56];在它们上面训练的网络不适合一般的SOD。为了克服这些挑战，研究人员开发了一系列策略来提高SOD的性能。我们从提高输入特征的分辨率、尺度感知训练、结合上下文信息和数据增强等方面对这些技术进行了总结。

与这些早期的目标检测调查相反，我们关注与SOD相关的困难，研究最近基于深度学习的SOD算法，从而提出一个分类法来说明为提高SOD性能而开发的新策略。除了对三个领域开发的基于深度学习的SOD算法进行深入描述外，我们的研究还对相关实验结果进行了有意义的比较。

Contribution

1)基于深度学习的SOD算法的系统概述。根据SOD面临的挑战，我们分析了基于深度学习的最先进的SOD算法，并从提高输入特征的分辨率、规模感知训练、结合上下文信息和数据增强的角度总结了提高SOD性能的策略。此外，我们提供了一个全面的审查方法的关键SOD任务，包括小人脸检测，小行人识别和航空图像检测。
2)基于SOTA深度学习的SOD算法性能评价。我们不仅在通用大规模数据集上分析了通用SOD方法的性能，而且还评估了最先进的SOD方法在三个关键SOD任务上的性能，包括小人脸检测、小行人检测和航空图像检测。
3)最后，根据SOD的分类方法和性能分析，讨论了未来的研究方向，包括SOD优化的合适指标、弱监督SOD方法、多任务联合优化和开放世界或few-shot SOD。

Generic SOD algorithms

在本节中，我们将广泛回顾通用SOD的方法。为了应对SOD的挑战，现有的SOD方法通常在现有的管道中添加复杂的设计，这些设计擅长于通用目标检测。我们将从四个方面描述这些方法，包括提高输入特征的分辨率、规模感知训练、结合上下文信息和数据增强。

提高输入特征的分辨率（Most Important）

小目标难以精确定位主要是由于CNN的降采样操作导致小目标特征消失，高阶特征图的低空间分辨率严重丢失了小目标的空间位置信息。一个相当合理的解决方案是使用高分辨率特征图或高分辨率图像。然而，采用高质量的图像或增加特征图分辨率将导致更高的计算成本。许多学者通过重用由网络前向传播产生的多尺度特征图来构建特征金字塔，然后使用具有更微小空间细节的低分辨率特征图来检测小目标。此外，一些模型学习了从低分辨率特征到高分辨率特征的映射函数，以达到与大物体相同的检测效果。这两种方法都大大提高了预测特征层的分辨率。图3显示了几个提高输入特征分辨率的典型模型。

SSD[36]是一种多尺度目标检测技术，通过在网络的不同层中放置不同尺度的参考窗口来检测目标。小目标的检测精度没有很大的提高，主要的解释是，低层次的特征图有一个有限的接受域，并且比深度的特征图表示特征的能力要差得多。因此，Lin等人提出了fpn[35]。FPNs的核心思想是利用网络的前向传播，创建4个不同尺度的特征图，通过逐层上采样将高阶特征图与低阶特征图合并，融合不同网络深度的特征，实现特征增强，然后利用每层只需要预测一个尺度的目标的融合特征图进行预测。实验结果表明，FPN显著提高了SOD的检测精度，可以保证6 FPS的检测速度。自FPN被提出以来，已经开发了许多增强的变体，包括PANet [70]， BiFPN [71]， ASFF [72]， NAS-FPN[73]等。尽管基于集成卷积网络的检测模型具有明显更快的检测速度，但基于目标提议的检测技术长期以来具有稍好的检测精度。在调查了这背后的原因后，Lin等人提出了RetinaNet[74]。一级网络最初优于两级网络，Lin等人认为，前景-背景类不平衡是集成卷积网络检测性能较差的主要原因。因此，提出了焦点损失来改善交叉熵损失Focal Loss
MDSSD[76]涉及对具有强大语义信息的高级特征图应用反卷积，然后使用融合模块将其与低级特征图融合，以保留丰富的空间细节和对小对象的高特征表示能力。

在主干的最后一层，小目标特征几乎消失了。自上而下的路径使得FPN几乎不可能融合小对象的特征。此外，随着网络的深入，深度特征图获得了更多的语义信息，但失去了空间信息。这导致锚点和卷积特征之间的偏移，这意味着，经过几次卷积后，锚点在深度特征图上的位置与原始地图上的位置不同。此外，FPN融合不能有效地对深特征和浅特征进行对齐。Gong等[77]提出了一种用于描述FPN中相邻层耦合度的融合因子，该融合因子可以使用数据集统计数据计算或通过内隐学习学习。通过调整FPN中相邻层的融合因子，可以自适应地驱动浅层集中学习微小目标，从而提高对微小目标的检测。高分辨率检测网络(HRDNet)[78]通过多深度骨干网接受多个分辨率输入。

为了减少计算成本，多深度图像金字塔网络(MD-IPN)使用多深度主干来输出多尺度、多层次的特征图，这意味着高分辨率的输入将被馈送到浅层网络中以保留更多的位置信息，而低分辨率的数据将被馈送到深层网络中以提取更多的语义。多尺度FPN对MD-IPN产生的多尺度特征组进行对齐和融合，以减少这些多尺度、多层次特征之间的信息不匹配。Liu等[79]提出了IPG-Net，以缓解连续降采样后小目标特征的消失以及空间信息和语义信息之间的错位;它包括IPG转换和IPG融合模块。

IPG-Net接收图像金字塔作为输入;IPG变换模块从不同分辨率的图像金字塔中提取浅层特征，包含丰富的空间信息和细节信息;IPG融合模块将IPG变换模块提取的浅层特征与主干的深层特征进行融合。RHF-Net[80]采用自顶向下和自底向上的特征融合。它包含了混合融合模块的递归执行，使RHF-Net能够将高级语义特征与低级特征(自顶向下方向)连接起来，并将低级特征映射的丰富空间特征重塑到更深层(自底向上方向)，从而改进所有尺度对象的上下文特征。

小物体在特征金字塔的高分辨率特征图上的空间分布非常稀疏，只占高分辨率特征图的一小部分。QueryDet[81]利用查询技术，防止检测头对整个高分辨率特征图进行资源密集型计算，从而加快了基于特征金字塔的目标检测器的推理速度。它包括一个与分类和回归并行的查询头，以预测前一层特征中可能的小对象的位置(查询键)。当前层使用这些位置生成稀疏值特征映射(查询值)。然后，它预测将这一层的查询键传递给下一层。

超分辨率是通过提高输入图像的分辨率来直接丰富小物体信息的另一种有效方法。EFPNs[82]在FPN中添加了一个超分辨率层，因为它使用特征纹理传输模块通过从参考特征中提取区域纹理特征来超分辨率特征。这为EFPN增加了令人信服的细节，并提高了SOD的准确性。为了消除大小物体之间的表征差异，并使小物体获得与大物体相同的检测精度，Li等人[83]使用GAN将小物体的特征表征增强为超分辨表征。但是，由于大目标图像和小目标图像不是来自同一图像，因此超分辨特征可能不具有说服力。

SOD-MTGAN[84]学习了低分辨率图像补丁与高分辨率图像补丁之间的映射，从而降低了计算成本。Noh等人[85]使用高分辨率特征进行直接监督。在超分辨率鉴别器的引导下，将低分辨率特征转移到超分辨率特征发生器中生成高分辨率特征。MARE[86]使用网络获取注意力权重，将其作为每一层特征图的权重，生成最终的注意力特征图;然后进行特征融合，进一步增强对小目标有用的信息。EESRGAN[87]在ESRGAN[89]中加入边缘增强子网(EENs)[88]。EENs对生成器生成的中间超分辨率(ISR)图像进行边缘增强，生成最终的超分辨率图像。鉴别器和检测器一起扮演鉴别器的角色，鉴别器通过使用相对论损失训练生成器[90]。下式(2)和式(3)给出了鉴别器的相对论损失和发生器的对抗损失[91]

其中ra表示真实图像(hr)相对于生成的中间图像(isr)更真实的概率，其中，Eisr是计算一个mini-batch中所有生成的中间图像的平均值的操作;Eihr是计算一个mini-batch中所有真实图像的平均值的操作。

此外，EESRGAN采用端到端训练将检测器损失反向传播到发生器。因此，发生器接收来自检测器和鉴别器的梯度，以提高超分辨率图像的质量。Cao等人提出了MHN[92]，将网络划分为三个不同的分支(branch- 1, branch-m, branch-s)，每个分支生成具有各种分辨率的等价高级语义特征图，使其能够更好地匹配各种尺度的对象。

Methods

尺度感知训练

COCO数据集中最大的对象比最小的对象大20倍，cnn的尺度不变性对如此大规模的方差不具有鲁棒性。尺度感知训练策略可以提高检测器对尺度方差的鲁棒性。规模感知训练模型的常见流程如图4所示

先前提出的方法使用图像金字塔[93,94]来提高各种尺度下目标检测的准确性，这些尺度对内存的要求更大。图像金字塔的尺度归一化(SNIP)[95]是一种使用图像金字塔训练模型的训练策略，只在预定范围内反向传播对象大小的损失。更进一步，SNIPER[96]从金字塔的每一层选择固定分辨率为512 × 512像素的芯片作为训练单元，这与SNIP不同，SNIP分析图像中的每个像素。由于更小的芯片分辨率，它可以训练更大的批量，提高了训练效率和检测精度。Kim等人提出了一种尺度感知网络(SAN)[97]，该网络将不同尺度的卷积特征映射到尺度不变的子空间上，使基于cnn的检测方法对尺度变化具有更强的鲁棒性，并构建了一种独特的学习方法，仅考虑通道之间的关系而不考虑空间信息，以实现SAN的高效学习。该方法本质上提高了尺度空间中卷积特征的质量，可以普遍应用于许多基于cnn的检测方法中，在计算时间略有增加的情况下提高检测精度。

Trident[98]是一个多分支平行网络，每个分支采用适当的扩张比例来提供与对象大小一致的感受野大小。此外，采用尺度敏感训练方法增强各分支的尺度感知能力，防止极端尺度的对象在接受域不匹配的分支上训练。各支路的有效范围l由式(4)给出:
Peng等人[99]表明，很难优化的局部和密集的连续尺度是不必要的，并且，通过在层上良好学习的全局尺度的协作，网络可以被授予尺度感知。因此，他们设计了一个全局尺度学习模块来代替普通的卷积模块，学习不同层的合适的全局尺度。

Methods

融合上下文信息

在特定的环境中，视觉目标经常与其他相关对象共存，这提供了丰富的上下文关联。研究人员[100]已经表明，利用上下文作为额外信息可以帮助检测具有模糊特征的小物体。图5显示了合并上下文信息的两个典型模型。

Chen等[42]利用ContextNet和小区域建议生成器对R-CNN模型进行了扩展，改进了SOD。关于区域建议网络(RPN)， Chen等人使用了较小的RPN锚大小(16 2、40 2、100 2 vs. 128 2、256 2、512 2)。ContextNet集成上下文信息来计算最终的分类分数。Bell等人[101]提出了ION，利用ROI内外的信息来提高检测性能。在内部部分，ION采用跳跃池的方法提取ROI在不同尺度下的多个层次的特征，增强对小目标的检测能力。在外部部分，ION利用空间递归神经网络提取ROI外部的上下文信息，增强特征信息，提升后续分类和回归性能。DSSD[102]将深层语义信息作为上下文与浅层语义信息融合。CSSD[103]是一个上下文感知框架，通过将反卷积或扩展卷积层集成到SSD中来整合上下文。

在目标检测中，有两种常见的上下文。图像级上下文是指对整个图像中每个像素的上下文信息进行建模，并将其隐式地纳入深度卷积网络中，而实例级上下文是对对象-对象关系进行建模，是对象检测和推理的重要线索。空间记忆网络**(SMN)[104]被提出用于获取实例级上下文。网络检测到一个对象，记住它，然后把它作为先验知识，在下一次迭代中帮助检测先前错过的目标**。Fu等[105]为SOD引入了一种独特的上下文推理方法，该方法对对象的固有语义与空间布局之间的关系进行建模和推断。语义模块从（属于同一类别的提案共享语义共现信息）的角度定义可学习的语义关联函数。公式如式(5)所示:

其中，σi,表示一个指示函数，并将初始区域特征映射到潜在表征。

空间布局模块不考虑语义相似度，在内部空间布局中建立基于空间相似度和空间距离的关系，使空间相似度高且出现在集群中的小对象能够相互传递空间布局的上下文信息。FA-SSD[106]是F-SSD和a - ssd的组合，F-SSD使用高级特征映射作为上下文，与低级特征映射连接。A-SSD使用注意机制来最小化后台不必要的浅层特征。SOD通常使用映像级上下文和实例级上下文。

Methods

数据增强

高质量的大规模数据集可以极大地提高深度学习SOD的性能。然而，由于标注成本高，标注数据的数量还远远不够。数据增强是丰富数据集多样性的常用方法，从而在一定程度上提高了模型的通用性和鲁棒性。这也可以帮助缓解由于数据集中不同尺度对象分布不均匀而导致的目标检测精度下降。

目前已经开发了很多数据增强技术，如仿射变换、Mosaic[107]、MixUp[108]和CutMix[109]，但这些方法在大中型对象上的性能要优于小型对象。Kisantal等人[110]深入研究了具有小对象的MS在数据集中只占很小的一部分;特别是每幅图像中的小物体数量较少，出现的地点缺乏多样性。Kisantal等人提出对带有小目标的图像进行过采样，以增加训练过程中小目标的数量。Chen等[111]发现随机复制粘贴会导致背景失配和对象尺寸失配。为了解决这个问题，他们采用了自适应数据增强，即使用语义分割网络获得先验路线图，并对路线图增强的对象进行有效位置采样。Ünel等人[112]提出了一种基于平铺的技术，将输入图像故意分割成重叠的平铺，以增加小物体的相对像素面积。

为了解决尺度方差问题，DST[113]接收小物体造成的损失比例作为反馈。如果损失比例小于预定阈值，则在接下来的迭代中对训练图像进行放大和拼接，以补偿缺失的小目标。Zoph等人[114]利用AutoAugment对训练集进行增强策略搜索，找到最优的目标检测数据增强方法。搜索策略中包含RNN控制器和强化学习方法。Chen等人[116]提出了尺度感知的自动数据增强，其中包括一个具有图像和框级增强的尺度感知搜索空间，以及一个称为帕累托尺度平衡的搜索度量。度量是通过记录各种尺度上的累积损耗和精度来实现的。

Methods

其他策略

Samet等人[117]提出了一种新的标记技术，该技术将来自单个特征的预测汇总为一个预测，以减少无锚点检测器的标记噪声。Duan等人提出CenterNet++[118]，使用中心关键点和一对角的三元组来表示对象。这些角可以定位任何几何形状的物体。Wang等人[119]评估了Intersection over Union (IoU)对定位小物体变化的敏感性，他们建议用一种新的测量技术取代IoU，该技术将每个方框建模为高斯分布，并使用正态Wasserstein距离(NWD)来确定两个分布之间的相似性。Xu等人[120]提出了接受野距离，直接量化高斯接受野与地面真值之间的相似性，而不是用IoU采样策略分配样本。Lee等人提出的交互式、多类、小对象注释框架C3Det[121]消除了对现实世界中注释需求和费用的担忧。SAHI[122]需要将输入图像划分为重叠的切片，以在输入网络的图像中产生更高百分比的小物体。

Methods

关键的SOD任务

在本节中，我们从小人脸检测、小行人检测和航空图像检测任务方面对SOD进行了系统的综述。我们首先详细描述每个任务的当前方法。然后，对每种方法的优缺点进行了综合总结。

小人脸检测

多尺度建模[123]是在对图像分辨率、物体尺度变化和上下文信息进行深入研究后提出的。该算法以SSD为基础，融合稀疏离散图像金字塔来处理目标的尺度移动。丰富的上下文信息是SOD的必要条件，但由于SOD缺乏语义信息，因此使用底层特征映射;然而，深度特征映射包含丰富的上下文和语义信息。因此，将多层特征融合融合到SOD中，提高了小人脸检测的性能。S^3FD[124]采用了一个尺度均衡的人脸检测网络，以适应不同尺度的人脸检测。此外，利用有效感受野和等比例间隔原则定义锚点的尺度，确保不同尺度的锚点在图像上均匀分布，并确保不同层的锚点与其对应的有效感受野相匹配。然后，采用尺度补偿锚点匹配方法，提高小人脸的召回率。最后，通过预测每个匹配的背景锚点的数量来降低小人脸的假阳性率。[125]使用生成对抗网络生成高分辨率人脸。Face-MagNet[126]采用ConvTranspose (kernel = 8, stride = 4)层，在RPN和分类器内部将小人脸的特征从底层特征层传递到预测层，放大特征映射，从而更好地检测小人脸。

Zhu等[127]指出基于锚点的人脸检测器不能很好地处理小人脸，因为锚点与小人脸不能完美重叠，因此难以调整锚点使其接近地面真实值。因此，Zhu等人提出了期望最大重叠(EMO)分数，提高了锚和面获得高IoU的能力。而且，通过增加小规模锚点的数量，它提高了匹配人脸的可能性。此外，为了获得具有锚点的这些人脸的高IoU，算法在训练过程中随机移动人脸位置。最后，提出了一种锚点匹配补偿策略，提高了硬面检测的准确率。TinaFace[128]涉及对RetinaNet的修改，达到了92.4%的平均精度(AP)。首先，引入DCN[129]作为学习复杂几何变换的主干;然后，利用盗梦空间改进多尺度表示。并且，由于DIoU更适合小物体，因此将边界盒回归的损失从平滑L1变为DIoU[130]。最后，为了解决定位精度与分类分数之间的不匹配问题，引入了IOU感知分支。像OHEM[131]这样的硬例挖掘技术可以识别硬正例和硬负例，并将更多精力集中在训练这些硬例上，以提高检测器的性能。Zhang等人[132]通过将OHEM与硬图像级挖掘相结合来训练人脸检测器，提高了OHEM的有效性;它会根据图像的难度自动改变训练权重。此外，他们还使用了一种检测器，该检测器只能生成带有小锚点的单个高分辨率特征图，以专门学习小面孔，并通过硬图像挖掘策略对其进行训练。小人脸检测方法的优缺点如表7所示。

Methods

小型行人检测

Song等人[133]提出了一种拓扑线定位(topological line localization, TLL)网络，即基于行人躯干的拓扑线检测网络，该网络旨在减少小规模行人边界模糊、外观模糊以及边界框标注方法给小物体带来过多噪声背景的影响。并且，将TLL和ConvLSTM结合到一个单一的时间感知架构中，聚合视频中连续帧的特征，从而提高了小行人检测的性能。此外，采用马尔科夫随机场作为后处理策略来处理人群遮挡。Das等人[134]构建了ISI行人数据集，该数据集包括13129个带注释的视频帧，其中有82.3万个标记的行人。此外，Das等人提供了一种三相检测算法。首先，使用区域分类器识别每帧中的预期区域，该分类器使用改进的Inception网络来降低误差。然后，通过单独使用可能的区域来定位行人的位置，可以显着提高每秒的帧数。最后，采用非最大抑制(NMS)去除同一行人的冗余边界框。

CNNs不仅可以学习低级特征，还具有很强的学习高级语义特征的能力。因此，CSP[135]通过卷积运算将行人检测简化为行人尺度预测和中心任务。检测头对特征提取器生成的特征图进行卷积运算，并将两个并行的1 × 1卷积相加，分别生成质心热图和比例尺尺寸预测图。中心点预测采用交叉熵损失，尺度预测采用L1损失。Yu等人[136]构建了TinyPerson数据集，该数据集主要关注海边、海边和周围的人海上快速救援。TinyPerson中的行人比其他数据集中的行人要小得多，大多数人的像素范围都在20像素以下，而且人的长宽比差异很大。为解决预训练数据集分布与指定任务数据集分布差异较大的问题，本算法提出尺度匹配，使预训练数据集E与任务特定数据集D之间的特征分布一致，如Eq(6)所示，其中定义P(s,d)为数据集D中大小为s的对象的概率密度函数，T为尺度变化函数。
FSAF[37]允许每个实例自由选择优化网络的最佳层，而不是使用传统的金字塔，在每一层放置几个固定大小的锚点。每个实例的最佳特征层是在整个训练阶段根据实例的内容动态选择的，而不仅仅是它的大小;选择函数如式(7)所示:

其中224为ImageNet预训练大小，o为初始特征层

Methods

航拍图像中的SOD

航空图像中的目标检测在许多现实应用中至关重要，包括城市规划、应急救援[137]、交通检测[138,139]等。由于航空图像通常是从高空向下拍摄的，因此物体的旋转变化很大，并且在任意方向上显示。此外，航空遥感图像中包含高密度场景和许多小物体，这使得SOD成为航空遥感图像的一个复杂问题。创新的检测算法已经出现以解决这些问题。

S²A - Net[140]包含一个特征对齐模块和一个定向检测模块，以保持分类分数和定位精度之间的一致性。SCRDet[141]设计了一种有监督的多维注意力来突出小目标区域，降低背景噪声的影响。定向RCNN[142]和MRDet[143]都提出了一个轻量级的区域提案网络来生成定向提案。[144]提出了一个包含四个部分的新模型。为了从输入的照片中提取特征映射，第一个组件作为主干。由于常规卷积无法适应无人机拍摄的图像的视点变化，因此主干集成了一个具有可变形卷积层的ResNet50网络。第二部分试图使用FPN来利用和改进从ResNet50获得的特征图。RPN是第三个组成部分，它可以用来提取图像中目标的潜在建议。最后一部分是特定目标的任务头。组件采用交错级联结构分配边界框和掩码预测。Yi等人[145]将中心关键点目标检测器扩展到定向目标检测。u型网络[146]是模型的基础。在上采样过程中，采用跳跃连接对特征映射进行组合。四张图组成了架构的输出:热图、偏移图、框参数图和方向图。使用热图和偏移图来推断中心点的位置。在检测到中心点后，回归盒边界感知向量(bbavtors)以捕获定向的边界框。

Han等人[147]认为cnn缺乏旋转不变性，即图像旋转后，其提取的特征也会发生变化。因此提出了ReCNN，使cnn具有旋转不变性。他们将旋转等变网络整合到主干中，以提取旋转等变特征，从而可以精确预测方向。然后，基于RROI Align[148]开发了旋转不变性RoI Align模块，对通道维度和空间维度进行对齐，获得旋转不变性特征。DarkNet-RI[149]以DarkNet53[7]为主干，包含一个旋转不变层，提取旋转不变的多尺度特征，并利用分类方案直接预测目标的位置。之后，利用盒细化模块进行额外的NMS，消除重叠冗余的边界盒。RepPoints[150]开发了自适应点集，可以捕捉混沌环境中方向突变的空中物体的几何结构。Li等人[151]提出了三个定向转换函数，用于将自适应点转换为各种定向对象的定向包围框。他们在后处理中应用MinAeraRect来提供通常旋转的矩形预测，并应用NearestGTCorner和MinAeraRect函数来增强训练过程中的自适应点学习。Xu等人[152]提出Dot Distance (DotD)，即两个边界框质心之间的归一化欧氏距离，以解决IoU在检测微小物体时对边界框之间的微小偏移敏感的问题。s2 ANET-SR[153]利用超分辨率增强遥感图像中小目标的特征提取，并结合感知损失和纹理匹配损失与检测损失联合训练s2 ANET-SR。[154]的作者开发了一种跨层注意模块，用于从小对象中提取非局部特征以增强其特征。[155]的作者使用高斯混合模型来生成焦点区域，并使用不完全盒抑制方法来缓解截断盒问题，从而提高了SOD的性能。

Methods

Evaluation of SOD

本节概述当前可用的SOD数据集。利用三个大规模数据集对SOTA SOD方法的性能进行了评价。我们选择了众所周知的图像数据集:MS COCO用于一般SOD评估，WiderFace用于小人脸的SOD任务，TinyPersons用于小行人的SOD任务，DOTA用于航空图像的SOD任务。

Dataset

高质量的数据集对于开发先进的目标检测算法非常重要。COCO在图像中包含更多的小对象和更复杂的背景。COCO还具有更均衡的对象分布。COCO数据集中只有一个类别的图像不到20%，平均每个图像有3.5个类别和7.7个实例对象。不幸的是，对小物体的检测仍然不足，这是由于小对象本身的特性以及为SOD设计的基准较少造成的。为了对数据集进行全面的回顾，我们调查了包含大量小对象的数据集，这些小对象跨越了各种SOD任务，如人脸检测、行人检测、交通标志/灯光检测和航空图像对象检测

评估指标

帧/秒指的是物体检测的速度，表示每秒可以处理的图像数量。数值越高意味着该方法更快，可以应用于实时SOD.
IoU测量预测边界框(bbox pred)和地面真实边界框(bbox GT)区域之间的相似性：
AP是对象检测任务的常用度量，在AP计算中使用以下定义：
1)正样本:包含检测对象的样本，且预测bbox置信度评分大于设定的阈值。
2)负样本:不包含检测对象的样本，且预测bbox置信度评分大于设定的阈值。
3)真阳性(TP):预测正确的阳性样本。
4)真阴性(TN):预测正确的阴性样本。
5)假阳性(FP):预测错误的阳性样本。
6)假阴性(FN):预测错误的阴性样本。

更为严格的COCO评价指标比PASCAL VOC评价指标应用更为广泛。它的IoU阈值通常在0.5到0.95之间，步长为0.05。对于较小的(面积的平方<32 2)，中(32 2 < area < 96 2)，大(area >96 2)

Performance on generic SOD

表14显示了应用于COCO数据集的通用SOD算法的性能评估结果;注意，AP与mAP具有相同的含义。AP50和AP75分别表示IoU设置为0.5或0.75时的AP, AP s、AP m和AP l分别表示小型、中型和大型物体的平均精度。如图所示，IENet[179]实现了最佳AP(51.2)。一般来说，大型物体的检测性能要比其他大小的物体高得多。HRDNet[78]对于小对象的值为32.1,MRCenterNet[118]对于小对象的值为27.8。这些结果表明，通过多尺度训练提高输入特征的分辨率可以在小目标上获得更好的性能。所有实验均在Linux操作系统上进行，操作系统为NVIDIA GeForce RTX 2080Ti, CUDA 11.7。

小人脸检测性能

在表15中，我们评估了WIDERFACE上的小人脸检测方法[47]。WIDERFACE根据EdgeBox的检测率定义了“简单”、“中等”和“困难”三个难度等级[180]。如图所示，TinaFace[128]实现了最佳AP;易、中、难测试集的AP值分别为96.3、95.7、92.1。IENet[180]取得了相对较好的结果，易、中、难测试集的AP值分别为96.1、94.7和89.6。Tinface和IENet都提高了预测特征图的分辨率，充分利用了融合的特征图。IENET还充分结合了上下文信息。结果表明，提高预测特征图的分辨率并结合上下文信息可能是增强人脸检测的关键。

Performance on small pedestrian detection

表16显示了TinyPerson[136]数据集上典型的小型行人SOD方法。MR[184]表示缺失率。大小划分用上标MR和AP表示，其中tiny表示大小范围(2,20)，small表示大小范围(20,32)。用于评估的IoU阈值由MR和AP的下标表示。在这些算法中，FCOS[39]在所有MR评估中获得了最好的结果。当IoU为0.5时，FPN对小型和微型物体产生了最好的AP，而Grid R-CNN[185]的IoU分别为0.25和0.75。

Performance on aerial images

在表17中，我们比较了最先进的航空图像目标检测算法在DOTA-v1.0上的性能[166]，该算法由15个类别组成:飞机(PL)、棒球场(BD)、桥梁(BR)、地面跑道(GTF)、小型车辆(SV)、大型车辆(LV)、网球场(TC)、篮球场(BC)、储罐(SC)、足球场(SBF)、环状交叉路口(RA)、港口(HA)、游泳池(SP)和直升机(HC)。redt和Oriented R-CNN的mAP值最好，为76.3。每个类别中最好的AP用粗体标出。

Further discussion

根据实验结果，我们进一步讨论了现有SOD方法的一些局限性：

SOD的框架一般采用Faster R-CNN、SSD、YOLO等流行模型进行修改;这些架构可能不适合小对象，从而导致性能差。
2)利用超分辨率增强小目标的分辨率可以提高SOD的精度，但检测速度会明显降低，无法满足实时监控等现实场景的需求。
3)Transformer在计算机视觉领域得到了广泛的应用，如DETR[190]在目标检测中的应用。然而，关于Transformer用于SOD的研究并不多。
4) cnn对尺度变化不敏感。有必要设计更适合规模感知的特征提取器。
5) MS COCO可能不是小对象的理想基准，因为小对象占数据集的比例相对较小。

Challenges and future directions

Challenges of SOD

除了目标检测中常见的挑战，如连续目标检测、不平衡问题等。SOD存在典型的挑战，包括带噪声的特征表示、小目标信息丢失、感受野的影响、位置变化敏感性以及小目标数据集的稀缺性。

1）带噪声的特征表示**。CNN实现后，小物体的特征往往受到背景噪声的污染**，使得网络难以捕捉到对定位和分类任务至关重要的判别信息。此外，小目标经常被遮挡和聚类，因此从噪声杂波中区分小目标并精确定位其边界特别困难。

2）小目标信息丢失。在深度神经网络中，由于每个小目标所占用的像素较少，在进行降采样操作后，小目标的特征几乎被消除了。小物体的弱信息消去对SOD是致命的，因为在高度结构化的表示存在下，检测头很难给出准确的预测。

3）感受野的作用。深度神经网络通常选择大的接受野来防止信息丢失。然而，预测低分辨率特征图的接受域可能与小对象的大小不匹配。如果接受野大于小对象，则会导致被检测对象成为背景，骨干网络无法提取特征，导致SOD性能较差。

4）位置变化敏感性。基于IoU的度量中边界框的小位置偏差对小目标的干扰比对大对象的干扰更大，这使得很难找到合适的IoU阈值并提供高质量的正、负样本来训练网络。

5）缺乏小对象数据集。目前还没有足够的大规模通用小目标数据集来匹配标注小目标的成本。MS COCO虽然有相当多的小物体(31.62%)，但每张图像的实例太多，导致小物体分布不均匀。

Future directions

根据SOD面临的挑战和性能结果分析，我们讨论了未来SOD研究的几个潜在方向:
1)弱监督、无监督和自监督SOD。现有的基于深度学习的SOD技术使用全监督模型。对于模型训练，需要大量带有边界框注释(完全监督信息)的图像。然而，注释工作既费力又耗时。弱监督对象检测可以使用图像级标签(如图像类别)作为监督信号来训练对象定位模型，而不需要像素级注释，这减少了与注释相关的工作量。无监督显著目标检测[191]和基于对比学习的自监督学习任务[192]是近2年来的研究热点。因此，继续研究基于弱监督学习的SOD算法的发展至关重要。
2) 适合SOD的指标。基于IoU的度量，包括原始IoU及其扩展(DIoU, GIou等)，对小物体的位置偏差非常敏感，在基于锚点的检测器中使用时，会显著降低检测性能。[119]的作者使用了一种新的基于Wasserstein距离的SOD指标，它比标准微调基线的AP值高6.7 AP，比最先进的SOTA模型的AP值高6.0 AP。因此，设计一个适合小物体的度量将是进一步研究的关键。
3)多任务联合优化。尽管诸如规模感知训练策略、结合上下文信息、数据增强和增加输入特征分辨率等技术有助于提高SOD性能，但它们仍然远远不够，这些方法的联合使用可能能够进一步提高SOD性能。
4)开放世界或少样本SOD。少弹目标检测[193]已经取得了突出的成果，而少弹场景下的SOD也是亟待解决的问题。开放世界SOD寻求克服SOD难题，同时在模型中实现增量学习，这类问题将是未来一个重要的研究课题。

Conclusion

本文对基于深度学习的SOD算法进行了深入的综述。我们专注于SOD优化方法，旨在解决SOD的挑战，包括规模感知训练，上下文信息整合，数据增强和提高输入特征的分辨率。我们总结了这些方法的优点和局限性。我们还回顾了关键SOD任务的方法，包括微小人脸检测，微小行人检测和航空图像目标检测。此外，还进行了详细的实验来评估通用SOD算法的性能，以及关键SOD任务的方法;我们发现，提高输入特征的分辨率是提高SOD性能的最有效方法。最后，我们提出了SOD的四个潜在发展方向。

你可能感兴趣的:(论文笔记,深度学习,目标检测,人工智能)

潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
【人工智能】微调的秘密武器：释放大模型的无限潜能蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在人工智能迅猛发展的今天，大规模语言模型（LLMs）以其强大的通用能力席卷各行各业。然而，如何让这些通用模型在特定领域或任务中发挥最大潜力？答案是微调（Fine-tuning）。本文深入探讨微调的理论基础、技术细节与实践方法，揭示其作为解锁大模型隐藏潜力
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
媒体AI关键技术研究阿维同学大模型应用开发人工智能研究报告媒体人工智能 ai AIGC
一、引言随着人工智能技术的迅猛发展，媒体行业正经历前所未有的变革。AI技术不仅重塑了内容生产和传播模式，更为媒体创意发展提供了全新可能。在数字化、移动化和信息爆炸的大背景下，传统媒体面临巨大挑战，而AI技术为行业带来了新的机遇。媒体行业正从搜索驱动向AI驱动的内容发现转变，通过新兴技术的融合创造全新的内容消费体验[[1]]。这种转变不仅提高了内容生产效率，也为受众提供了更加个性化的媒体体验。人工智
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置