hai0915

面向大尺度的小目标检测《Towards Large-Scale Small Object Detection: Survey and Benchmarks》阅读笔记

论文地址：https://arxiv.org/pdf/2207.14096.pdf

1 引言

目标检测是对图像/视频中感兴趣的对象进行分类和定位的重要任务。目标检测取得了显著成就。
小目标检测（SOD）作为通用目标检测的子领域，在监控、无人机场景分析、行人检测、自动驾驶交通标志检测等各种场景中具有重要的理论和现实意义。
虽然在通用目标检测方面取得了实质性的进展，但小目标检测的研究进展相对较缓慢。检测小型和正常大小的物体方面仍然存在巨大的性能差距。
性能下降原因：
- 从有限和扭曲的小对象信息中学习适当特征表示的固有困难；
- 用于小目标检测的大规模数据集的稀缺性。

1.0.1 特征表示问题

小目标特征的低质量特征表示原因：（1）本身大小。（2）一般的特征提取方法。
具体表现:

目前流行的特征提取器对特征图进行降采样，减少空间冗余，学习高维特征，但却消除了微小物体的表征。
卷积过程中小物体的特征容易受到背景等实例的污染，使得网络很难捕获后续任务的关键鉴别信息。

解决特征表示问题的6类方法：

数据操作方法（data-manipulation）
尺度感知方法（scale-aware methods）
特征融合方法（ feature-fusion methods）
超分辨率方法（super-resolution methods）
上下文建模方法（ context-modeling methods）

1.0.2 数据集稀缺性问题

为了缓解数据的稀缺性，人们提出了一些针对小目标检测的数据集，如SOD [28]和TinyPerson [7]。
然而，这些小规模的数据集不能满足需求，因为训练有监督的cnn算法需要大量有标签数据。
此外，一些公共数据集包含有一定数量的小物体，如WiderFace[8]、SeaPerson[29]和DOTA [30]等。但有如下不足：
- 为相对确定模式的单类别检测任务（人脸检测、行人检测）而设计的。
- 微小对象只分布在几个类别中（DOTA数据集中的小型车辆）。

总之：

现有小目标检测数据集不能支持专门的基于CNN的小目标检测模型的训练。
不能作为评判多类别SOD的基准。

而PASCAL VOC[31]、ImageNet[32]、COCO[6]、DOTA[30]等大规模数据集对学术界和企业界有重要意义，促进了相关领域目标检测的发展。提出大规模SOD的数据集的重要性的发问。
分别基于驾驶场景和飞行器场景，提出两个大规模的小目标检测数据集SODA-D、SODA-A：

SODA-D基于MVD的头部数据和我们的数据，MVD头部是街景的像素级理解，我们的数据基于板载摄像机和移动电话。24704个高质量和精挑的驾驶场景。用水平box标注了277596个实例，9个类别。
SODA-A飞行器场景的小目标检测基准，有800203个水平矩形框的实例，涵盖9个类别。从谷歌地图中提取2510个高像素图像。

1.1 和先前的survey比较

两个方面不同于先前的survey。

跨域多个领域的专注于小目标检测的理解和适当时间的回顾。
提出了两个针对小目标检测定制的大规模基准测试集，并对几种具有代表性的检测算法进行了深入的评价和分析。

1.2 Scope（本文内容评估）

传统目标检测方法使用手工特征和机器学习。
小目标检测中因为应对尺度变化的能力有限，效果差。
2012年后，深度学习的强大学习能力给目标检测带来了巨大的提升。深度网络在尺度变化方面的突出建模能力和强大的信息抽取能力，使小目标检测获得巨大改进。
综述重点是基于深度学习的SOD的主要发展。
这篇文章的主要贡献有以下3点：
- 回顾了深度学习小目标检测的发展，提供了一个该领域最新进展的系统性调查。分为6类方法：数据操纵、尺度感知、特征融合、超分辨率、上下文方法。并分析优利弊。回顾了多个领域的十几个数据集。
- 发布两个小目标检测的大规模基准数据集。
- 研究了几种代表性目标检测方法在SODA上的性能，根据定量和定性的结果进行深入的分析，有利于后续小目标检测的算法设计。

2 小目标检测的回顾

2.1 问题定义

小目标通过一个面积阈值和长度阈值定义。下面的内容的小目标定义遵循原paper里面的定义，可能在我们提出的基准中有矛盾。

2.2 主要挑战

通用目标检测的一些常见挑战：类内变化、不准确定位、遮挡目标检测。
SOD（小目标检测）任务中存在的典型问题：对象信息丢失、噪声特征表示和边框扰动的低容忍度。

Information loss(信息损失)

通用目标检测范式：一个主干网络加一些检测头。
通用特征提取器利用下采样滤除噪声激活，减少特征图的空间像素，不可避免损失目标信息，几乎不损害大中物体的检测性能。但对于小目标来说不友好，因为检测头很难在高度结构化的表示之上给出准确的预测，小物体的微弱信号几乎消失了。

Noisy feature representation（噪声特征表示）

可区分性强的特征对于定位和分类都很重要。

小目标物体通常有低像素、低质量外观的特点，因此从它们扭曲的结构中学习有辨别力的特征是非常困难的。
小目标的原始特征倾向于被背景和其他实例污染，在学习到的特征中进一步引入噪声。

Low tolerance for bounding box perturbation（边框扰动的低容忍度）

图1：不同大小的GT框与预测框移动相同的像素距离下，IOU的不同变化。小目标的IOU变化更大，大目标的IOU变化更小。
预测框的微小变化会度小目标的IOU产生非常大的影响。
这证明了小目标物体相比大物体对边框定位扰动具有更低的容忍度，恶化了回归分支。

2.3 小目标物体检测方法的回顾

介绍了两阶段检测和一阶段检测，以及anchor-free检测方法的主要特点和流程。
小目标检测方法在通用目标检测框架上被精心设计。

2.3.1 Data-manipulation methods（数据处理方法）

可以归为2类：基于过采样的数据增强、自动增强方案。

Oversampling-based augmentation strategy

随机复制粘贴：复制一个小目标的区域并随机粘贴到同一图像上的不同区域。
AdaResampling：基于复制粘贴，主要区别在于使用预先分割图来指导采样过程中粘贴有效位置的确定；对粘贴对象的比例变换进一步减少了比例差异。
Mosaic：连接4张图片产生新的图片样本。这个操作使得原本的目标变少了，提升了小目标物体的数量。

Automatic augmentation scheme

Zoph认为借助现有的分类任务的数据增强方法对于检测没有提升。他们对数据增强过程建模为一个离散的优化问题，寻找预置增强操作的最佳组合。使用强化学习去学习最优参数。但巨大的搜索空间会带来巨大计算成本。
Cubuk在只有单个失真量级的情况下，联合优化了所有的操作，同时保持概率参数均匀。

总结：

增加小目标实例数量可以解决数据稀缺的问题，这增加了正样本，让检测器更好地优化小物体。
不同体量的数据集之间的性能提升不一致，且可转移性也较差。
总之通过基于数据操作的方法所获得的性能增益是依赖于数据集的。

2.3.2 Scale-aware methods（尺度感知方法）

解决问题：交通场景图像和遥感图像的尺度变化很严重，导致了检测困难。
先前的检测方法使用带有滑动窗口的图像金字塔来解决问题。然而，这种限制表示容量的手工特征方法，在小目标上效果很差。
现在的深度模型常用多尺度特征来解决问题。有两种发展趋势：

（1）采用多尺度特征，以 分治法 的方式检测不同大小的对象。
（2）设计 定制方案 ，有效地训练多尺度物体。

Multi-scale detection in a divide-and-conquer fashion（以分治法处理多尺度检测）

思想：不同深度或层次的特征只负责检测相应尺度的物体。

HyperNet 假设一个感兴趣区域（RoI）的信息可以分布在主干网络的所有层上，需要进行良好的组织。在此假设的基础上，他们连接并压缩从粗到细的特征，以获得保留小对象推理的超特征。
Yang利用尺度依赖池化去选择一个适宜的特征层，以便后续进行小目标的池化操作。
MS-CNN [68]在不同的中间层生成目标候选，每个中间层都专注于一定尺度范围内的对象，为小目标提供了最佳的感受野。
Liu等人，[49]设计了单阶段多盒检测器（SSD），用于检测高分辨率特征图上的小物体。
根据这个路线图，DSFD [69]采用了由特征增强模块连接的两阶段检测器来检测不同尺度的人脸。
YOLOv3 [45]通过添加并行分支来进行多尺度预测，其中高分辨率特征负责小对象。
M2Det [70]构造了多级特征金字塔来检测对象。
Li等人[71]建立了并行子网，其中专门学习小尺寸子网来检测小行人。
SSH [72]结合了尺度变化的人脸检测器，每个探测器都经过一定尺度范围的训练，形成了一个强大的多尺度检测器来处理尺度变化极大的人脸。
Trident-Net[73]构建了一个并行的多分支体系结构，其中每个分支都为拥有不同尺度的对象处理最佳的感受野。
受PANet [74]中区域级特征聚合的巨大成功启发，Zhang等[75]将多个深度的集合特征与全局特征连接起来，以获得对小交通对象更鲁棒和更有区别的表示。
QueryDet [76]设计了级联查询策略，避免了对低级特征的冗余计算，使有效地检测高分辨率特征映射上的小对象成为可能。

Tailored training schemes（定制的训练方法）

基于通用的多尺度训练方案，Singh[78]等人[78]设计了一种新的训练范式——图像金字塔尺度归一化（SNIP）。它只考虑分辨率属于训练所需尺度范围的实例，其余部分简单忽略。小实例可以在最合理的尺度上处理小实例，而不影响对中到大对象的检测性能。
Sniper [79]建议从一个多尺度的图像金字塔中取样chip，以进行有效的训练。
Najibi等人[80]提出了一种检测小物体的从粗到细的管道。
考虑到[2]、[63]、[73]等方法没有探索数据准备与模型优化之间的协作，Chen等[81]设计了反馈驱动的训练范式，动态指导数据准备，进一步平衡小对象的训练损失。
Yu等人[7]引入了一种基于统计的尺度一致性匹配策略。

然而，基于分治的方法将不同大小的对象映射到相应的尺度级别可能会混淆检测器，因为单层的信息不足以做出准确的预测。
另一方面，针对增强多尺度训练的定制机制通常会引入额外的计算量，阻碍了端到端优化。

2.3.3 Feature-fusion methods（特征融合方法）

基本概念：深度CNN架构在不同的空间分辨率下生成层次特征图，低级特征描述精细细节和定位线索，高级特征有丰富的语义信息。
问题：子采样操作可能会导致小目标细节在深层响应中消失。
解决办法和难点：可行方法是利用浅层特征去检测小目标。浅层特征图有利于定位，但在早期阶段易受光照、变形和物体姿态等变化的影响，使分类任务困难。为了克服这一困境，许多方法利用特征融合，整合不同层或分支的特征，以获得对小对象更好的特征表示。

Top-down information interaction（自顶而下的信息交互）

受手工工程特征[63]时代使用的金字塔结构的激励，开创性的作品[2]，[84]构建自上而下的路径来加强浅层和深层之间的交互, 使高分辨率表示同时具有丰富的语义和小物体的精细定位。[84]等人引入了Top-Down调制（TDM）网络，其中自顶向下模块学习什么样的语义或上下文应该保留，横向模块转换低级特性以进行后续融合。Lin等人[2]提出了特征金字塔网络（FPN），其中具有高分辨率但低级语义的早期特征与具有低分辨率但高级语义的后期特征聚合。
这种简单而有效的设计已经成为特征提取器的一个重要组成部分。为了缓解单向金字塔结构中遇到的定位信号的不足，PANet [74]通过双向路径丰富了特征层次，通过精确的定位信号增强了更深层次的特征。Zand等人[85]在DarkNet-53[44]和跳过连接[10]的基础上构建了DarkNet-RI，生成不同尺度的高级语义特征图。

Refined feature fusion（精细特征融合）

尽管基本交互设计成功且受欢迎，但由于其固有的尺度级不一致，基本的尺度级不一致，基本的上采样和融合不能处理[74]。观察到这一点，以下方法旨在以适当的方式细化主干不同阶段的特征，或者通过动态控制不同层[87]、[88]之间的信息流来优化融合过程。
Woo等人[86]提出StairNet，利用反卷积扩大特征图，这种基于学习的上采样函数可以实现比基于 na¨ıve核的上采样更精细的特征，并允许不同金字塔层次的信息更有效地传播[89]。
Liu等人[90]引入了IPG-Net，将图像金字塔[63]获得的一组不同分辨率的图像输入到设计的IPG转换模块中，提取浅层特征，以补充空间信息和细节。
Gong等人设计了一个基于统计的融合因子来控制相邻层的信息流。
SSPNet [88]注意到基于FPN的方法中遇到的梯度不一致导致低级特征[91]的表示能力下降了，它突出了不同层的特定尺度特征，并利用FPN中相邻层的关系来实现适当的特征共享。
特征融合方法可以弥合低金字塔层次和高金字塔层次之间的空间和语义差距。然而，在当前的检测范式中，由于基于大小的金字塔分配策略，小物体通常被分配到最低的金字塔特征（最高的空间分辨率），这在实践中造成了计算负担和冗余表示。此外，网络内的信息流并不总是有利于小对象的表示。
我们的目标不仅是赋予低级别的特征更多的语义，而且还要防止小物体的原始响应被更深层次的信号所淹没。不幸的是，鱼与熊掌不可兼得（you can’t have a cake and eat it.），因此这个困境需要仔细解决。

2.3.4 Super-resolution methods（超分辨率方法）

一个直观的方法是通过双线性插值[92]和超分辨率网络[93]来提高输入图像的分辨率。然而，基于插值的方法，作为一个局部操作，通常不能捕捉全局理解，并遭受镶嵌效应[94]。对于那些尺寸极其有限的物体来说，这种情况可能会变得更糟。此外，我们希望尺度提升的操作可以恢复小物体的扭曲结构，而不是简单地放大它们的模糊外观。为此，一些试探性的方法通过借鉴超分辨率领域的现成技术来超分辨输入图像或特征。这些方法大多采用生成式对抗网络GANs来计算高质量的有利于小目标检测的表示，而其他方法则选择参数化的上采样操作来扩大特征。

Learning-based upscaling（基于学习的尺度提升）

在特征提取阶段[96]，盲目地增加输入图像的尺度会导致性能饱和[78]和不可忽略的计算成本。为了克服这个困难，遵循这条线的方法更倾向于超分辨特征映射。它们通常利用基于学习的上采样操作来提高特征映射的分辨率和丰富结构。
在SSD [49]之上，DSSD [89]采用反卷积操作来获得专门用于小目标检测的高分辨率特征。Zhou等人[82]和Deng等人[96]探索亚像素卷积[97]进行有效上采样。

GAN-based super-resolution frameworks（基于GAN超分辨框架）

古德费勒等人[95]提出GAN通过跟踪生成器和鉴别器之间的双人极大极小博弈来生成视觉上真实的数据。不出所料，这种能力启发研究人员探索这种强大的生成高质量小物体表示的强大范式。然而，直接超分辨整个图像的特征提取器的负担。
为了减轻这种开销，MTGAN [98]通过生成器网络超分辨了roi的patch。
Bai等人[99]将该范式扩展到人脸检测任务，Na等人[100]将超分辨率方法应用于小的候选区域，以获得更好的性能。
虽然超分辨目标斑块可以部分重建小物体的模糊外观，但该方案忽略了在网络预测[101]、[102]中起重要作用的上下文线索。
为了解决这个问题，Li等人[103]设计了感知器来挖掘和利用小尺度和大型物体之间的内在相关性，其中生成器学习将小物体的弱表示映射到超分辨物体，以欺骗鉴别器。为了更进一步，Noh等人[101]对超分辨率程序引入了直接监督。

由于尺寸有限，小对象的信号在特征提取后不可避免地丢失，导致后续的RoI池化操作几乎无法计算结构表示。通过挖掘小尺度对象和大尺度对象之间的内在关联，7个超分辨率框架允许部分恢复小对象的详细表示。然而，无论是基于学习的尺度提升方法还是基于GAN的方法，都必须在繁重的计算和整体性能之间保持平衡。此外，基于gan的方法倾向于制造伪纹理和伪影，对检测产生负面影响。更糟糕的是，超分辨率体系结构的存在使端到端优化变得复杂。

2.3.5 Context-modeling methods（上下文建模方法）

我们人类可以有效地利用环境与对象之间的关系或对象之间的关系来促进对象和场景的识别[104]，[105]。这种捕获语义或空间关联的先验知识被称为上下文，它传递了物体区域之外的证据或线索。上下文信息不仅在人类[102]、[104]的视觉系统中非常重要，而且在对象识别[106]、语义分割[107]和实例分割[108]等场景理解任务中也非常重要。有趣的是，信息上下文有时可以比对象本身提供更多的决策支持，特别是当涉及到识别[104]观看质量较差的对象时。为此，有几种方法利用上下文线索来提高对小物体的检测。
Chen等人[28]使用了上下文区域的表示，其中包含候选patch进行后续识别。
Hu等人[92]研究了如何有效地编码对象范围之外的区域，并以尺度不变的方式对局部上下文信息进行建模，以检测微小的人脸。
PyramidBox[105]充分利用上下文线索来寻找与背景难以区分的小而模糊的人脸。
图像中物体的内在相关性也可以看作是上下文。
FS-SSD [109]利用隐式的空间上下文信息，即类内和类间实例之间的距离，以低置信度重新检测对象。
假设原始的RoI池化操作将破坏小对象的结构，SINet [110]引入了一个上下文感知的RoI池化层来维护上下文信息。
IONet [111]通过两个四向IRNN结构[112]计算全局上下文特征，以便更好地检测小的和严重遮挡的物体。
从信息论的角度来看，考虑的特征类型越多，越可能获得的检测精度越高。受共识的启发，上下文启动已被广泛研究，以产生更具辨别性的特征，特别是对于线索不足的小物体，从而能够精确识别。
不幸的是，无论是整体上下文建模还是局部上下文启动，都混淆了哪些区域应该被编码为上下文。换句话说，当前的上下文建模机制以启发式和经验的方式确定上下文区域，这不能保证所构建的表示在检测中是足够可解释的。

2.3.6 其他方法

属于上述五类的方法可以涵盖促进小对象检测的大多数尝试，我们也补充了一些其他的解决方案，希望这些策略能够激励读者从其他有趣的角度来考虑这个具有挑战性的任务。

Attention-based methods（基于注意力机制的方法）

我们人类可以快速关注和区分对象而忽略这些不必要的部分通过在整个场景中的一系列粗略查看[118]，[119]，这惊人的能力在我们的感知系统通常被称为视觉注意机制，在我们的视觉系统扮演着至关重要的作用[120]，[121]。毫不奇怪，这种强大的机制在之前的文献[122]、[123]、[124]、[125]、[126]中得到了广泛的研究，并在[5]、[9]、[127]、[128]等许多视觉领域中显示出了巨大的潜力。通过将特征映射的不同部分分配不同的权重，注意力建模确实强调了有价值的区域，同时抑制了那些可有可无的区域。自然地，我们可以使用这种优越的方案来突出显示在图像中倾向于由背景和噪声模式所主导的小物体。
Pang等人[129]采用全局注意块来抑制假警报，并有效地检测大规模遥感图像中的小物体。
SCRDet [130]设计了一种面向目标的检测器，以监督的方式训练像素注意和通道注意，以突出小的物体区域，同时消除噪声的干扰。
FBR-Net [131]扩展了 anchor-free检测器的FCOS [4]，平衡了不同金字塔层次的特征，增强了在复杂情况下对小物体的学习能力。

Localization-driven optimization（定位驱动的优化）

定位作为检测的主要任务之一，在大多数检测范式[1]、[3]、[4]、[44]、[45]、[46]、[47]中被表述为一个回归问题。然而，当前主流方向的检测器采用的回归目标与评价指标IoU不能达到很好的结合效果。这种优化的不一致性将影响探测器的性能，特别是在微小物体上。
考虑到这一点，有几种方法旨在为定位分支配备IOU感知（IOU-awareness）或寻求适当的度量标准。
TinaFace [132]在RetinaNet[3]中增加了一个DIoU [133]分支，并最终获得了一个简单但强大的微小人脸检测基线。
Xu等人[134]观察到IoU会随微小物体的预测框的轻微偏差而急剧变化，因此提出了一种新的度量方法（Dot Distance）来缓解这种情况。
类似地，NWD [135]引入了==归一化瓦瑟斯坦距离（Normalized Wasserstein Distance）==来优化微小物体探测器的定位度量。

Density analysis guided detection（密度分析导引的检测）

高分辨率图像中的小对象往往分布不均匀、稀疏的[136]，一般的划分再检测方案在这些空块上的计算过多，导致推理效率低下。我们能过滤掉那些没有目标的区域，从而减少无用的操作来提高检测能力吗？答案是肯定的！在这一领域的努力打破了处理高分辨率图像的通用管道链，他们首先抽象出包含目标的区域，然后对其进行检测。
Yang等人[136]提出了一种聚类检测网络（ClusDet），它充分利用对象之间的语义和空间信息来生成聚类簇然后进行检测。
根据这一模式，Duan等人[57]和Li等人[137]都利用像素级监督来进行密度估计，实现了更精确的密度图，从而很好地描述了物体的分布。

Other issues（其他问题）

一些试探性的策略采用了其他领域有趣的技术来更好地检测小物体。
Song等人[138]认为传统的标记方式会引入偏差和歧义，因此提出了一种新的行人拓扑标记，允许使用所提出的躯体拓扑线定位（TLL）在小规模实例上进行更精确的定位。
与超分辨率方法类似，Wu等人[139]使用了所提出的Mimic Loss来弥合小行人的区域表示和大规模行人的区域表示之间的差距。
Kim等人[140]受到人类视觉理解机制的记忆过程的启发，设计了一种基于记忆学习的小规模行人检测的新框架。

参考文献

[1] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards realtime object detection with region proposal networks,” TPAMI,
vol. 39, no. 6, pp. 1137–1149, 2017.
18
[2] T. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan, and S. Belongie,
“Feature pyramid networks for object detection,” in CVPR, 2017,
pp. 2117–2125.
[3] T. Lin, P. Goyal, R. Girshick, K. He, and P. Doll´ar, “Focal loss for
dense object detection,” TPAMI, vol. 42, no. 2, pp. 318–327, 2020.
[4] Z. Tian, C. Shen, H. Chen, and T. He, “Fcos: A simple and strong
anchor-free object detector,” TPAMI, vol. 44, no. 4, pp. 1922–1933,
2022.
[5] N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and
S. Zagoruyko, “End-to-end object detection with transformers,”
in ECCV, 2020, pp. 213–229.
[6] T. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan,
P. Doll´ar, and C. L. Zitnick, “Microsoft coco: Common objects in
context,” in ECCV, 2014, pp. 740–755.
[7] X. Yu, Y. Gong, N. Jiang, Q. Ye, and Z. Han, “Scale match for tiny
person detection,” in WACV, 2020, pp. 1257–1265.
[8] S. Yang, P. Luo, C. C. Loy, and X. Tang, “Wider face: A face
detection benchmark,” in CVPR, 2016, pp. 5525–5533.
[9] X. Dai, Y. Chen, B. Xiao, D. Chen, M. Liu, L. Yuan, and L. Zhang,
“Dynamic head: Unifying object detection heads with attentions,” in CVPR, 2021, pp. 7373–7382.
[10] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for
image recognition,” in CVPR, 2016, pp. 770–778.
[11] S. Xie, R. Girshick, P. Doll´ar, Z. Tu, and K. He, “Aggregated
residual transformations for deep neural networks,” in CVPR,
2017, pp. 1492–1500.
[12] S.-H. Gao, M.-M. Cheng, K. Zhao, X.-Y. Zhang, M.-H. Yang,
and P. Torr, “Res2net: A new multi-scale backbone architecture,”
TPAMI, vol. 43, no. 2, pp. 652–662, 2021.
[13] L. Liu, W. Ouyang, X. Wang, P. Fieguth, J. Chen, X. Liu, and
M. Pietik¨ainen, “Deep learning for generic object detection: A
survey,” IJCV, vol. 128, no. 2, pp. 261–318, 2020.
[14] Z.-Q. Zhao, P. Zheng, S.-t. Xu, and X. Wu, “Object detection with
deep learning: A review,” TNNLS, vol. 30, no. 11, pp. 3212–3232,
2019.
[15] D. Geronimo, A. M. Lopez, A. D. Sappa, and T. Graf, “Survey
of pedestrian detection for advanced driver assistance systems,”
TPAMI, vol. 32, no. 7, pp. 1239–1258, 2009.
[16] P. Dollar, C. Wojek, B. Schiele, and P. Perona, “Pedestrian detection: An evaluation of the state of the art,” TPAMI, vol. 34, no. 4,
pp. 743–761, 2011.
[17] J. Cao, Y. Pang, J. Xie, F. S. Khan, and L. Shao, “From handcrafted
to deep features for pedestrian detection: A survey,” TPAMI, pp.
1–1, 2021.
[18] Q. Ye and D. Doermann, “Text detection and recognition in
imagery: A survey,” TPAMI, vol. 37, no. 7, pp. 1480–1500, 2014.
[19] G. Cheng and J. Han, “A survey on object detection in optical
remote sensing images,” ISPRS J. Photogramm. Remote Sens., vol.
117, pp. 11–28, 2016.
[20] K. Li, G. Wan, G. Cheng, L. Meng, and J. Han, “Object detection in
optical remote sensing images: A survey and a new benchmark,”
ISPRS J. Photogramm. Remote Sens., vol. 159, pp. 296–307, 2020.
[21] M. B. Jensen, M. P. Philipsen, A. Møgelmose, T. B. Moeslund, and
M. M. Trivedi, “Vision for looking at traffic lights: Issues, survey,
and perspectives,” IEEE Trans. Intell. Transp. Syst., vol. 17, no. 7,
pp. 1800–1815, 2016.
[22] A. Boukerche and Z. Hou, “Object detection using deep learning
methods in traffic scenarios,” ACM Comput Surv, vol. 54, no. 2,
pp. 1–35, 2021.
[23] K. Oksuz, B. C. Cam, S. Kalkan, and E. Akbas, “Imbalance
problems in object detection: A review,” TPAMI, vol. 43, no. 10,
pp. 3388–3415, 2020.
[24] D. Zhang, J. Han, G. Cheng, and M.-H. Yang, “Weakly supervised
object localization and detection: A survey,” TPAMI, pp. 1–1,
2021.
[25] K. Tong, Y. Wu, and F. Zhou, “Recent advances in small object
detection based on deep learning: A review,” Image Vis Comput,
vol. 97, p. 103910, 2020.
[26] Y. Liu, P. Sun, N. Wergeles, and Y. Shang, “A survey and performance evaluation of deep learning methods for small object
detection,” Expert Syst. Appl., vol. 172, p. 114602, 2021.
[27] G. Chen, H. Wang, K. Chen, Z. Li, Z. Song, Y. Liu, W. Chen,
and A. Knoll, “A survey of the four pillars for small object detection: Multiscale representation, contextual information, superresolution, and region proposal,” IEEE Trans. Syst., Man, Cybern.
Syst., vol. 52, no. 2, pp. 936–953, 2022.
[28] C. Chen, M.-Y. Liu, O. Tuzel, and J. Xiao, “R-cnn for small object
detection,” in ACCV, 2016, pp. 214–230.
[29] X. Yu, P. Chen, D. Wu, N. Hassan, G. Li, J. Yan, H. Shi, Q. Ye, and
Z. Han, “Object localization under single coarse point supervision,” in CVPR, 2022, pp. 4868–4877.
[30] J. Ding, N. Xue, G.-S. Xia, X. Bai, W. Yang, M. Yang, S. Belongie,
J. Luo, M. Datcu, M. Pelillo, and L. Zhang, “Object detection in
aerial images: A large-scale benchmark and challenges,” TPAMI,
pp. 1–1, 2021.
[31] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and
A. Zisserman, “The pascal visual object classes (voc) challenge,”
IJCV, vol. 88, no. 2, pp. 303–338, 2010.
[32] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei,
“Imagenet: A large-scale hierarchical image database,” in CVPR,
2009, pp. 248–255.
[33] G. Neuhold, T. Ollmann, S. R. Bul`o, and P. Kontschieder, “The
mapillary vistas dataset for semantic understanding of street
scenes,” in ICCV, 2017, pp. 5000–5009.
[34] D. G. Lowe, “Distinctive image features from scale-invariant
keypoints,” IJCV, vol. 60, no. 2, pp. 91–110, 2004.
[35] N. Dalal and B. Triggs, “Histograms of oriented gradients for
human detection,” in CVPR, 2005, pp. 886–893.
[36] H. Bay, A. Ess, T. Tuytelaars, and L. Van Gool, “Speeded-up
robust features (surf),” Comput Vis Image Underst, vol. 110, no. 3,
pp. 346–359, 2008.
[37] C. Cortes and V. Vapnik, “Support-vector networks,” Mach Learn,
vol. 20, no. 3, pp. 273–297, 1995.
[38] T. K. Ho, “Random decision forests,” in ICDAR, 1995, pp. 278–
282.
[39] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classi-
fication with deep convolutional neural networks,” in NeurIPS,
2012, pp. 1097–1105.
[40] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Region-based
convolutional networks for accurate object detection and segmentation,” TPAMI, vol. 38, no. 1, pp. 142–158, 2015.
[41] H. Noh, S. Hong, and B. Han, “Learning deconvolution network
for semantic segmentation,” in ICCV, 2015, pp. 1520–1528.
[42] L. Chen, H. Zheng, Z. Yan, and Y. Li, “Discriminative region
mining for object detection,” TMM, vol. 23, pp. 4297–4310, 2021.
[43] Z. Qin, Z. Li, Z. Zhang, Y. Bao, G. Yu, Y. Peng, and J. Sun,
“Thundernet: Towards real-time generic object detection on mobile devices,” in ICCV, 2019, pp. 6717–6726.
[44] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only
look once: Unified, real-time object detection,” in CVPR, 2016,
pp. 779–788.
[45] J. Redmon and A. Farhadi, “Yolov3: An incremental improvement,” arXiv preprint arXiv:1804.02767, 2018.
[46] R. Girshick, “Fast r-cnn,” in ICCV, 2015, pp. 1440–1448.
[47] X. Zhou, D. Wang, and P. Kr¨ahenb¨uhl, “Objects as points,” arXiv
preprint arXiv:1904.07850, 2019.
[48] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling
in deep convolutional networks for visual recognition,” TPAMI,
vol. 37, no. 9, pp. 1904–1916, 2015.
[49] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and
A. C. Berg, “Ssd: Single shot multibox detector,” in ECCV, 2016,
pp. 21–37.
[50] K. Duan, S. Bai, L. Xie, H. Qi, Q. Huang, and Q. Tian, “Centernet:
Keypoint triplets for object detection,” in ICCV, 2019, pp. 6569–
6578.
[51] H. Law and J. Deng, “Cornernet: Detecting objects as paired
keypoints,” in ECCV, 2018, pp. 734–750.
[52] X. Zhu, W. Su, L. Lu, B. Li, X. Wang, and J. Dai, “Deformable
detr: Deformable transformers for end-to-end object detection,”
in ICLR, 2020.
[53] M. Kisantal, Z. Wojna, J. Murawski, J. Naruniec, and K. Cho,
“Augmentation for small object detection,” arXiv preprint
arXiv:1902.07296, 2019.
[54] C. Chen, Y. Zhang, Q. Lv, S. Wei, X. Wang, X. Sun, and J. Dong,
“Rrnet: A hybrid detector for object detection in drone-captured
images,” in ICCVW, 2019, pp. 100–108.
[55] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “Yolov4: Optimal speed and accuracy of object detection,” arXiv preprint
arXiv:2004.10934, 2020.
[56] Z. Wei, C. Duan, X. Song, Y. Tian, and H. Wang, “Amrnet: Chips
augmentation in aerial images object detection,” arXiv preprint
arXiv:2009.07168, 2020.
[57] C. Duan, Z. Wei, C. Zhang, S. Qu, and H. Wang, “Coarse-grained
density map guided object detection in aerial images,” in ICCVW,
2021, pp. 2789–2798.
[58] B. Zoph, E. D. Cubuk, G. Ghiasi, T.-Y. Lin, J. Shlens, and Q. V. Le,
“Learning data augmentation strategies for object detection,” in
ECCV, 2020, pp. 566–583.
[59] B. Zoph and Q. V. Le, “Neural architecture search with reinforcement learning,” arXiv preprint arXiv:1611.01578, 2016.
[60] E. D. Cubuk, B. Zoph, J. Shlens, and Q. V. Le, “Randaugment:
Practical automated data augmentation with a reduced search
space,” in CVPRW, 2020, pp. 3008–3017.
[61] P. Doll´ar, R. Appel, S. Belongie, and P. Perona, “Fast feature
pyramids for object detection,” TPAMI, vol. 36, no. 8, pp. 1532–
1545, 2014.
[62] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object detection with discriminatively trained partbased models,” TPAMI, vol. 32, no. 9, pp. 1627–1645, 2010.
[63] E. H. Adelson, C. H. Anderson, J. R. Bergen, P. J. Burt, and J. M.
Ogden, “Pyramid methods in image processing,” RCA engineer,
vol. 29, no. 6, pp. 33–41, 1984.
[64] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik, “Object
instance segmentation and fine-grained localization using hypercolumns,” TPAMI, vol. 39, no. 4, pp. 627–639, 2016.
[65] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, “Pyramid scene parsing
network,” in CVPR, 2017, pp. 6230–6239.
[66] T. Kong, A. Yao, Y. Chen, and F. Sun, “Hypernet: Towards
accurate region proposal generation and joint object detection,”
in CVPR, 2016, pp. 845–853.
[67] F. Yang, W. Choi, and Y. Lin, “Exploit all the layers: Fast and
accurate cnn object detector with scale dependent pooling and
cascaded rejection classifiers,” in CVPR, 2016, pp. 2129–2137.
[68] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos, “A unified
multi-scale deep convolutional neural network for fast object
detection,” in ECCV, 2016, pp. 354–370.
[69] J. Li, Y. Wang, C. Wang, Y. Tai, J. Qian, J. Yang, C. Wang, J. Li,
and F. Huang, “Dsfd: Dual shot face detector,” in CVPR, 2019,
pp. 5055–5064.
[70] Q. Zhao, T. Sheng, Y. Wang, Z. Tang, Y. Chen, L. Cai, and H. Ling,
“M2det: A single-shot object detector based on multi-level feature
pyramid network,” in AAAI, 2019, pp. 9259–9266.
[71] J. Li, X. Liang, S. Shen, T. Xu, J. Feng, and S. Yan, “Scale-aware fast
r-cnn for pedestrian detection,” TMM, vol. 20, no. 4, pp. 985–996,
2017.
[72] M. Najibi, P. Samangouei, R. Chellappa, and L. S. Davis, “Ssh:
Single stage headless face detector,” in ICCV, 2017, pp. 4885–4894.
[73] Y. Li, Y. Chen, N. Wang, and Z.-X. Zhang, “Scale-aware trident
networks for object detection,” in ICCV, 2019, pp. 6053–6062.
[74] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, “Path aggregation network
for instance segmentation,” in CVPR, 2018, pp. 8759–8768.
[75] H. Zhang, K. Wang, Y. Tian, C. Gou, and F.-Y. Wang, “Mfrcnn: Incorporating multi-scale features and global information
for traffic object detection,” IEEE Trans. Veh. Technol., vol. 67, no. 9,
pp. 8019–8030, 2018.
[76] C. Yang, Z. Huang, and N. Wang, “Querydet: Cascaded sparse
query for accelerating high-resolution small object detection,” in
CVPR, 2022, pp. 13 668–13 677.
[77] J. Huang et al., “Speed/accuracy trade-offs for modern convolutional object detectors,” in CVPR, 2017, pp. 3296–3297.
[78] B. Singh and L. S. Davis, “An analysis of scale invariance in object
detection-snip,” in CVPR, 2018, pp. 3578–3587.
[79] B. Singh, M. Najibi, and L. S. Davis, “Sniper: Efficient multi-scale
training,” in NeurIPS, vol. 31, 2018.
[80] M. Najibi, B. Singh, and L. Davis, “Autofocus: Efficient multiscale inference,” in ICCV, 2019, pp. 9745–9755.
[81] Y. Chen, P. Zhang, Z. Li, Y. Li, X. Zhang, L. Qi, J. Sun, and
J. Jia, “Dynamic scale training for object detection,” arXiv preprint
arXiv:2004.12432, 2020.
[82] P. Zhou, B. Ni, C. Geng, J. Hu, and Y. Xu, “Scale-transferrable
object detection,” in CVPR, 2018, pp. 528–537.
[83] J. Wang, Y. Yuan, and G. Yu, “Face attention network: An
effective face detector for the occluded faces,” arXiv preprint
arXiv:1711.07246, 2017.
[84] A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta, “Beyond
skip connections: Top-down modulation for object detection,”
arXiv preprint arXiv:1612.06851, 2016.
[85] M. Zand, A. Etemad, and M. Greenspan, “Oriented bounding
boxes for small and freely rotated objects,” IEEE Trans. Geosci.
Remote Sens., vol. 60, pp. 1–15, 2021.
[86] S. Woo, S. Hwang, and I. S. Kweon, “Stairnet: Top-down semantic
aggregation for accurate one shot detection,” in WACV, 2018, pp.
1093–1102.
[87] Y. Gong, X. Yu, Y. Ding, X. Peng, J. Zhao, and Z. Han, “Effective
fusion factor in fpn for tiny object detection,” in WACV, 2021, pp.
1159–1167.
[88] M. Hong, S. Li, Y. Yang, F. Zhu, Q. Zhao, and L. Lu, “Sspnet:
Scale selection pyramid network for tiny person detection from
uav images,” IEEE Geosci. Remote. Sens. Lett., vol. 19, pp. 1–5,
2021.
[89] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg,
“Dssd: Deconvolutional single shot detector,” arXiv preprint
arXiv:1701.06659, 2017.
[90] Z. Liu, G. Gao, L. Sun, and L. Fang, “Ipg-net: Image pyramid
guidance network for small object detection,” in CVPRW, 2020,
pp. 4422–4430.
[91] S. Liu, D. Huang, and Y. Wang, “Learning spatial fusion for
single-shot object detection,” arXiv preprint arXiv:1911.09516,
2019.
[92] P. Hu and D. Ramanan, “Finding tiny faces,” in CVPR, 2017, pp.
1522–1530.
[93] M. Haris, G. Shakhnarovich, and N. Ukita, “Task-driven super resolution: Object detection in low-resolution images,” in
NeurIPS, 2021, pp. 387–395.
[94] J. Wang, K. Chen, R. Xu, Z. Liu, C. C. Loy, and D. Lin, “Carafe:
Content-aware reassembly of features,” in ICCV, 2019, pp. 3007–
3016.
[95] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. C. Courville, and Y. Bengio, “Generative
adversarial nets,” in NeurIPS, 2014, pp. 2672–2680.
[96] C. Deng, M. Wang, L. Liu, Y. Liu, and Y. Jiang, “Extended feature
pyramid network for small object detection,” TMM, vol. 24, pp.
1968–1979, 2021.
[97] W. Shi, J. Caballero, F. Husz´ar, J. Totz, A. P. Aitken, R. Bishop,
D. Rueckert, and Z. Wang, “Real-time single image and video
super-resolution using an efficient sub-pixel convolutional neural
network,” in CVPR, 2016, pp. 1874–1883.
[98] Y. Bai, Y. Zhang, M. Ding, and B. Ghanem, “Sod-mtgan: Small
object detection via multi-task generative adversarial network,”
in ECCV, 2018, pp. 210–226.
[99] ——, “Finding tiny faces in the wild with generative adversarial
network,” in CVPR, 2018, pp. 21–30.
[100] B. Na and G. C. Fox, “Object detection by a super-resolution
method and a convolutional neural networks,” in BigData, 2018,
pp. 2263–2269.
[101] J. Noh, W. Bae, W. Lee, J. Seo, and G. Kim, “Better to follow,
follow to be better: Towards precise supervision of feature superresolution for small object detection,” in ICCV, 2019, pp. 9724–
9733.
[102] S. K. Divvala, D. Hoiem, J. H. Hays, A. A. Efros, and M. Hebert,
“An empirical study of context in object detection,” in CVPR,
2009, pp. 1271–1278.
[103] J. Li, X. Liang, Y. Wei, T. Xu, J. Feng, and S. Yan, “Perceptual
generative adversarial networks for small object detection,” in
CVPR, 2017, pp. 1951–1959.
[104] A. Torralba, “Contextual priming for object detection,” IJCV,
vol. 53, no. 2, pp. 169–191, 2003.
[105] X. Tang, D. K. Du, Z. He, and J. Liu, “Pyramidbox: A contextassisted single shot face detector,” in ECCV, 2018, pp. 812–828.
[106] D. Parikh, C. L. Zitnick, and T. Chen, “Exploring tiny images: The
roles of appearance and contextual information for machine and
human object recognition,” TPAMI, vol. 34, no. 10, pp. 1978–1991,
2011.
[107] H. Zhang, K. Dana, J. Shi, Z. Zhang, X. Wang, A. Tyagi, and
A. Agrawal, “Context encoding for semantic segmentation,” in
CVPR, 2018, pp. 7151–7160.
[108] K. Chen, J. Pang, J. Wang, Y. Xiong, X. Li, S. Sun, W. Feng,
Z. Liu, J. Shi, W. Ouyang et al., “Hybrid task cascade for instance
segmentation,” in CVPR, 2019, pp. 4969–4978.
[109] X. Liang, J. Zhang, L. Zhuo, Y. Li, and Q. Tian, “Small object
detection in unmanned aerial vehicle images using feature fusion and scaling-based single shot detector with spatial context
analysis,” TCSVT, vol. 30, no. 6, pp. 1758–1770, 2020.
[110] X. Hu, X. Xu, Y. Xiao, H. Chen, S. He, J. Qin, and P.-A. Heng,
“Sinet: A scale-insensitive convolutional neural network for fast
vehicle detection,” IEEE Trans. Intell. Transp. Syst., vol. 20, no. 3,
pp. 1010–1019, 2019.
[111] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick, “Inside-outside
net: Detecting objects in context with skip pooling and recurrent
neural networks,” in CVPR, 2016, pp. 2874–2883.
[112] Q. V. Le, N. Jaitly, and G. E. Hinton, “A simple way to initialize recurrent networks of rectified linear units,” arXiv preprint
arXiv:1504.00941, 2015.
[113] M. Braun, S. Krebs, F. Flohr, and D. M. Gavrila, “Eurocity persons: A novel benchmark for person detection in traffic scenes,”
TPAMI, vol. 41, no. 8, pp. 1844–1861, 2019.
[114] S. Zhang, Y. Xie, J. Wan, H. Xia, S. Z. Li, and G. Guo, “Widerperson: A diverse dataset for dense pedestrian detection in the
wild,” TMM, vol. 22, no. 2, pp. 380–393, 2020.
[115] Z. Zhu, D. Liang, S. Zhang, X. Huang, B. Li, and S. Hu, “Trafficsign detection and classification in the wild,” in CVPR, 2016, pp.
2110–2118.
[116] J. Wang, W. Yang, H. Guo, R. Zhang, and G.-S. Xia, “Tiny object
detection in aerial images,” in ICPR, 2021, pp. 3791–3798.
[117] Q. Wang, J. Gao, W. Lin, and X. Li, “Nwpu-crowd: A large-scale
benchmark for crowd counting and localization,” TPAMI, vol. 43,
no. 6, pp. 2141–2149, 2021.
[118] A. Borji and L. Itti, “State-of-the-art in visual attention modeling,”
TPAMI, vol. 35, no. 1, pp. 185–207, 2012.
[119] W. Wang, J. Shen, X. Lu, S. C. H. Hoi, and H. Ling, “Paying
attention to video object pattern understanding,” TPAMI, vol. 43,
no. 7, pp. 2413–2428, 2021.
[120] L. Itti, C. Koch, and E. Niebur, “A model of saliency-based visual
attention for rapid scene analysis,” TPAMI, vol. 20, no. 11, pp.
1254–1259, 1998.
[121] M. Corbetta and G. L. Shulman, “Control of goal-directed and
stimulus-driven attention in the brain,” Nat. Rev. Neurosci, vol. 3,
no. 3, pp. 201–215, 2002.
[122] X. Wang, R. Girshick, A. Gupta, and K. He, “Non-local neural
networks,” in CVPR, 2018, pp. 7794–7803.
[123] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “Cbam: Convolutional
block attention module,” in ECCV, 2018, pp. 3–19.
[124] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,”
in CVPR, 2018, pp. 7132–7141.
[125] M. Jaderberg, K. Simonyan, A. Zisserman et al., “Spatial transformer networks,” in NeurIPS, 2015, pp. 2017–2025.
[126] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N.
Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,”
in NeurIPS, 2017, pp. 6000–6010.
[127] C. Feng, Y. Zhong, Y. Gao, M. R. Scott, and W. Huang, “Tood:
Task-aligned one-stage object detection,” in ICCV, 2021, pp. 3490–
3499.
[128] Z. Huang, X. Wang, L. Huang, C. Huang, Y. Wei, and W. Liu, “Ccnet: Criss-cross attention for semantic segmentation,” in ICCV,
2019, pp. 603–612.
[129] J. Pang, C. Li, J. Shi, Z. Xu, and H. Feng, “R2
-cnn: Fast tiny
object detection in large-scale remote sensing images,” IEEE
Trans. Geosci. Remote Sens., vol. 57, no. 8, pp. 5512–5524, 2019.
[130] X. Yang, J. Yang, J. Yan, Y. Zhang, T. Zhang, Z. Guo, X. Sun, and
K. Fu, “Scrdet: Towards more robust detection for small, cluttered
and rotated objects,” in ICCV, 2019, pp. 8231–8240.
[131] J. Fu, X. Sun, Z. Wang, and K. Fu, “An anchor-free method based
on feature balancing and refinement network for multiscale ship
detection in sar images,” IEEE Trans. Geosci. Remote Sens., vol. 59,
no. 2, pp. 1331–1344, 2021.
[132] Y. Zhu, H. Cai, S. Zhang, C. Wang, and Y. Xiong, “Tinaface:
Strong but simple baseline for face detection,” arXiv preprint
arXiv:2011.13183, 2020.
[133] Z. Zheng, P. Wang, W. Liu, J. Li, R. Ye, and D. Ren, “Distance-iou
loss: Faster and better learning for bounding box regression,” in
AAAI, 2020, pp. 12 993–13 000.
[134] C. Xu, J. Wang, W. Yang, and L. Yu, “Dot distance for tiny object
detection in aerial images,” in CVPRW, 2021, pp. 1192–1201.
[135] J. Wang, C. Xu, W. Yang, and L. Yu, “A normalized gaussian
wasserstein distance for tiny object detection,” arXiv preprint
arXiv:2110.13389, 2021.
[136] F. Yang, H. Fan, P. Chu, E. Blasch, and H. Ling, “Clustered object
detection in aerial images,” in ICCV, 2019, pp. 8311–8320.
[137] C. Li, T. Yang, S. Zhu, C. Chen, and S. Guan, “Density map
guided object detection in aerial images,” in CVPRW, 2020, pp.
737–746.
[138] T. Song, L. Sun, D. Xie, H. Sun, and S. Pu, “Small-scale pedestrian
detection based on topological line localization and temporal
feature aggregation,” in ECCV, 2018, pp. 536–551.
[139] J. Wu, C. Zhou, Q. Zhang, M. Yang, and J. Yuan, “Self-mimic
learning for small-scale pedestrian detection,” in ACM MM, 2020,
pp. 2012–2020.
[140] J. U. Kim, S. Park, and Y. M. Ro, “Robust small-scale pedestrian
detection with cued recall via memory learning,” in ICCV, 2021,
pp. 3030–3039.
[141] G. Cheng, J. Wang, K. Li, X. Xie, C. Lang, Y. Yao, and J. Han,
“Anchor-free oriented proposal generator for object detection,”
IEEE Trans. Geosci. Remote Sens., vol. 60, pp. 1–11, 2022.
[142] Y. Pang, J. Cao, Y. Li, J. Xie, H. Sun, and J. Gong, “Tju-dhd: A
diverse high-resolution dataset for object detection,” TIP, vol. 30,
pp. 207–219, 2021.
[143] J. Han, X. Liang, H. Xu, K. Chen, L. Hong, J. Mao, C. Ye,
W. Zhang, Z. Li, X. Liang et al., “Soda10m: A large-scale 2d
self/semi-supervised object detection dataset for autonomous
driving,” arXiv preprint arXiv:2106.11118, 2021.
[144] M.-R. Hsieh, Y.-L. Lin, and W. H. Hsu, “Drone-based object
counting by spatially regularized regional proposal network,” in
ICCV, 2017, pp. 4165–4173.
[145] P. Zhu, L. Wen, D. Du, X. Bian, H. Fan, Q. Hu, and H. Ling,
“Detection and tracking meet drones challenge,” TPAMI, pp. 1–1,
2021.
[146] D.-P. Fan, G.-P. Ji, M.-M. Cheng, and L. Shao, “Concealed object
detection,” TPAMI, pp. 1–1, 2021.
[147] W. Wang, J. Shen, F. Guo, M.-M. Cheng, and A. Borji, “Revisiting
video saliency: A large-scale benchmark and a new model,” in
CVPR, 2018, pp. 4894–4903.
[148] H. Yu, G. Li, W. Zhang, Q. Huang, D. Du, Q. Tian, and N. Sebe,
“The unmanned aerial vehicle benchmark: Object detection,
tracking and baseline,” IJCV, vol. 128, no. 5, pp. 1141–1159, 2020.
[149] Z. Cai and N. Vasconcelos, “Cascade r-cnn: High quality object
detection and instance segmentation,” TPAMI, vol. 43, no. 5, pp.
1483–1498, 2021.
[150] D. Lam, R. Kuzma, K. McGee, S. Dooley, M. Laielli, M. Klaric,
Y. Bulatov, and B. McCord, “xview: Objects in context in overhead
imagery,” arXiv preprint arXiv:1802.07856, 2018.
[151] Z. Yang, S. Liu, H. Hu, L. Wang, and S. Lin, “Reppoints: Point
set representation for object detection,” in ICCV, 2019, pp. 9656–
9665.
[152] S. Zhang, C. Chi, Y. Yao, Z. Lei, and S. Z. Li, “Bridging the gap
between anchor-based and anchor-free detection via adaptive
training sample selection,” in CVPR, 2020, pp. 9759–9768.
[153] P. Sun, R. Zhang, Y. Jiang, T. Kong, C. Xu, W. Zhan, M. Tomizuka,
L. Li, Z. Yuan, C. Wang, and P. Luo, “Sparse r-cnn: End-to-end
object detection with learnable proposals,” in CVPR, 2021, pp.
14 449–14 458.
[154] K. Chen et al., “MMDetection: Open mmlab detection toolbox
and benchmark,” arXiv preprint arXiv:1906.07155, 2019.
[155] Y. Zhou et al., “Mmrotate: A rotated object detection benchmark
using pytorch,” arXiv preprint arXiv:2204.13317, 2022.
[156] Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo,
“Swin transformer: Hierarchical vision transformer using shifted
windows,” in ICCV, 2021, pp. 9992–10 002.
[157] J. Ding, N. Xue, Y. Long, G.-S. Xia, and Q. Lu, “Learning roi
transformer for oriented object detection in aerial images,” in
CVPR, 2019, pp. 2844–2853.
[158] Y. Xu, M. Fu, Q. Wang, Y. Wang, K. Chen, G.-S. Xia, and
X. Bai, “Gliding vertex on the horizontal bounding box for multioriented object detection,” TPAMI, vol. 43, no. 4, pp. 1452–1459,
2021.
[159] X. Xie, G. Cheng, J. Wang, X. Yao, and J. Han, “Oriented r-cnn for
object detection,” in ICCV, 2021, pp. 3520–3529.
[160] J. Han, J. Ding, J. Li, and G.-S. Xia, “Align deep features for oriented object detection,” IEEE Trans. Geosci. Remote Sens., vol. 60,
pp. 1–11, 2022.
[161] G. Cheng, Y. Yao, S. Li, K. Li, X. Xie, J. Wang, X. Yao, and J. Han,
“Dual-aligned oriented detector,” IEEE Trans. Geosci. Remote Sens.,
vol. 60, pp. 1–11, 2022.

你可能感兴趣的:(目标检测,计算机视觉,深度学习)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23