椒椒。

改进 YOLO V5 的密集行人检测算法研究（论文研读）——目标检测

改进 YOLO V5 的密集行人检测算法研究（2021.08）

- 摘要：
- 1 YOLO V5
- 2 SENet 通道注意力机制
- 3 改进的 YOLO V5 模型
- - 3.1 训练数据处理改进
  - 3.2 YOLO V5 网络改进
  - 3.3 损失函数改进
  - - 3.3.1 使用 CIoU
    - 3.3.2 非极大值抑制改进
- 4 研究方案与结果分析
- - 4.1 实验平台与数据集
  - 4.2 网络训练
  - 4.3 模型评价与对比
  - 4.4 检测效果对比
- 5 结语

摘要：

针对在人员密集区或相互拥挤场景下进行的行人目标检测时，因行人遮挡或人像交叠所导致的跟踪目标丢失、检测识别率低的问题，提出了一种融合注意力机制的改进 YOLO V5 算法。通过引入注意力机制来深入挖掘特征通道间关系和特征图空间信息，进一步增强了对行人目标可视区域的特征提取。为提高模型的收敛能力，利用 CIoU、 DIoU_NMS代替YOLO V5 的原有损失函数优化 anchor 的回归预测，降低了网络的训练难度，提升了遮挡情况下的检测率；同时，结合数据增强及标签平滑算法进一步提高了特征模型的泛化能力和分类器性能。相比于一般的 YOLOV5算法，论文所提出的改进算法在人员密集区或相互拥挤场景下进行行人检测时，具有更高的准确率和更低的漏检率，同时保持了原有算法的实时性。
关键词：行人检测；拥挤场景；YOLO V5；注意力机制
行人检测在辅助驾驶系统、车辆监控系统和预警防护系统等多个领域扮演着重要角色，是目标检测领域中的一个重要的基础研究课题[1]，可以为商场和景区等人流密度较大的公共场所以及智能安防领域提供有效的信息支撑[2]。
随着人工智能产业的高速发展与计算机硬件计算能力的提升，国内外学者已经开展了基于深度学习的研究行人检测方案，并且取得了一些的效果[3]。
而目前的行人检测算法在实际大规模拥挤场景应用过程中，始终存在着由于行人交叠、遮挡而导致的漏检率较高的问题，此类问题依然困扰着很多研究者，也是目前行人检测面临的巨大挑战[4]。
许多学者基于深度学习理论提出了不同措施以提高算法的性能。 2019 年，Wojke 等人[5]提出了 Deep Sort算法，运用一个残差网络结构来提取目标的外观信息，用匈牙利算法将外观特征向量的余弦距离与运动信息关联起来，然而其跟踪效果依赖目标检测器的精确度和特征区分程度，跟踪速度与目标检测速度密切相关。
2019 年，徐诚极等人[6]使用注意力机制改进了 YOLO V3，提出了Attention-YOLO 算法，有效提高了检测准确率，但是其短板在于对小范围的不连续的信息上的表现并不准确。 2021 年，周大可等人[7]以 RetinaNet 作为基础框架，在回归和分类支路分别添加空间注意力和通道注意力子网络，提出一种结合双重注意力机制的遮挡感知行人检测算法，有效提高了行人检测算法在严重遮挡情况下的性能，降低遮挡对检测造成的影响，但由于双重注意力机制子网络带来了附加的计算量，因此检测帧率只有 11.8 fps。沈军宇等人[8]基于 YOLO 算法进行端到端训练，快速检测实时视频中目标的数量，根据预先设置的阈值触发截图与保存视频功能，实现鱼群高效地检测与跟踪，系统鲁棒性强，对数据处理与存储效率较高，但是并未针对视频中的鱼群由于数量较多，处于密集状态的这一特殊情况进行考虑，在进行密集鱼群的检测计数时会有较高的漏检率。
SENet（通道注意力机制，Squeeze-and-Excitation Networks）是一种将各个通道之间的特征进行通道卷积来改善模型的表达能力，注重各类通道特征关系的网络结构。将 SENet 应用在公共大规模场景拥挤情况下的行人检测上，可以增强重要特征的通道权重，从而提高检测的效果。
针对上述学者研究中的问题与不足，笔者在文献[6－8]研究的基础上提出一种融合注意力机制的改进YOLO V5 的密集行人检测算法。该算法利用 SENet 融合网络特征对融合的特征图采用自适应调整的方式更新不同特征通道的权重，提高网络特征提取和特征融合的能力，并通过数据增强、标签平滑的方式提高模型的泛化能力，丰富行人的样本特征，以及利用 CIoU、DIoU_NMS 参数对 YOLO V5 原有的损失函数进行改进，提升算法的检测准确率和降低漏检率。

1 YOLO V5

YOLO V5 由 Ultralytics LLC 公司于 2020 年 5 月提出，按照网络深度和特征图宽度大小分为 YOLOV5s、YOLO V5m、YOLO V5l、YOLO V5x。文中采用了 YOLO V5s 作为使用模型，其网络模型结构如图 1 所示。从网络结构图中可看出，YOLO V5s 模型主要分为 4 个部分，分别为 Input、Backbone、Neck 和 Prediction。

2 SENet 通道注意力机制

SENet（通道注意力机制）最早见于 2017 年，由国内自动驾驶公司 Momenta的胡杰团队[9]在《Squeezeand-Excitation Networks》一文中提出。通道注意力机制通过研究特征图的各个通道之间的相关性，计算了各个通道的重要性得分，并且作为分配给各个通道的不同权重，以此凸显出包含重要特征信息的相关通道表达[10]。
SENet主要由压缩（Squeeze）和激励（Excitation）两部分组成，其网络结构如图 2 所示[11]。
-

3 改进的 YOLO V5 模型

3.1 训练数据处理改进

在大多数应用场景中，训练模型使用的原始数据集并不能满足理想的训练需要，而获取更多的数据集也会增加训练的成本和带来更多的工作量，所以更好的处理方式是进行适当的数据预处理，数据预处理包括数据增强和标签平滑处理两个部分。
应用数据增强进行数据预处理的主要目的是：通过数据增强的方式扩充训练集图片，可以让用于训练的数据集样本更加多样，降低各方面的额外因素对识别的影响。而图像中添加随机噪声，也可以有效提高模型的泛化能力和鲁棒性[12]。在实际应用过程中使用次数较多的单样本数据增强方法包括对图像进行缩放并进行长和宽的扭曲、对图像进行翻转的几何变换类数据增强，以及在图像上添加噪声和修改对比度、亮度等的颜色变换类数据增强。文中实验过程中所采用的数据增强方法在原有的传统增强方法基础上增加了噪声图片随机裁剪-拼接法，即将多个待检测图像添加噪声后，再从每一张图片中截取一部分，合成一张图片进行整体检测。这种方式能够同时有效提升微小扰动和大量扰动条件下模型的检测准确性。标签平滑处理（label smooth）其本质是一种正则化处理，能够减少过拟合训练的可能性，使得模型对测试集预测的概率分布更接近真实的分布情况，从而提升分类器性能[13]。文中实验过程中采用的标签平滑方法为随机增加训练集中的错误标注，并在训练过程中使其拥有负的学习率，由此促使模型的分类结果更快地向正确的分类结果靠近。

3.2 YOLO V5 网络改进

为了进一步提升密集场景的行人检测效果，文中提出了一种改进的 YOLO V5 算法，引入通道注意力机制 SELayer 改进 YOLO V5 的骨干网络，提升特征图不同通道间目标信息的相关性表述。将 SELayer 加入后的 YOLO V5 网络结构如图 3所示（图中黑色方框为加入的 SENet 结构）。
从文中扩充后的拥挤行人数据集中随机抽取了如图 4（a）、图 4（d）2 张图片。利用原始 YOLO V5 算法与增加了 SENet 后的
YOLO V5 算法进行检测，检测结果分别如图 4（b）、图 4（e）与图 4（c）、图 4（f）所示。
在图 4（a）与背景差别不大的被遮挡目标和中间部分的由于距离较远的小尺度目标检测中，仅增加了SENet 后的改进算法对其进行了正确标注，如图 4（c）的白色箭头指向所示，而传统 YOLO V5 算法的检测结果图 4（b）中并未对其标注，如图 4（b）中白色箭头指向所示；对于图 4（d）存在相似物体的行人检测，原始YOLO V5 算法的检测结果图 4（e）出现了错误标注的情况，而增加了 SENet 的 YOLO V5 算法并未受到相似物体的干扰，其检测结果如图 4（f）所示。从图 4 的实验结果可以看出，SENet 模块的引入，有效地滤除了密集行人检测中的背景干扰，降低了误检率，提高了检测精度。

3.3 损失函数改进

3.3.1 使用 CIoU

在对画面中的目标进行检测时，因视场内存在不止一个目标，算法将生成不止一个预测框，因此需要使用非极大值抑制方法删除多余的预测框，选择最接近真实框的预测框[14]。在 YOLO V5 中采用 GIoU_Loss 作为损失函数，其原理见公式（1）[15]。 GIoU 加了相交尺度的衡量方式，有效解决了边界框不重合时问题。但当预测框和目标框出现互相包含关系，或者宽和高对齐的情况时，GIoU 就会在回归的过程中，逐渐退化为 IoU，从而无法评估相对位置，容易出现迭代次数增加和检测速度减慢的情况，且存在发散的风险[16]。
针对上述问题，Zheng 等人[16]将不同目标框中心点之间的中心距离一同考虑进去，提出了回归更加稳定、收敛更快更难发散的Distance-IoU（DIoU） Loss。但是在进行实际目标检测时，还需要将边框的高宽比的一致性列入考虑范围。为此，文中在文献[16]的基础上，将边框的高宽比的一致性列入考虑范围，引入 CIoU_Loss 作为损失函数对 YOLO V5算法进行改进。相比于 DIoU，CIoU_Loss 的收敛速度更快，回归的效果也更好。
CIoU_Loss 的惩罚项定义如下：

CIoU_Loss 的最终定义如下
在上述公式中，α 为一个正的权衡参数，v 为衡量长宽比的一致性。上述损失函数中，检测框和目标框的中心点用 b，bgt表示，其欧式距离为 ρ。 c 为覆盖检测框和目标框之间的最小矩形的斜距。
如图 5 所示，利用 Opencv+numpy绘制了不同尺寸和长宽比的两个矩形框模拟算法的预测框和实际框之间的交并情况，并利用公式（1）得到 GIoU，利用公式（2）－（5）计算得到CIoU，计算结果如图 5（b）、图 5（a）所示。从图 5 中 CIoU 与 GIoU 的计算结果可以看出，由于此时 GIoU损失退化，导致在预测框 bbox 和 ground truth bbox 包含的时候优化变得非常困难，特别是在水平和垂直方向收敛难，而 CIoU 仍可以使回归更快。
因此，文中利用 CIoU 来代替原始 YOLO V5 算法中的 GIoU 进行 anchor 的回归，实现真实框和预测框无重合时的梯度回传，提高模型收敛能力。当边界框与真实框上下或左右相邻时，CIoU 能够优化不相交的边界框，保留位置更准确的边界框，提高模型对目标位置预测的精确度，使其通过非极大值抑制筛选得到的结果更加合理。同时，使用 CIoU能够降低模型的训练难度，提高检测的准确率。

3.3.2 非极大值抑制改进

在原始 YOLO V5 算法目标检测预测结果处理阶段，针对出现的众多目标框的筛选，采用加权 NMS 操作，获得最优目标框。但是加权 NMS 只考虑两个目标框的重叠区域面积，容易出现定位与得分不一致的问题[16]。在抑制准则中，不仅应考虑重叠区域，还应该考虑两个 box 之间的中心点间距，DIoU_NMS 则同时考虑了这两点。因此，文中使用 DIoU_NMS 进行评判，使得效果更符合实际。对于score 最高的预测 box M，可以将 DIoU_NMS 的 si 更新公式正式定义为：
其中通过同时考虑 IoU 和两个 box 的中心点之间的距离来删除 box Bi，M 为当前得分最高预测框，Bi 表示与M 相交的第 i
个预测框，si 是分类得分，ε 是 NMS 阈值。
如图 6 所示，分别利用 LCIoU+加权 NMS 与 LCIoU+DIoU_NMS 同时对图6（a）的行人进行检测，CIoU+加权NMS 的检测结果如图 6（b）所示，出现了由于目标框重叠导致的漏检率增大，而在 LCIoU+DIoU_NMS 的检测结果图 6（c）中，图 6（b）中未能框选出的目标得到了正确的标注，检测率高于图 6（b），如图 6（b）与图 6（c）中的白色箭头指向所示。实验表明，利用 DIoU_NMS 来代替原始 YOLO V5 的加权 NMS，有效提升了由于行人密集导致的遮挡情况的检测率。

注：图中方框为预测框。图 6（a）为文中扩充后的拥挤行人数据集（不在训练集）中随机抽取出的图片，画面中存在多个行人目标且不同行人目标之间存在由于拥挤引起的遮挡、交叠情况；图 6（b）为原始 YOLO V5 利用 CIoU+加权 NMS 的检测结果；图 6（c）为在原始 YOLO V5 的基础上利用 CIoU+DIoU_NMS 的检测结果。白色箭头指向的部分为加权 NMS 时漏检的部分，以及修改为 DIoU_NMS 后能够正确标注出来的部分

4 研究方案与结果分析

4.1 实验平台与数据集

文中进行模型训练与验证测试的硬件平台 CPU 为 Core（TM） i5-10400F CPU @ 2.90 GHz，内存 16 GB，选用的 GPU 是 RTX 2060S 8 GB，在 Windows 10 操作系统上运行。根据 YOLO 系列算法训练集格式要求，笔者从野外密集行人检测的 WiderPerson 数据集与旷世发布的 CrowdHuman 数据集中各随机选择了 8 000 张与 5000 张图片，并将数据集标注格式全部转化为 VOC 格式，同时使用上文中提到的数据增强的方法对数据集进行扩容，最终得到数据集共 20000 张，按照 8∶2 的比例区分训练集、测试集。

4.2 网络训练

文中利用 Python 语言应用 Pytorch 深度学习框架对 YOLO V5 网络模型进行结构搭建与编写程序，并且在训练过程中应用随机梯度下降算法（ stochastic gradient descent，SGD[17]）作为优化算法，对训练过程中的参数进行优化[18]。训练过程中设置动量为 0.7，权重衰减 0.000 2，初始学习率设定为 0.01，每训练 10 次后学习率衰减0.01，总的训练次数为 300 次。

4.3 模型评价与对比

文中在进行模型训练时，将准确率、召回率、平均精度均值以及调和均值作为评估指标[19]。利用准确率和召回率作为判别行人检测识别效果的标准，但两者为负相关关系[20]。平均精度均值与调和均值是同时考虑准确率和召回率的量化指标，它们的数值越大，则识别效果越好[21]。
为了验证修改后网络的有效性，文中比较了原始 YOLO V5 网络与改进后的 YOLO V5 网络在同一数据集中训练时间及实际检测效果。在同一数据集中分别训练 300 次，训练中的损失值与 mAP 的收敛曲线对比如图 7 所示，准确率变化与召回率曲线如图 8 所示。迭代完成后损失值大约为 0.021 76，mAP 最终的收敛值在 0.976 4，绘制 Loss、mAP 曲线后对参数的收敛情况进行对比分析可得，文中提出的基于 YOLO V5 的改进模型训练结果相比于原始 YOLO V5 模型准确率更高、Loss 更低。

4.4 检测效果对比

训练结束后利用得到的权重参数模型对待检测目标样本进行检测，同时标出检测的对象位置，结果如图 9 所示，左中右三幅图依次为原图、文中改进算法检测图与原始 YOLO V5 检测图。在光线明亮、遮挡较少的正常情况的图 9（a）的检测对比实验中，原始 YOLO V5 能框选出图 9（a）中的大部分行人目标，但仍然是出现了漏检率较高的情况，如图9（c）所示；在光线正常、不同目标之间存在相互遮挡的图 9（d）检测对比中，原始 YOLO V5 的漏检率与文中算法均存在漏检情况，但从图 9（e）、图 9（f）中的框选结果可以看出，原始 YOLO V5算法的漏检率更高；在对比度较低情况下的图 9（g）检测对比实验中，由于拍摄图片角度与距离原因，行人与阴影部分的重叠区域较大，且行人目标也较前两个实验的目标更小，原始 YOLO V5的在该次实验中的漏检率进一步增加，如图 9（i）所示，而文中的改进算法依旧能够将图片中的行人框选出来，如图9（h）所示，虽然也出现了漏检情况，但从检测结果可以看出，文中算法的鲁棒性比原始 YOLO V5 算法更好。
-
注：图中方框为预测框，person 为类别，数字为置信度。图 9（a）、图 9（d）、图 9（g）为文中在 widerperson 与CrowdHuman 基础上利用数据增强的方法扩充后的拥挤行人数据集（不在训练集）中随机抽取出来的三张图片。图9（a）是光线明亮、遮挡较少的正常情况的图片，图 9（d）是光线正常但不同目标之间的遮挡较多的图片，图9（g）是由于拍摄距离较远目标较小且目标与背景之间对比度较低情况下的图片。图 9（b）、图 9（e）、图9（h）为利用文中改进算法检测的结果；图 9（c）、图 9（f）、图 9（i）为原始 YOLO V5 算法检测结果图 9正常情况、存在遮挡、对比度较低情况下的对比实验结果。

为统计分析各种算法的性能，在上文提到的软硬件环境下利用文中扩充后的拥挤行人数据集将 SSD、原始 YOLO V5以及文中改进算法进行训练和测试。 IoU 设定为 0.5，它是 VOC 数据集的测试标准，也是常用指标[22]。文中以这一指标进行准确率对比，各算法的实验结果见表 1。
实验表明，相比原始 YOLO V5 算法，文中改进算法 mAP 提升了 10.5%，精准率提升接近 16%，漏检率降低了接近10%，同时保持了原始 YOLO V5 算法的高帧率。改进后的模型对行人检测较为精准，在多目标、行人相互遮挡的情况下也可以很好地进行检测，有效地避免了漏检的问题，整体表现良好，目标定位准确，识别率较高。

5 结语

笔者针对公共场景下的行人检测问题，研究了当下主流的 YOLO V5 算法，并在原始 YOLO V5 算法的基础上进行了以下改进：（1）引入SENet 对原始 YOLO V5网络进行改进，对融合的特征图进行自适应的调整；（2）通过引入数据增强、标签平滑的方式对原有数据集数据进行拓展得到大量新的训练数据，有效提升模型训练集大小，快速提升目标检测效果；（3）引入CIoU、DIoU_NMS 参数，提高网络特征提取和特征融合的能力，同时提升算法的检测准确率和检测速度。
与原算法相比，在文中扩充后的拥挤行人数据集上，笔者提出基于 YOLO V5 的改进算法检测的准确率和漏检率明显优于原始 YOLO V5 算法，同时保持了原有算法的实时性，mAP 达到了 0.976 4，帧率达到了 140fps，满足公共大规模拥挤场景下进行行人检测时的速度与精度的要求。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

改进 YOLO V5 的密集行人检测算法研究（论文研读）——目标检测

改进 YOLO V5 的密集行人检测算法研究（2021.08）

摘 要：

1 YOLO V5

2 SENet 通道注意力机制

3 改进的 YOLO V5 模型

3.1 训练数据处理改进

3.2 YOLO V5 网络改进

3.3 损失函数改进

3.3.1 使用 CIoU

3.3.2 非极大值抑制改进

4 研究方案与结果分析

4.1 实验平台与数据集

4.2 网络训练

4.3 模型评价与对比

4.4 检测效果对比

5 结语

你可能感兴趣的:(视觉CV,python,目标检测,YOLO,算法)

摘要：