LittleKlein

AI识虫练习赛第二名方案&&心得分享

简介

本文分别从数据、检测模型、训练技巧、改进方案四个方面对AI识虫比赛进行了回顾，介绍了第二名的解决方案。该方案使用YoloV3作为目标检测器，并将检测结果输入到后置的SENet分类矫正网络中作进一步优化，最后将结果通过一个改进的NMS方法进行过滤，得到最终结果，以此获得了第二名的好成绩。目前比赛相关代码已在GitHub开源，有兴趣的话大家可以相互交流，地址是https://github.com/LKKlein/AI-Insects-Challenge

赛题背景

AI识虫比赛来自于课程《百度架构师手把手教深度学习》，该课程主要包含深度学习基础、计算机视觉、自然语言处理等各方面的内容。该比赛是计算机视觉阶段的结业比赛，是一个典型的目标检测任务，主要利用各种目标检测算法对图片中的七种林业病虫类别和位置进行预测。

数据简介

比赛数据来自于百度飞桨与北京林业大学合作开发的AI识虫项目，是一个偏向于产业实践的项目。数据总共包含2183张图片，且已经被划分为了训练集、验证集和测试集，分别包含1693张、245张和245张图片，比例约为78：11：11，分配比例合适。同时，经过简单的统计，训练集和验证集一共包含12203个真实框，如此量级的数据已经足够支撑一般的深度学习网络，再配合相关的数据增广策略，稍微更深的网络也应该没有问题。

	图片数量	Box 数量	单张图Box数统计 [max, mean, min]
训练集	1693	10347	[10, 6.11, 4]
验证集	245	1856	[10, 7.57, 6]
测试集	245

为了更深层次的了解一下数据，首先对数据集做了一个简单的分析。数据一共包含7种类型的虫子，大部分呈现褐色、黑色，少部分是淡色，背景皆为透明的圆形容器器皿，底色均为白色。

就数据的真实框而言，平均每张图真实框的数量最大为10，最少为4，平均在6-7左右，这个数据对nms后处理的参数设定相当重要。真实框的一些比例分析如下两图所示，真实框相对于原图的面积大概在0.1%到2%左右，长宽相对于原图的长宽也基本在2%到20%左右，而且相对于原图比例更小的部分，其数量占据绝大部分，中等比例的其次，比例最大的几乎没有，这说明该检测任务是以中小目标为主，在改进网络和训练时需要重点照顾这部分中小比例的目标。

除此之外，对于数据中各个类别的比例也需要关心，这里统计了训练集和验证集中不同类别的真实框数量。可以看到在训练集中，七个类别之间真实框的数量相差最大为1：3，并没有出现特别的类别不均衡现象。但是在验证集中，可以发现最后一个类没有数据，这可能导致验证评估的时候，对最后一个类的结果不能正确评估，因此验证集可能需要简单处理一下，从训练集抽取一部分包含最后一个类的真实框，随机贴到验证集的图中，从而生成新的验证集。

类别情况	Boerner	Leconte	Linnaeus	acuminatus	armandi	coleoptera	linnaeus
训练集	1595	2216	818	953	1765	2091	909
验证集	318	594	292	235	231	186	0

数据增广策略

YoloV3论文的一个重要改进点就是使用了大量的数据增广策略，使得训练的模型拥有了更佳的泛化性能。在AI识虫比赛中，老师已经提供了多个数据增广的策略，包括随机色彩变换、随机填充、随机裁剪、随机缩放、随机翻转、真实框随机顺序、随机多尺度训练共七种策略，其中随机填充、随机裁剪、随机翻转需要同时对真实框进行处理，保证真实框永远与相应的物体对应。

除此之外，本方案中还加入了随机旋转和MixUp两个策略。由于比赛中的图像是圆形的器皿盘，而且虫子也是相对于不同方向摆放，因此旋转对于虫子的检测具有很强的现实意义，但目前利用旋转矩阵计算旋转的真实框结果相当不准确，旋转角度越接近45度，旋转后的框越大。因此，目前只能在0度和90度附近进行旋转，保证真实框的质量。MixUp是指按一定的权重随机混合两张图像，从而生成新的图像，新图像拥有两张图片的所有真实框。MixUp主要用于泛化被遮挡的物体，在AI识虫数据集中，会有部分虫子靠得很接近的情况，MixUp可以在一定程度上也能对这种数据进行泛化。

检测网络

本方案中使用一阶段检测方法中，高效又准确的YoloV3作为目标检测器。在YoloV3中，添加了SSD的特征金字塔，极大地改善了对小目标的检测效果，同时又使用route与上采样机制改进了SSD特征金字塔的特征提取不充分的缺陷，使其对小目标有了极佳的鲁棒性。而AI识虫任务中，大多都是小目标，因此YoloV3具有很好的适应性。

YoloV3中使用的原始BackBone是DarkNet53，这也是YoloV3中的一个提升点。而在本方案中，使用了更好的特征提取器ResNet50-vd替换了原始的DarkNet53作为新的BackBone，同时在后面还添加了一层可变形卷积DCN，用于突出特征图中有物体的区域，可以保证更好的特征提取。BackBone的更换为最终的结果贡献了1.5个mAP的提升。

训练技巧

训练技巧对于模型mAP的提升具有意想不到的效果。李沐大神的《Bag of Freebies for Training Object Detection Neural Networks》中，使用了6个训练技巧分别在VOC数据集上训练YoloV3和FasterRCNN，分别有了3.43和3.55个mAP的提升效果。本方案中也使用了6个训练技巧中的部分，同时添加了一些自己精调网络的技巧。这里没有记录各个技巧的具体提升效果，但是亲测这些方法都能有效提升最后的结果。

微调预训练参数

卷积本身也就是一个特征提取器，浅层卷积提取的基本是图像的轮廓、边缘、纹理等特征，这对所有图像而言是通用的。在大型数据集上充分训练过的卷积具有更好的特征提取能力，所以利用预训练迁移可以大大减小训练的时间，使损失下降得更快，同时还能更容易找到最优空间。
学习率调整策略

学习率的变化决定了网络的优化时间和优化方向，初期网络搜索空间较大，如果学习率过大会导致损失发散，无法收敛到好的极值点。根据李沐大神的建议，在优化初期使用WarmUp策略，可以使初期网络训练更加稳定；在后期使用余弦衰减策略，不仅可以让学习率变化更加平滑，还能提供周期性变化的学习率，使网络跳出局部最优。
标签平滑

标签平滑其实是一种正则化策略，降低网络对标签置信度的依赖，这对有漏标、错标数据具有很好地适应性，而AI识虫数据集中似乎存在这种情况。
逐层精调，减少网络搜索空间

网络搜索空间越大，训练时间越久，优化难度越高。因此，通过预训练微调，然后再通过冻结网络层进行精调，可以减小网络的搜索空间，从而降低优化的难度。在YoloV3的优化中，主要分为了四个部分，分别是BackBone的特征提取器以及三个Yolo层分支，逐步训练并冻结这四个部分再进行精调，可以让网络得到很好地提升。亲测冻结第一个Yolo的route层之后，精调二三层的中等物体和小物体训练，可以将网络的mAP提升1.5~2左右。
数据增广的配合

数据增广效果是否具有实际意义对后期的网络精调也有一定的影响，如之前随机旋转的真实框问题，对网络精调会产生较大的负面影响；MixUp可能导致大量的重叠，同时减小了对应类别的置信度，后期可能会让损失产生较大波动。因此，在精调的时候注意调整数据增广的策略。
减小动量

目前深度学习的优化器大都具备动量自适应，但是在最后精调阶段，动量过大也许会让网络又跳出了最优区域，适度的减小动量参数，可以让后期网络缓慢的朝着更优的方向优化。
不要忘记验证集

深度学习，数据为王，更多的数据往往会为网络优化带来新的方向。当其他参数都已固定时，联合训练集和验证集进一步训练，让网络看见更多数据，进一步加强训练。

改进提升

结果分析

检测模型的处理基本结束，如果按照默认的NMS参数进行后处理，在测试集上能得到99.04的mAP，看上去效果已经非常不错了，在AI识虫比赛中也能拿到一个非常好的成绩了。但是，这并不是最终的目标，还需要对检测结果进一步分析，找到错误的原因。

默认的NMS主要包含三个参数——NMS的IOU阈值、置信度score_threshold阈值、最终保留的最多框个数阈值。其中第一个参数在同类别靠得很近的时候也会产生较大的IOU，因此这个阈值并不能说明问题。第二个置信度分数默认值是0.01，但是在调大该值的时候，会出现mAP瞬间下降的情况，这表明结果中有出现分类错误的情况，调高score_threshold，导致正确的类别被过滤，相同的框只保留了错误的类别，mAP自然就降低了。第三个参数keep_topk默认值是100，通过查看结果可以发现，同一个框保留了多个类别的结果，这表明分类置信度不够高，无法过滤掉得分稍低的类别；除此之外，通过显示检测结果，可以发现还存在一些冗余和重复的候选框。

因此，主要是三个原因导致mAP没有更高，分别是分类置信度低；存在分类错误；候选框冗余、重复。

改进方案

针对上述存在的三个问题，本方案中主要从三个方面进行改进。

第一，提高NMS的score_threshold，减小keep_topk。提高置信度可以让同一框附近只保留得分较高的类别，尽管存在分类错误，但是只要预测框是对的就还能补救；减小keep_topk其实跟提高置信度效果一致，都可以删除大量冗余的候选框，根据之前的数据分析结果，平均每张图的真实框个数在4-10个，平均为6个，因此这里保留两倍的真实框数量，大概在12-20左右即可，可以在这其中进行调整。

第二，添加分类矫正网络，修正分类结果。Yolo中需要同时兼顾分类和检测框，可能导致分类训练不充分，或者受其他因素影响，使得分类结果不准确。因此通过重新训练一个分类网络，可以矫正分类效果，提升分类置信度。

第三，通过改进NMS处理，合并冗余候选框，进一步过滤低置信度框。

分类矫正网络

这里选择的分类方法是由Momenta公司在2017年提出的Squeeze-and-Excitation Networks（SENet），它通过对特征通道间的相关性进行建模，把重要的特征进行强化来提升准确率。这个结构是2017 ILSVR竞赛的冠军，top5的错误率只有2.251%，比2016年的第一名还要低25%，可谓提升巨大。因此，这里选择SE-ResNet50作为分类的网络架构，提升YoloV3检测结果的分类准确率。

这里分类网络的输入是原始图片中裁剪的检测框小图，输出是对应虫子的类别以及相应的置信度。在训练阶段，使用AI识虫训练集的真实框裁剪作为输入，同时增加随机填充、随机裁剪、随机旋转、随机色彩等数据增广方式，充分考虑YoloV3检测框可能出现的结果，最终训练的分类模型在验证集上能达到99%接近100%的准确率。

通过分类网络对检测结果进行分类矫正之后，验证集的检测结果从95.30增长到了97.41，上升了2.11个mAP；而测试集的mAP从95.36增长到了95.58，上升了0.22个mAP。那么，分类网络处理完成之后，通过对结果的可视化，可以观察到，分类以及置信度效果相当好，但同类别iou高的框也特别多，因而影响了结果的评估。

改进NMS处理

根据可视化的检测结果，本方案对传统NMS方法进行了改进，主要包含一下三个步骤：

对于两个同类别的检测框：

如果 iou > 阈值，则使用两个检测框的外接矩形作为最终的框，同时使用得分高的置信度作为最终置信度；

如果 iou < 阈值，保留两个检测框。
重复步骤1，但是将 iou 计算方式更换，替换为两个框交集面积占两个框各自面积的比例之中大的一个，主要用于过滤大框包含小框的情况，不过需要将阈值调得尽量高一些，避免相隔较近重叠较高的框被过滤。
剔除得分过低的检测框。

将分类矫正的结果通过改进的NMS之后，验证集提升了2.53个mAP，测试集提升了4.41个mAP，整体达到了非常好的识别效果。

后记

本次AI识虫比赛前前后后经历了一个月，这也是我第一次正式做 CV 的比赛，心里非常紧张，总是怕自己做不好，所以几乎每一天都在训练，每一天都在改进。虽然最后只使用了简单的YoloV3作为检测器，但是期间我尝试过SSD、Faster-RCNN、RetinaNet、模型融合、多尺度测试等等各种方法，最后在考虑效率和优化难度上，选择了YoloV3。所幸最后也取得了很好地成绩，证明了自己的实力。这一个月的各种专注、探索、脑洞，也让我学习到了很多新的东西，这是课堂上老师教不会的，这是真正自己的东西。所以，很感谢AI识虫比赛，也很感谢课程的所有老师，同时也要感谢百度的PaddlePaddle、PaddleDetection等框架，可以让想法快速得到实现，也才能有我现在的成绩。
另外，AI识虫涉及的相关代码已在GitHub开源，欢迎有兴趣的小伙伴一起交流讨论。

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【目标检测数据集】番茄叶片病害数据集13940张9类VOC+YOLO格式熬夜写代码的平头哥∰ 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：13946标注数量(xml文件个数)：13946标注数量(txt文件个数)：13946标注类别数：9标注类别名称:["EarlyBlight","Healthy","LateBlight","LeafMiner","Le
[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2757标注数量(xml文件个数)：2757标注数量(txt文件个数)：2757标注类别数：4标注类别名称:["Platelets","RBC","WBC","sicklecell"]每个类别标注的框数：Platelet
目标检测YOLO系列从入门到精通技术详解100篇-【目标检测】工业相机格图素书数码相机目标检测人工智能
目录知识储备深度相机1TOF2双目视觉3结构光4智能门锁应用5手机应用算法原理相机的成像与标定模型相机标定的实施·标定过程的算法实施相机标定的扩展CCD工业相机、镜头倍率及相关参数计算方法知识储备深度相机1TOF1.1Kinectv2Kinectv2是Microsoft在2014年发售的，如图1-1所示。相比于Kinectv1在硬件和软件上作出了很大的进化，且在深度测量的系统和非系统误差方面表现出
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
目标检测-YOLOv3 wydxry 深度学习目标检测 YOLO 深度学习
YOLOv3介绍YOLOv3(YouOnlyLookOnce,Version3)是YOLO系列目标检测模型的第三个版本，相较于YOLOv2有了显著的改进和增强，尤其在检测速度和精度上表现优异。YOLOv3的设计目标是在保持高速的前提下提升检测的准确性和稳定性。下面是对YOLOv3改进和优势的介绍，以及YOLOv3核心部分的代码展示。相比YOLOv2的改进与优势多尺度特征金字塔YOLOv3引入了FP
SSD目标检测系统月见樽
首发于个人博客系统结构system.pngSSD识别系统也是一种单步物体识别系统，即将提取物体位置和判断物体类别融合在一起进行，其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出，还来自于神经网络的中间结果。该系统分为以下几个部分：神经网络部分：用作特征提取器，提取图像特征识别器：根据神经网络提取的特征，生成包含物品位置和类别信息的候选框（使用卷积实现）后处理：对识别器提取出的候选
深度学习目标检测入门COCO数据集日暮途远z 深度学习目标检测人工智能
常见数据集类型：COCO数据集：Pytorch加载COCO数据集：COCO数据集的读取COCO_dataset=torchvision.datasets.CocoDetection(root="./dataset/val2017",annFile="./instances_val2017/instances_val2017.json")root(strorpathlib.Path)–Rootdir
[数据集][目标检测]街道乱堆垃圾检测数据集VOC+YOLO格式94张1类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：94标注数量(xml文件个数)：94标注数量(txt文件个数)：94标注类别数：1标注类别名称:["baolu"]每个类别标注的框数：baolu框数=107总框数：107使用标注工具：labelImg标注规则：对类别进行
YOLOv8改进 | 检测头篇 | YOLOv8引入DynamicHead检测头小李学AI YOLOv8有效涨点专栏 YOLO 深度学习目标检测计算机视觉机器学习人工智能
1.DynamicHead描述1.1摘要：在目标检测中，定位和分类相结合的复杂性导致了各种方法的蓬勃发展。以往的工作试图提高各种目标检测头的性能，但未能呈现出统一的观点。本文根据目标检测的特点，推导了一种新的动态头部框架，将目标检测头部与注意力统一起来。该方法通过在特征层次间、空间位置间和输出通道内协调组合多种自注意机制，在不增加计算开销的情况下显著提高了目标检测头的表示能力。进一步的实验表明，本
目标检测-YOLOv1 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv1介绍YOLOv1（YouOnlyLookOnceversion1）是一种用于目标检测的深度学习算法，由JosephRedmon等人于2016年提出。它基于单个卷积神经网络，将目标检测任务转化为一个回归问题，通过在图像上划分网格并预测每个网格中是否包含目标以及目标的位置和类别来实现目标检测。YOLOv1的主要特点包括：快速的检测速度：相比于传统的目标检测算法，YOLOv1具有更快的检测速
[数据集][目标检测]人脸口罩佩戴目标检测数据集VOC+YOLO格式8068张3类别 FL1623863129 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：8068标注数量(xml文件个数)：8068标注数量(txt文件个数)：8068标注类别数：3标注类别名称:["face_with_mask","face_without_mask","mask"]每个类别标注的框数：f
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集_深度学习目标检测 YOLO 人工智能计算机视觉葡萄
葡萄检测-目标检测数据集（包括VOC格式、YOLO格式）数据集：链接：https://pan.baidu.com/s/1YMwAaSJc8H5SI0f8RVSidw?pwd=iygs提取码：iygs数据集信息介绍：共有1646张图像和一一对应的标注文件标注文件格式提供了两种，包括VOC格式的xml文件和YOLO格式的txt文件。标注的对象共有以下几种：[‘grape’]标注框的数量信息如下：（标注
OpenCV项目实战-深度学习去阴影-图像去阴影阿利同学 opencv 深度学习人工智能阴影去除图像去阴影
往期热门博客项目回顾：计算机视觉项目大集合改进的yolo目标检测-测距测速路径规划算法图像去雨去雾+目标检测+测距项目交通标志识别项目yolo系列-重磅yolov9界面-最新的yolo姿态识别-3d姿态识别深度学习小白学习路线//正文开始！图像去阴影算法旨在改善图像质量并恢复阴影下物体的真实颜色与亮度这对于许多计算机视觉任务如物体识别、跟踪以及增强现实等至关重要。以下是一些图像去阴影算法的基本概述
目标检测-YOLOv4 wydxry 深度学习目标检测 YOLO 目标跟踪
YOLOv4介绍YOLOv4是YOLO系列的第四个版本，继承了YOLOv3的高效性，并通过大量优化和改进，在目标检测任务中实现了更高的精度和速度。相比YOLOv3，YOLOv4在框架设计、特征提取、训练策略等方面进行了全面升级。它在保持实时检测的同时，显著提升了检测性能，尤其在复杂场景中的表现尤为出色。相比YOLOv3的改进与优势改进的Backbone(CSPDarknet-53)YOLOv4使用
[数据集][目标检测]井盖丢失未盖破损检测数据集VOC+YOLO格式2890张5类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2890标注数量(xml文件个数)：2890标注数量(txt文件个数)：2890标注类别数：5标注类别名称:["broke","circle","good","lose","uncovered"]每个类别标注的框数：br
YOLOv8改进更换轻量级网络结构学yolo的小白 Upgrade YOLOv8进阶 YOLO 目标检测深度学习
一、GhostNet论文论文地址：1911.11907.pdf(arxiv.org)二、GhostNet结构GhostNet是一种高效的目标检测网络，具有较低的计算复杂度和较高的准确性。该网络采用了轻量级的架构，可以在计算资源有限的设备上运行，并能够快速地实时检测图像中的目标物体。GhostNet基于MobileNetV3的设计思路，采用了Ghost模块来减少网络参数数量，从而减少计算量并提高模型
【Python】成功解决TypeError: list indices must be integers or slices, not str 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决TypeError:listindicesmustbeintegersorslices,notstr欢迎进入我的个人主页，我是高斯小哥！博主档案：广东某985本硕，SCI顶刊一作，深耕深度学习多年，熟练掌握PyTorch框架。技术专长：擅长处理各类深度学习任务，包括但不限于图像分类、图像重构(去雾\去模糊\修复)、目标检测、图像分割、人脸识别、多标签分类、重识别(行人\车辆
LeYOLO 用于目标检测的新型可扩展和高效CNN架构 | 最新轻量化SOTA! 5GFLOP下无对手！迪菲赫尔曼 YOLOv8改进实战目标检测 cnn 架构 pytorch 深度学习轻量化
本改进已集成到YOLOv8-Magic框架。论文地址：https://arxiv.org/pdf/2406.14239代码地址：https://github.com/LilianHollard/LeYOLO/tree/main在深度神经网络中，计算效率对于目标检测至关重要，尤其是在新型模型更倾向于速度而非计算效率（浮点运算次数，FLOP）的情况下。这种演变在一定程度上忽视了嵌入式和面向移动的AI目
Python 使用 Detectron2 进行目标检测 (Detectron2, CenterNet2, Detic) Eric Woo X Python AI Ubuntu python 目标检测开发语言
代码说明代码主要是一个用来演示如何使用Detectron2进行目标检测的脚本。它可以从摄像头或视频文件中读取图像，并应用指定的配置文件进行目标检测。其中，Detectron2结合了CenterNet2和Detic进行目标检测。主要库介绍Detectron2Detectron2是由FacebookAIResearch开发的一个用于目标检测和实例分割的开源库。它提供了一系列预训练模型和灵活的配置系统，
Transformer+目标检测，这一篇入门就够了 BIT可达鸭 ▶深度学习-计算机视觉 transformer 深度学习目标检测计算机视觉自然语言处理
VisionTransformerforObjectDetection本文作者：Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention机制：Multi-HeadAttention：Transformer结构：图像分类之ViT：图像分类之PyramidViT：目标检测之DETR：目标检测之DeformableDETR：本文作者：
目标检测-YOLOv2 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv2介绍YOLOv2（YouOnlyLookOnceversion2）是一种用于目标检测的深度学习模型，由JosephRedmon等人于2016年提出，并详细论述在其论文《YOLO9000:Better,Faster,Stronger》中。YOLOv2在保持高速检测的同时，显著提升了检测的精度和泛化能力，成为实时目标检测领域的重要算法之一。核心原理YOLOv2的核心原理是将目标检测问题转化
【计算机视觉前沿研究热点顶会】ECCV 2024中目标检测有关的论文平安顺遂事事如意顶刊顶会论文合集计算机视觉目标检测人工智能 3d 目标跟踪
整值训练和尖峰驱动推理脉冲神经网络用于高性能和节能的目标检测与人工神经网络(ANN)相比，脑激励的脉冲神经网络(SNN)具有生物合理性和低功耗的优势。由于SNN的性能较差，目前的应用仅限于简单的分类任务。在这项工作中，我们专注于弥合人工神经网络和神经网络在目标检测方面的性能差距。我们的设计围绕着网络架构和尖峰神经元。当行人检测遇到多模态学习时：通才模型和基准数据集近年来，利用不同传感器模态(如RG
目标检测——YOLOv8模型预测结果张飞飞飞飞飞目标检测 YOLO 人工智能
fromultralyticsimportYOLOmodel_path=r'/home/zhangh/project1/workproject/YOLOv8/ultralytics/runs/train/2024723_yolov8n5/weights/best.pt'img_path=r'worker_data/images/val/%E9%93%B2%E6%96%97%E5%9D%90%E4%
基于yolov8的口罩佩戴检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 python
【算法介绍】基于YOLOv8的口罩佩戴检测系统是一款利用深度学习技术，特别是YOLOv8算法，实现高效、准确检测人脸是否佩戴口罩的系统。YOLOv8作为YOLO系列算法的最新版本，在检测速度和准确性上进行了显著优化，能够实时处理图像和视频数据。该系统通过训练大量标注了人脸和口罩状态（包括戴口罩、未戴口罩）的图片数据，构建了一个强大的目标检测模型。在实际应用中，该系统可以部署在公共场所如机场、车站、
[数据集][目标检测]卫星遥感舰船检测数据集VOC+YOLO格式2238张17类别 FL1623863129 数据集目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2238标注数量(xml文件个数)：2238标注数量(txt文件个数)：2238标注类别数：17标注类别名称:[“AircraftCarrier”,“AuxiliaryShips”,“Cargo”,“Commander”
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &