weixin_48426415

图像识别—基于深度学习的交通标志识别

摘要

智能交通系统（ITS），包括无人驾驶汽车，尽管在道路上，但已逐渐成熟。如何消除各种环境因素的干扰，实现准确高效的交通标志检测与识别，是一个关键技术问题。然而，传统的视觉对象识别主要依赖于视觉特征提取，例如颜色和边缘，这具有局限性。卷积神经网络（CNN）被设计用于基于深度学习的视觉对象识别，它成功地克服了传统对象识别的缺点。在本文中，我们基于我们的交通标志识别（TSR）数据集实施了一项评估YOLOv5最新版本性能的实验，该实验通过与SSD（即单镜头多盒检测器）的全面比较，揭示了深度学习中的视觉对象识别模型如何适用于TSR，这是本文的目标。本项目中的实验使用了我们自己的数据集。根据实验结果，YOLOv5在以下方面达到了97.70%[email protected]对于所有类别，SSD在相同期限内获得90.14%的mAP。同时，在识别速度方面，YOLOv5也优于SSD。

1. 引言

近年来，随着人工智能（AI）的爆发，车辆辅助驾驶系统更新了以前的驾驶模式。通过获取实时路况信息，系统及时提醒驾驶员进行准确操作，从而防止因驾驶员疲劳导致的车祸。除了辅助驾驶系统，自动驾驶汽车的发展还需要从数字图像中快速准确地检测交通标志。

交通标志识别（TSR）是在给定特定分类的情况下，从数字图像或视频帧中检测交通标志的位置[25]。TSR方法基本上利用了交通标志的形状和颜色等视觉信息。然而，传统的TSR算法在实时测试中面临着缺点，例如容易受到驾驶条件的限制，包括照明、摄像机角度、障碍物、行驶速度等。实现多目标检测非常困难，因为识别速度慢，容易错过视觉目标[6]。

随着计算机硬件的不断改进，人工神经网络的局限性得到了很好的缓解，这使得机器学习进入了发展的黄金时期。深度学习是一种机器学习方法[7]。深度神经网络模型在处理信息时模拟我们人类大脑的神经结构。使用该神经网络模型从道路图像中提取有效特征比传统的TSR算法要好得多，这有可能提高算法的鲁棒性和通用性[22]。

TSR的研究成果不仅避免了交通事故，保护了驾驶员，而且有助于高效、准确地检查道路上的交通标志，从而减少了不必要的人力和资源。此外，它还为无人驾驶和辅助驾驶提供技术支持。因此，基于深度学习的研究工作具有巨大的意义，对我们的日常生活非常宝贵。

在本文中，我们主要研究如何实现基于深度学习的准确、实时的TSR模型。我们的贡献在于三个方面。首先，我们收集并增强样本图像，以形成我们的交通标志的新数据集，该数据集包含8个类别的2182幅图像。其次，关于YOLOv5的最新版本，我们实施了我们的实验，并基于我们的数据集评估了TSR性能。关键指标和参数为进一步探索和开发提供了一些重要参考。最后，我们对YOLOv5和SSD之间的TSR性能进行了详细的比较。我们还分析并证明了这两种深度学习模型的优缺点。

我们在第2节中回顾了文献，第3节描述了我们的方法。第4节展示了我们的结果。我们的结论和未来工作将在第5节中介绍。

2. 文献综述

TSR一直是近年来研究的热点。为此，研究了TSR以检测图像复杂场景中的交通标志区域和非交通标志区域，TSR旨在提取通过交通标志图案表示的特定特征[20]。现有的TSR方法基本上分为两类：一类基于传统方法，另一类与深度学习方法相关。

基于给定图像的颜色和形状的TSR方法的主要步骤是提取候选区域中包含的视觉信息，捕获和分割图像中的交通标志，并通过模式分类正确标记标志[21]。虽然TSR需要用于提高识别精度的颜色和形状信息。交通标志的照明变化或颜色褪色以及交通标志的变形和遮挡问题仍然是未解决的问题[14]。传统的机器学习方法通常选择特定的视觉特征，并利用这些特征对交通标志的类别进行分类。具体特征包括Haar样特征、HOG特征、SIFT特征等[3]。

传统的TSR方法基于模板匹配，需要提取和利用交通标志的不变和相似视觉特征，匹配算法用于模式分类。需要很好地指定这些方法的特征表示，这是一个难以精确描述视觉特征的问题，因为交通标志的变化[17，24]。

神经网络、贝叶斯分类器、随机森林和支持向量机（SVM）被用作分类器。然而，传统机器学习方法的性能取决于指定的特征，它们很容易丢失关键特征。此外，对于不同的分类器，需要相应的特征描述信息。因此，传统的机器学习方法具有局限性，它们的实时性能相对而言不具有可比性。

深度学习利用多层神经网络自动提取和学习视觉对象的特征，这对于图像处理具有优势[29]。CNN模型是TSR最流行的深度学习方法之一。TSR算法基于区域建议，也称为两阶段检测算法，其核心思想是选择性搜索[10]，其优点是检测和定位性能出色，但成本是大量计算和高性能计算硬件。

CNN模型封装了R-CNN、Fast R-CNN和Faster R-CNN。Faster R-CNN结合了边界框回归和对象分类，采用端到端的方法检测视觉对象，这不仅提高了对象检测的准确性，还提高了对象识别的速度。道路标志通常是从驾驶员的角度检测的，本文中，我们从卫星图像的角度来观察标志。在[24]中，对输入图像采用引导图像滤波，以去除图像伪影，如雾和霾。处理后的图像被导入到所提出的网络中用于模型训练。

同时，基于回归的TSR算法，也称为单级检测算法[1]。这种TSR算法消除了区域建议网络（RPN）的思想，直接在网络中进行回归和分类。你只看一次（YOLO）和单镜头多盒探测器（SSD）属于单级类别。

视觉目标检测包括两个任务，即分类和定位。在YOLO出现之前，这两项任务在视觉目标检测方面是不同的。在YOLO模型中，目标检测被简单地转换为回归问题。此外，YOLO遵循用于视觉对象检测的神经网络的端到端结构，该结构通过一个图像输入同时获得预测边界框的坐标、目标的置信度和目标所属类别的概率[18]。

2020年，发布了三个YOLO版本，即YOLOv4、YOLOv5和PP-YOLO[17，24]。YOLOv4发布时，它被认为是更快、更准确的实时对象检测模型，它继承了Darknet，并基于Microsoft COCO数据集获得了独特的平均精度（AP），同时基于特斯拉V100实现了快速检测速度。与YOLOv3相比，AP和FPS（即每秒帧数或视频帧速率）得到了有效改善。

YOLOv5于2020年发布。关于YOLOv5对TSR的性能的研究成果很少。然而，使用YOLOv5进行了检测苹果的实验，以与YOLOv3的性能进行比较[11]。实验结果表明YOLOv5的性能优于之前的模型。YOLOv5的检测精度提高了4.30%。此外，对苹果采摘进行了类似的实验[26]。通过比较YOLOv3和YOLOv4，改进YOLOv5s模型的可比结果分别为14.95%和4.74%，令人满意。

SSD是众所周知的，因为它已经被提出[16]。同时，SSD模型已经被改进并用于检测各个领域的视觉对象。最近，使用改进的SSD模型基于CTSD数据集实施了实验，结果精度达到94.40%，召回率达到92.60%[9]。此外，还对SSD和YOLOv2之间的交通标志识别进行了比较[4]。考虑了GTSRB数据集。总体而言，SSD的准确度比YOLOv2低21.00%，后者比SSD模型快16.00%。

3. 方法

3.1 YOLOv5

YOLO系列型号已更新至YOLOv5。视觉对象检测的准确性继续更新；回归一直是其核心思想。在这个实验中，我们将YOLOv5的最新版本作为NZ-TSR模型之一。YOLOv5算法的结构与YOLOv4非常相似。整个网络模型分为四个部分：输入、主干、颈部和预测层。图1中详细显示了YOLOv5的网络结构。

在输入部分，YOLOv5和YOLOv4都使用马赛克方法来增强输入数据。该算法需要将输入图像归一化为固定大小，图像的标准大小为608×608×3。此外，网络训练基于初始锚框，通过将其与实际注释框进行比较并迭代更新网络模型参数来获得预测框[23]。

主干部分包括聚焦模块和CSP模块[19]。聚焦模型的关键步骤是通过切片操作压缩输入图像的高度和宽度。拼接图像以将图像尺寸信息（即，宽度和高度）集成到信道信息中以增加输入信道。在CSP模块方面，YOLOv5中设计了CSP模块的两个分支，即CSP1_X和CSP2_X[13]。其中，CSP1_X模块主要用于骨干网络，CSP2_X主要用于颈部网络。

YOLOv5中的颈部模仿YOLOv4，采用FPN+PAN结构。特征金字塔网络（FPN）从上到下工作，并利用上采样操作来传递和融合信息，以获得预测的特征图[8]。相反，PAN（路径聚合网络）是从下到上的特征金字塔。

在预测部分，与YOLOv4不同，YOLOv5使用GIoU_Loss作为损失函数，这有效地解决了边界框不重合的问题[12]。

GIoU计算为

其中C表示任意边界框A和B的最小框，封闭A和B。之后，计算面积C的比率，并从A和B的IoU中减去。因此，GIoU损失推导为

图1 YOLOv5结构示意图

3.2 SSD

第一部分是基本特征提取网络，该网络采用无dropout层、FC8和softmax分类层的VGG-16网络。它将普通VGG网络中的全连接层FC6和FC7替换为卷积层Conv6和Conv7[16]。第二部分新增了Conv8、Conv9、Conv10、Conv11四个卷积层。每个卷积层利用1 × 1卷积核进行降维，然后利用3 × 3卷积核进行特征提取[27]。

SSD模型的损失函数由定位损失(Lloc)和置信度损失(Lconf)[5]两部分组成。整个损失函数是局部化损失和置信度损失的加权和，如式(3)所示。

图2 SSD网络结构图

其中N表示预测框中的正实例数，c为预测分类的置信度，l为使用所提模型的预测框，g为grand truth的标记框，α为定位损失和置信度损失[28]的权重系数。

置信度损失函数(Lconf) 采用softmax 损失[2]，输入是每个分类c的置信度，Lconf在公式(4)中表示。

定位损失函数(Lloc)采用平滑L1损失[28]作为预测框(l)的参数，标记框(g)为grand truth。它还包括中心坐标位置(x, y)，宽度w和高度h。所以 Lloc计算如式(6)所示。

其中为与默认检测框相关的标记框偏移量，为模型输出的预测框。因此，SSD模型输出的预测盒并不是预测盒的直接坐标，而是预测盒的偏移量与检测盒有关。

4 实验

4.1 数据收集

在本次实验中，我们选取了8类具有较高认知度和重要安全意义的交通标志。由于道路上的交通标志稀少，我们收集的是交通标志图像而不是驾驶视频。我们把他们分成两组，这两组都是用我们的手机摄像头从我们城市的街道上拍摄的。

我们的数据集由2182张交通标志图像组成，这些图像被标记为“禁止掉头”(271张图像)，“道路颠簸”(329张图像)，“道路工程”(294张图像)，“注意儿童穿越”(176张图像)，“前方人行横道”(313张图像)，“让路”(317张图像)，“停止”(286张图像)和“禁止进入”(196张图像)，如表1所示。

4.2 数据集增强

对于我们数据集中的原始数据，一些图像是在景观视图中捕获的。首先，我们使用JPEG autootate软件将图像旋转到人像方向。在此之后，由于超高清图像的训练时间太长，我们在保持相同的宽高比的情况下调整了图像的大小。因此，我们将数据集中的所有图像归一化为1128 × 2016和1536 × 2048。

YOLOv5中用于模型训练的图像注释需要标签信息。在本文中，我们使用了标签工具Labellmg。特别是，我们需要转换适合YOLO的格式，因为默认格式是为PascalVOC设计的。每个标签由五个参数组成:分类指数、中心点坐标(x, y)、宽度w, w≥x≥1和高度h, h≥y≥1。一旦所有标签工作完成，我们将数据集中的所有图像按8:2的比例分组为训练测试集和测试数据集。我们将图像和相应的注释文件分别放入文件夹中。

表1 我们的数据集概要

与YOLOv5相比，SSD模型中用于训练的数据集需要VOC2007格式。因此，在Labellmg中，我们采用了默认格式。图像标签信息以.xml文件的形式存储在指定的文件夹中。xml文件包含标签类、坐标、宽度和高度。正式的VOC2007数据集包括注解文件夹、ImageSets文件夹、JPEGImages文件夹、SegmentationClass文件夹和SegmentationObject文件夹。

对于我们实验中的SSD数据集，我们定义训练-验证数据集的样本数为总样本数的80.00%，测试数据集的样本数为20.00%，训练数据集和验证数据集的样本数分别为64.00%和16.00%。

4.3 实现

为了基于我们自己的数据集，使用YOLOv5和SSD实现TSR实验，我们使用了具有强大GPU支持的谷歌协作实验室(Colab)平台。我们的软硬件关键配置以及实验参数如表2所示。

一旦实验环境完全设置好，我们需要将谷歌Drive挂载到Colab并访问准备好的数据集。实验参数YOLOv5为图3(a)左侧所示，SSD为图3(b)右侧所示。

4.4 实验结果

YOLOv5模型在结果中具有良好的可视化功能。首先，我们可视化地显示其对我们数据集的最终识别结果，如图5所示。从图4可以看出，我们YOLOv5实验中观测到的TSR值非常准确。

在表3中，我们声明了“Road bump”，“Cross walk”，“Give way”，a和“No entry”的精度。“无u型转弯”获得的最低精度为0.94。在查全率方面，有近8个类的查全率都在90.00%以上，这表明YOLOv5在我们的数据集中具有良好的TSR性能。因此，毫无疑问，对于平均平均精度，“No U-turn”获得高达99.50%，其他类别都在97.00%左右。这表明YOLOv5模型能够在我们的数据集中实现对NZ-TSR的完全准确的预测。

最后，我们数据集中YOLOv5的所有具体评价指标如图5所示。其中，第二列和第三列分别是视觉目标检测和分类的训练数据集和验证数据集的损失函数的平均值。该值越小，模型的识别性能越好。

表2 实验的关键配置和环境参数

图3 YOLOv5与SSD实验参数(a) YOLOv5 (b) SSD

通常，评价实验结果最方便、最直接的方法是准确性。在本文中，我们使用PR曲线来演示模型的TSR性能的精确率和召回率之间的权衡。

在图6中，我们看到SSD实验中八个类的[email protected]结果。总体而言，几乎所有类别的TSR准确率均接近90.00%。其中，“Give way”的TSR性能最好，最终平均精度高达97.06%。但是，“注意儿童过马路”的平均精度很低，只有78.32%。其原因是该特定类的实例数量比其他类要少。

SSD所有实验结果汇总如表4所示。结果表明，SSD模型除“观察儿童穿越”外，具有较好的结果。换句话说，对于SSD模型，数据集包含的实例越多，预测就越准确。

4.5 比较

在我们的数据集中对YOLOv5和SSD进行综合比较后，我们直观地看到YOLOv5和SSD得到的所有八个类的平均精度分别为0.98和0.90。从各类的准确率来看，YOLOv5的实验结果除“Road works”外均优于SSD。当检测量较大时，YOLOv5对“禁止掉头”、“注意儿童过路”和“让路”的检测效果显著，达到0.99，接近100.00%的检出率。在SSD实验中，“Road works”的识别精度最高，为0.98。在样本量较少的“儿童过路警戒”中，精度仅为0.78。最后，在我们数据集的TSR精度方面，YOLOv5和SSD都表现出了很好的能力，但YOLOv5表现得更好一些。

对于TSR效率，在测试数据集中相同数量的图像下，YOLOv5仅花费15 s，而SSD需要129 s。YOLOv5的TSR速度为30帧/秒，比SSD的3.49帧/秒快了近10倍。因此，YOLOv5在TSR效率方面也优于SSD。

图4 YOLOv5的TSR结果

表3 数据集YOLOv5实验结果

5 结论和未来工作

本项目旨在探讨基于交通标志数据集的TSR的准确性和速度。因此，在本文中，我们选择了YOLO系列算法的最新版本YOLOv5来评估其性能。此外，我们还确定了YOLOv5和SSD之间哪个型号更适合TSR。在本实验中，我们采用自定义的交通标志数据集，包含2182张交通标志图像，包括8类。然后，我们在具有很强计算能力的谷歌Colab平台上实现了一个精心设计的实验。此外，我们还通过使用我们的评估指标来分析和比较两个模型的性能。

图5 :我们数据集中YOLOv5的所有具体评价指标

图6 SSD实验中8个类别的精度-召回曲线

表4 我们数据集的SSD实验结果

从实验结果来看，YOLOv5算法对所有类别的准确率均达到97.70%，每个类别的平均准确率均超过90.00%。因此，SSD的总体精度为90.14%。但对于样本较少的类，其识别率仅为78.32%。因此，YOLOv5在识别精度上优于SSD。此外，从识别速度来看，YOLOv5比SSD快30帧/秒，SSD只有3.49帧/秒。我们认为YOLOv5更适合实时交通环境下的TSR。

未来，我们会继续扩展我们的数据集，以涵盖所有类别的交通标志。同时，更多的新开发的视觉目标识别模型，如Mask R-CNN, CapsNet和Siamese神经网络。利用胶囊神经网络(CapsNet)对一类具有空间关系的交通标志进行了有效识别。与众所周知的深度神经网络相比，胶囊网络处理视觉对象之间的拓扑关系。此外，在未来的[15]中，我们将采用专业的评估指标，从多个方面评估我们的模型的性能。

水下目标检测：突破与创新加油吧zkf 目标跟踪人工智能计算机视觉
水下目标检测技术背景水下环境带来独特挑战：光线衰减导致对比度降低，散射引发图像模糊，色偏使颜色失真。动态水流造成目标形变，小目标（如10×10像素海胆）检测困难。声呐与光学数据融合可提升精度，但多模态对齐仍是技术难点。核心算法实现要点图像预处理直方图均衡化与Retinex算法结合改善对比度和色偏：defsingle_scale_retinex(img,sigma):retinex=np.log10
Midjourney：AI人工智能图像生成的新方向 AI智能探索者人工智能 midjourney 计算机视觉 ai
Midjourney：AI人工智能图像生成的新方向关键词：Midjourney、AI图像生成、扩散模型、提示词工程、多模态学习、生成式AI、创意工具摘要：本文将带您走进AI图像生成的前沿领域，以Midjourney为核心，从技术原理到实际应用，用通俗易懂的语言解析其背后的“魔法”。我们将通过生活案例、技术拆解和实战演示，揭示Midjourney如何通过扩散模型、提示词工程和多模态学习，重新定义“用
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
探索AI人工智能领域多智能体系统的技术原理 AI大模型应用之禅人工智能网络 ai
探索AI人工智能领域多智能体系统的技术原理关键词：AI人工智能、多智能体系统、技术原理、智能体交互、分布式计算摘要：本文深入探索了AI人工智能领域多智能体系统的技术原理。首先介绍了多智能体系统的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了多智能体系统的核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。详细讲解了核心算法原理，结合Python源代码进行说明，并给出了相关
YOLOv11 改进策略 | GFPN：超越 BiFPN，跳层与跨尺度连接重塑特征金字塔
YOLOv11改进策略|GFPN：超越BiFPN，跳层与跨尺度连接重塑特征金字塔！介绍颈部网络（Neck）在目标检测任务中扮演着至关重要的角色，它负责有效地融合来自骨干网络（Backbone）不同层级的特征图，为检测头部（Head）提供包含丰富语义和空间信息的多尺度特征。FPN、PANet和BiFPN等结构是特征金字塔融合的代表。BiFPN作为其中的佼佼者，通过双向连接和加权融合取得了优异的性能。
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
重塑知识的圣殿：人工智能时代的教育革命与人文守护田园Coder 人工智能科普人工智能科普
教育，承载着文明火种传递的千年使命，其核心始终围绕两个永恒命题：如何让知识更有效地被获取？如何让个体潜能更充分地绽放？在信息爆炸、技能迭代加速的当代，传统教育模式——标准化课程、统一进度、有限师资、资源不均——正面临前所未有的压力。人工智能（AI）的崛起，如同一股强大的变革洪流，正以前所未有的深度和广度渗透教育生态的各个环节。从量身定制的学习路径到永不疲倦的智能导师，从虚拟现实的沉浸课堂到洞察学情
踏入真实：具身智能与物理世界的认知交响
当大型语言模型在文本的海洋中纵横捭阖，生成式AI在数字画布上挥洒创意时，人工智能仍有一个根本性的疆域尚未完全征服——真实的三维物理世界。理解一个苹果，不能仅靠词向量坐标；学会行走，无法通过阅读说明书达成；在拥挤的街道导航，远非处理符号逻辑那般简单。智能的进化，自生命诞生之初，便与具身性（Embodiment）和环境交互（Interaction）密不可分。我们的认知、学习、乃至意识的雏形，都源于身体
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
超详细yolov8/11-segment实例分割全流程概述：配置环境、数据标注、训练、验证/预测、onnx部署(c++/python)详解
因为yolo的检测/分割/姿态/旋转/分类模型的环境配置、训练、推理预测等命令非常类似，这里不再详细叙述，主要参考**【YOLOv8/11-detect目标检测全流程教程】**，下面有相关链接，这里主要针对数据标注、格式转换、模型部署等不同细节部分；【YOLOv8/11-detect目标检测全流程教程】超详细yolo8/11-detect目标检测全流程概述：配置环境、数据标注、训练、验证/预测、o
创新引入HAttention模块：提升YOLOv8小目标检测精度【YOLOv8】程序员Gloria YOLOv8 YOLO 目标跟踪人工智能目标检测
文章目录创新引入HAttention模块：提升YOLOv8小目标检测精度【YOLOv8】引言1.YOLOv8模型概述1.1YOLOv8架构1.2YOLOv8小目标检测的挑战2.HAttention模块：原理与设计2.1HAttention模块的动机2.2HAttention模块的结构3.HAttention模块在YOLOv8中的应用3.1引入HAttention模块3.2YOLOv8架构修改3.3
使用 C++/OpenCV 和 MFCC 构建双重认证智能门禁系统
使用C++/OpenCV和MFCC构建双重认证智能门禁系统引言随着物联网和人工智能技术的发展，智能门禁系统在安防领域的应用越来越广泛。相比于传统的钥匙、门禁卡或密码，生物识别技术（如人脸识别、指纹识别、虹膜识别等）提供了更高的安全性与便利性。然而，单一的生物识别方式在某些场景下可能存在安全隐患。例如，人脸识别可能被高清照片或视频欺骗（称为“欺骗攻击”），在光照、姿态变化剧烈时识别率也可能下降。为了
PHP接单涨薪系列（九）之计算机视觉实战：PHP+Stable Diffusion接单指南（2025高溢价秘籍）攻城狮凌霄 PHP PHP接单涨薪 AI php 计算机视觉 stable diffusion
案例场景某电商公司使用本方案后，产品图制作成本降低90%，广告转化率提升35%，单月节省设计费用超¥80,000。本文将彻底解密如何用PHP+AI视觉技术接取高单价设计外包，让你在竞争激烈的市场中脱颖而出！一、视觉设计市场的AI革命1.1传统设计vsAI设计设计任务传统流程AI流程需求沟通初稿设计反复修改最终交付AI生成微调即时交付2025年设计市场数据对比：指标传统设计AI设计提升幅度单图制作时
YOLOv11深度解析：Ultralytics新一代目标检测架构创新与实战指南芯作者 D2:YOLO YOLO 神经网络计算机视觉
2024年Ultralytics重磅推出YOLOv11**：在精度与速度的平衡木上再进一步，参数减少22%，推理速度提升2%，多任务支持全面升级！一、YOLOv11核心创新：轻量化与注意力机制的完美融合YOLOv11并非颠覆性重构，而是通过模块级优化实现“少参数、高精度、快推理”的目标。其三大创新点如下：1.1C3k2模块：动态卷积核的灵活设计取代YOLOv8的C2f模块，C3k2通过参数c3k动
SurveyForge：AI自动撰写综述论文的革命性工具，助力科研效率跃升花生糖@ AIGC学习资料库人工智能 AI论文 AI助手
在学术研究领域，综述论文（SurveyPaper）的撰写是一项耗时且复杂的任务，通常需要数周甚至数月的文献调研与内容整合。如今，上海人工智能实验室、复旦大学与上海交通大学联合开源的SurveyForge，通过创新的AI技术，将这一过程压缩至10分钟内，且生成质量接近人工水平，成为科研人员的得力助手。项目简介SurveyForge是一款基于大语言模型（LLM）的自动综述论文生成工具，专为计算机科学领
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
【python深度学习】DAY 51 复习日抽风的雨610 【打卡】Python训练营 python 深度学习开发语言
作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高1.读取数据使用CIFAR-10图像数据importtorchfromtorchvisionimportdatasets,transforms#数据预处理transform=transforms.Compose([transforms.ToTensor(),transforms.
用Python解锁图像处理之力：从基础到智能应用的深度探索熊猫钓鱼>_> python 图像处理开发语言
在像素构成的数字世界里，Python已成为解码图像奥秘的核心引擎。一、为何选择Python处理图像？超越工具的本质思考当人们谈论图像处理时，往往会陷入工具对比的漩涡（PythonvsMATLABvsC++）。但Python的真正价值在于其构建的完整生态闭环：科学计算基石：NumPy的ndarray结构完美对应图像的多维矩阵本质算法实现自由：从传统算子到深度学习模型的无缝衔接可视化即战力：Matpl
面向高校的人工智能通识教育课程实验设计方案武汉唯众智创人工智能人工智能通识教育课程实验人工智能通识教育人工智能通识课程人工智能通识
一、前言2018年，教育部发布《高等学校人工智能创新行动计划》，明确提出“重视人工智能与计算机、控制、数学、统计学、物理学、生物学、心理学、社会学、法学等学科专业教育的交叉融合，探索‘人工智能+X’的人才培养模式”。过去，人工智能教育多集中于研究生阶段，本科生接触机会相对有限。2019年，教育部批准35所高校增设“人工智能”本科专业，这标志着人工智能正式纳入本科教育体系。如今，人工智能课程大多是计
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
深度学习数据集加载 Ethan@LM 深度学习人工智能
数据集结构E:\Mytest\test20250622\pythonProject\dataset├──rose│├──rose1.jpg│├──rose2.jpg│└──...└──sunflower├──sunflower1.jpg├──sunflower2.jpg└──...主要只有的两个类fromtorch.utils.dataimportDatasetfromtorchvisionimp
纹理贴图算法研究论文综述点云SLAM 算法图形图像处理算法纹理贴图计算机图形学计算机视觉人工智能虚拟现实（VR）纹理贴图算法综述
纹理贴图（TextureMapping）是计算机图形学和计算机视觉中的核心技术，广泛应用于三维重建、游戏渲染、虚拟现实（VR）、增强现实（AR）等领域。对其算法的研究涵盖了纹理生成、映射、缝合、优化等多个方面。1.引言纹理贴图是指将二维图像纹理映射到三维几何表面上，以增强模型的视觉真实感。传统方法主要关注静态几何模型上的纹理生成与映射，而近年来，随着多视角图像重建、RGB-D扫描、神经渲染的发展，
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南周情津Raymond
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南tvm-cnTVMDocumentationinChineseSimplified/TVM中文文档项目地址:https://gitcode.com/gh_mirrors/tv/tvm-cn前言在深度学习模型部署领域，TVM作为一个高效的深度学习编译器栈，能够将训练好的模型优化并部署到各种硬件平台上。本文将详细介绍如何使用T
SpringBoot电商项目实战：从零搭建百万级架构
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot电商项目实战：从
ConvNeXT：面向 2020 年代的卷积神经网络
摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。然而，vanillaViT在应用于目标检测、语义分割等通用计算机视觉任务时面临困难。HierarchicalTransformer（如SwinTransformer）重新引入了若干ConvNet的先验知识，使Transformer成为实用的通用视觉
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end