diligent_321

理解yolo系列目标检测算法

文章目录

1. 目标检测算法发展史
2. yolo-v1

2.1 动机
2.2 优点
2.3 inference过程

3. yolo-v2

3.1 动机
3.2 tricks
3.3 anchors个数对比
3.4 Darknet-19
3.5 inference过程
3.6 YOLO9000

4. yolo-v3

4.1 动机
4.2 tricks
4.3 实验结果

5. 结论
6. 参考资料

在计算机视觉任务中，如果说做的最成熟的是图像识别领域，那么紧随其后的应该就是目标检测了。笔者接触目标检测也有一段时间了，用mobilenet_ssd算法做过手机端的实时目标检测，也用faster-rcnn做过服务器端的二维码检测，尽管一直都知道yolo的效果也很不错，但没抽出时间细细研究，最近刚好闲出空来，就把yolo系列算法论文细读了一遍，在思考的过程中，也使我对之前的知识点有了新的体会，这里一并记录下来，也希望能对读者有所帮助。

1. 目标检测算法发展史

这几年目标检测方面的文章很多，如果只是单纯地研究其中的某几个算法的话，可能会“一叶障目，不见泰山”，庆幸有网友整理了下面这张非常棒的图，按时间顺序罗列了比较经典的检测算法（附录中有列原图链接）。

说说对已经看过的算法的体会吧，

1) R-CNN，它的全称是"region based CNN"，显然，从名字可以看出，这种算法的CNN网络的输入是region。其实，最直接的想法应该是，从输入图像中选取所有尺度的regions，然后分别送到CNN网络中进行训练和测试，这种想法存在的问题是，不同尺度的regions，数量会达到指数级别，所以这种想法是行不通的。R-CNN则是在此基础上进行创新，使用了"selective search"的方法预筛选2k个最可能的regions，然后使用CNN网络提取特征，显然，一般来说，对于一幅图像，2k个目标是足够了的，从而使得CNN做目标检测成为了可能；

2) Fast R-CNN，从名字来看，它比R-CNN更快，快在哪里呢？并不是因为它把2k个regions减少了，而是因为它一次输入一整张图像，相对于R-CNN，它的计算量是原来的1/2k，所以名字上多了一个’Fast’；

3) Faster R-CNN，从名字来看，它比Fast R-CNN更快，那么它又是从什么角度做的优化呢？特征提取网络不变，只是把“ selective search”替换成了RPN。因为“ selective search”非常耗时，而RPN的小网络会比较快，虽然交替训练会直觉上比较困难，但是做inference的时候，整个网络的耗时，相对于改进前提升了10倍以上，所以作者称之“Faster”也当之无愧了，具体的对比数据参见下表，

　　这里顺便提及一下，R-CNN系列算法都属于“two-stage”的目标检测算法，为什么呢？其实，这里指的stage分别是 region proposals 和 prediction，显然，上面的3个方法都是要先生成proposals，然后预测这些proposals对应的边界框和目标类别，所以称之为“two-stage”。而Yolo和ssd算法因为不需要预先生成" region proposals"，所以我们称之为“one-stage”的目标检测算法。

2. yolo-v1

2.1 动机

尽管R-CNN系列算法每一版本的优化效果很明显，但是即便是Faster R-CNN也很难满足pc实时性的要求，为了提升算法inference速度，对Faster R-CNN继续改进已经很难了，必须开发一种全新的检测框架。

2.2 优点

a) “end-to-end”：输入一副原始图像，单一网络直接inference出目标位置；

b) Fast，可以满足pc上的实时性要求；

c) 效果鲁棒，从自然图像迁移到艺术等其他领域的图像时，效果也很好。

2.3 inference过程

yolo-v1把输入图像划分成了SxS 的网格，显然，每个网格代表了一个图像块，它的作用有两个：(1) 预测一个目标类别标签，(2) 预测出以当前网格为中心的所有可能的bounding boxes和这些boxes对应的打分。显然，前者关注的是当前网格对应的物体的标签，后者关注的是当前网格对应的所有可能物体的位置。为了得到当前网格对应的物体的位置，每个网格的信息会预测出B个bounding boxes。以下图为例进行解释，狗的“center”点落在了第5行第2列的格子上，那么在inference过程中，该网格则负责预测出狗的边框位置，自行车和汽车同理。这里顺便提及一下，如果有一只猫依偎在狗的身旁（这里假设是这样，现实中不太可能哈）,且猫的"center"点恰好也在这个网格中，那么yolo-v1只会预测出其中的一个目标，而忽略另外一者，这种情况被称为“dense object detection”。

　　理解了上面的例子，yolo-v1的整个inference过程就很好理解了，引用一下论文中给出的网络结构图，

给定任意一副输入图像，网络会先缩放到448x448的尺寸大小，然后经过中间的特征提取之后，最终得到7x7x30 的特征图，特征图的空间维度为7x7，每个像素对应着原图中的局部感受野，等价于将原图切分成了7x7的网格图，通道维度为什么是30呢？上文中提到，每个网格的信息会预测出B个bounding boxes，论文中取B=2，pascal voc检测数据集的类别数为20，所以通道维度为2*(4+1) + 20 = 30。
　　在inference阶段，每个网格会预测出B个bounding boxes，然后经过两步后处理得到最终的检测框，步骤一：设置阈值，只保留类概率高于阈值的bounding boxes，步骤二：nms去除重复的bounding boxes。

3. yolo-v2

3.1 动机

面对SSD的横空出世，上一代yolo处于劣势，为了在提升模型速度的同时，进一步提升效果，作者推出了第二代yolo结构，即yolo-v2。

3.2 tricks

在这一版中，Redmon使用了一些策略（包括自创和别人的），来提升模型效果，概括如下，

（1）在卷积层增加batch normalization，删除dropout层，mAP提升了2%；

（2）使用高分辨率的分类backbone。Yolo先用224x224的输入图像优化预训练模型参数，然后用448x448的输入图像finetune整个目标检测网络。而yolo-v2在预训练模型的基础上，先用448x448的输入图像finetune分类网络，再用448x448的输入图像finetune整个目标检测网络，mAP提升了4%；

（3）借鉴faster rcnn中的anchor boxes思想。yolo直接学习bounding box的四个点坐标，模型不好收敛。根据先验知识，通常目标检测任务中要学习的目标的尺寸都是确定的，不是随意的，所以引入anchor的概念有助于收敛。mAP从69.5降为69.2，recall从81%升为88%，也即“even the accuracy is slightly decreased but it increases the chances of detecting all the ground truth objects”。

（4）使用卷积层替换yolo中的全连接层；

（5）Fine-Grained Features，14x14的特征图已经丢失了细节的信息，所以基于该特征图识别小的目标，效果并不好，为了解决这个问题，作者采用了"passthrough"连接，即将不同尺度的特征在channel维度上进行concate，图结构如下，

（6）Anchors尺寸聚类。根据经验可知，在常见的目标检测任务中，ground truth boxes的尺寸并不是任意的，而是有规律的，往往只有固定的几种长宽比尺寸。为了使先验Anchors能尽可能好地覆盖训练集图片中的ground truth boxes，需要使用如k-means之类的聚类算法，对ground truth boxes做聚类。因为具体任务中对大目标和小目标一视同仁，赋予相同的权重，所以不能使用点坐标的欧式距离来衡量，而是应该使用IoU，图形解释可以参见右下图，

（7）Multi-Scale Training，因为yolo-v2去除了全连接结构，所以可以输入不同尺寸的图像，训练过程中输入不同分辨率的图像batch，等价于数据增强，使模型效果更鲁棒。

原论文中给出了效果提升的总结图，非常形象，最终的效果，在VOC2007测试集上，速度和精度同时碾压SSD512和Faster R-CNN。

在COCO数据集上，yolo-v2的效果略显逊色，具体的对比指标如下，

3.3 anchors个数对比

（1）Yolo网络：每个像素预测2个bounding box，因此总共有7x7x2=98个boxes；
（2）yolo-v2网络：boxes个数大于1000。

3.4 Darknet-19

在yolo-v2之前，大多数检测算法使用VGG-16网络作为backbone，yolo的backbone为Googlenet网络，Googlenet虽然比VGG-16快，但是在imagenet上的精度低于VGG-16。在yolo-v2中，作者提出了新的backbone，命名为Darknet-19，它的速度和精度均超过VGG-16，使用新的backbone，yolo-v2的网络结构图如下，

3.5 inference过程

在yolo中，每一个预测的bounding box对应一组坐标(x, y, w, h)和二分类打分confidence score(objectness)，每一个grid对应不同类别物体的打分，比如VOC数据集，则为20个class probabilities。在yolo-v2中有所不同，每一个预测的bounding box对应一组坐标(x, y, w, h)和二分类打分confidence score(objectness)和不同类别物体的打分，也即“move the class prediction from the cell level to the boundary box level”。读者可能会观察到，同SSD相比，yolo-v2的输出多了一个confidence score，说一点个人的理解，这里是借鉴了faster rcnn的思想，后者在RPN阶段输出一组坐标(x, y, w, h)和二分类打分confidence score，在第二阶段输出精修后的坐标(x, y, w, h)和不同类别物体的打分。yolo-v2作为单阶段的检测算法，把这3个结果同时输出。

3.6 YOLO9000

目标检测任务，由于标注的工作量较大，所以常见的公开数据集中目标类别数较少，比如VOC数据集有20类目标，coco数据集也只有80类目标。作者在本文中，创造性地结合了coco数据集和imagenet数据集训练模型的参数，从imagenet数据集中取了top-9000的类别，这里需要说明一下，Imagenet数据集有2.2w个类别，而图像分类公开赛ISLVRC使用的数据只是Imagenet的子集，为1000个类别。关于分类和检测数据集的组合具体细节，可以参看原论文。

4. yolo-v3

4.1 动机

近几年，目标检测的算法发展的非常快，新的目标检测算法RetinaNet已然超越了yolo-v2，为了进一步提升yolo系列算法的效果，作者推出了第三代yolo结构，即yolo-v3。

4.2 tricks

同Yolo-v2相比，在这一版中，Redmon做了如下改动，来提升模型效果，概括如下，

（1）class prediction。考虑到不同的标签之间可能会有交叠，比如行人和小孩两个标签，因此修改了softmax分类函数为多标签分类函数multi-sigmoid；

（2）引入其他作者提出的FPN结构。浅层feature map包含更多的细粒度信息，深层feature map包含更多的语义信息，通过组合细粒度信息和语义信息，模型对小目标也识别的更好；

（3）backbone。新的特征提取器，Darknet53；

4.3 实验结果

Pasval VOC数据集的评测指标是取阈值为0.5对应的mAP，数学符号为[email protected]。而对于COCO数据集的评测指标，数学符号为AP@[.5:.95]，“AP is the average over 10 IoU levels on 80 categories (AP@[.50:.05:.95]: start from 0.5 to 0.95 with a step size of 0.05)”。

如果使用新的指标，也即AP@[.5:.95]，yolo-v3超越SSD513，但不如Retinanet效果好，参见下图1。如果使用旧的目标检测指标，也即单单只看[email protected]，yolo-v3在速度和精度上完胜SSD513和Retinanet，参见下图2。

原因解释：正如论文中提到的那样，yolo-v3在IoU阈值增加时，性能指标AP会下降，其实之前的yolo-v2也有这个问题，这一点可以从上面的Table 5看出来，所以导致了[email protected]指标优于Retinanet，而AP@[.5:.95]低于Retinanet。

5. 结论

（1）精度：对于IoU要求不是很高的任务，比如王者荣耀中的目标检测，IoU>0.5就能满足后面的策略算法的要求，可以考虑使用yolo-v3，而不是SSD和Retinanet；

（2）速度：yolo-v3速度是SSD的3倍，是Retinanet的3.8倍；

（3）内存：yolo-v3模型的大小高于SSD，所以在移动端部署时，要考虑内存的限制；

6. 参考资料

https://medium.com/@jonathan_hui/real-time-object-detection-with-yolo-yolov2-28b1b93e2088（总结了yolo、yolo-v2和yolo-v3）
https://arxiv.org/abs/1506.02640（yolo）
https://arxiv.org/abs/1612.08242（yolo-v2）
https://arxiv.org/abs/1804.02767（yolo-v3）
https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e
https://github.com/hoya012/deep_learning_object_detection
https://medium.com/@jonathan_hui/map-mean-average-precision-for-object-detection-45c121a31173
https://github.com/rafaelpadilla/Object-Detection-Metrics#precision-x-recall-curve（解释了目标检测指标，超赞！！！）

你可能感兴趣的:(深度学习算法)

DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】 kay_545 YOLO11改进有效涨点 python 人工智能机器学习
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转本专栏所有程序均经过测试，可成功执行专栏地址：YOLO11入门+改进涨点——点击即可跳转欢迎订阅目录json2txt脚本xml2txttxt2json
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
benchmark和baseline的联系与区别 Lntano__y 人工智能深度学习机器学习
在深度学习算法中，benchmark（基准）和baseline（基线）是两个常用的概念，用于评估算法的性能和进行比较。尽管它们有一些相似之处，但它们在定义和使用上有一些区别。Benchmark（基准）：基准是指作为参考标准的一组算法或数据集，通常是在特定任务或领域中广泛接受的准则。基准的目标是提供一个衡量算法性能的标准，以便其他算法可以与之进行比较。基准可以是一种算法、一个数据集或者是两者的结合。
智能教育：DeepSeek在课堂管理中的应用与代码实现 Evaporator Core #DeepSeek快速入门系统架构设计师 Python开发经验 deepseek
课堂管理是教育领域的重要组成部分，它直接影响教学效果和学生的学习体验。随着人工智能技术的发展，DeepSeek正在通过其强大的算法和数据处理能力，推动课堂管理的智能化和高效化。本文将结合代码实现，深入探讨DeepSeek在课堂管理中的应用。一、智能课堂管理系统：从数据到实时监控智能课堂管理的核心在于通过实时监控学生的学习行为，提供及时的反馈和调整。DeepSeek通过深度学习算法，能够从课堂数据中
新一代 AI 软件Manus 将重新将AI市场大洗牌 CircuitWizard 人工智能
Manus是一家专注于手部追踪、虚拟现实（VR）和增强现实（AR）技术的公司，其新一代AI软件结合了先进的机器学习和计算机视觉技术，致力于提升人机交互的自然性和效率。以下是关于Manus新一代AI软件的详细介绍及其核心功能：1.核心技术与创新Manus的AI软件基于以下技术突破：高精度手部追踪：通过深度学习算法和摄像头/传感器数据，实时捕捉手部骨骼、关节和肌肉的细微动作，精度可达亚毫米级，支持复杂
基于YOLOv5的无人机农田监测系统实现与UI界面设计深度学习&目标检测实战项目 YOLO 无人机 ui 深度学习分类目标检测
一、引言随着无人机技术和深度学习算法的快速发展，农业领域逐渐引入了智能化监测手段。无人机农田监测结合了无人机的高空拍摄能力和计算机视觉技术，能够实时获取农田的图像数据，并对作物生长状态、病虫害检测、土地使用情况等进行智能分析。深度学习中的目标检测技术，如YOLOv5，能够帮助实现精准的农田监测，提供自动化的解决方案。在这篇博客中，我们将介绍如何利用YOLOv5进行无人机农田监测，如何使用图形用户界
体育数据分析：竞技表现优化与商业价值挖掘的技术范式 Tina0898 数据分析数据挖掘
体育数据分析作为一门交叉学科，正在重塑现代体育产业的发展轨迹。通过多源数据采集、机器学习建模和商业智能分析，体育数据分析已经形成了完整的技术体系和应用生态。本文将深入探讨体育数据分析的技术架构、应用场景和商业价值。一、数据采集与处理技术架构现代体育数据采集系统采用分布式架构，集成了计算机视觉、惯性测量单元(IMU)和生物电传感器等多模态数据源。计算机视觉系统通过高速摄像机和深度学习算法，可实现运动
深度学习算法模型：从原理到未来 YDH_AlwaysRunning 深度学习
近年来，人工智能（AI）技术以前所未有的速度改变着人类生活，而深度学习的崛起无疑是这场技术革命的核心驱动力。从手机中的语音助手到医学影像的智能诊断，从自动驾驶汽车到生成式AI创作的诗歌和画作，深度学习算法模型正逐渐渗透到社会的每个角落。本文将从基本原理出发，解析典型模型的运作机制，探讨其应用现状与发展趋势，带您全面认识这一改变世界的技术。一、深度学习的基本原理：让机器学会"思考"1.1神经网络的生
树莓集团现状最新进展：宜宾园区业务再添新篇树莓集团百度人工智能科技大数据媒体
树莓集团在不断发展的进程中，宜宾园区传来了最新进展，业务再添新篇。近期，树莓集团宜宾园区在人工智能领域取得了重大突破。园区内的研发团队成功研发出一款适用于工业检测的人工智能视觉系统。该系统利用深度学习算法，能够快速、准确地检测出工业产品表面的细微缺陷，检测精度比传统检测方法提高了30%。这一成果不仅提升了宜宾园区在智能制造领域的竞争力，还为当地的制造业企业提供了更先进的质量检测手段。目前，已有多家
智能教育：DeepSeek在个性化学习中的创新应用 Evaporator Core #DeepSeek快速入门系统架构设计师 DeepSeek进阶开发与应用聚类数据挖掘机器学习
教育是塑造未来的基石，而个性化学习则是现代教育的重要趋势。随着人工智能技术的飞速发展，教育领域正迎来一场深刻的变革。DeepSeek作为人工智能领域的领军者，正在通过其强大的技术能力，推动个性化学习的创新应用。一、个性化学习路径：从数据到洞察个性化学习的核心在于根据学生的学习数据，生成定制化的学习路径。DeepSeek通过深度学习算法，能够从海量的学习数据中提取关键信息，生成更加精准的学习建议。f
DeepSeek在地铁应急响应与处理中的具体实现方案，包括技术架构、功能实现和代码示例：人工智能专属驿站架构计算机视觉
以下是关于DeepSeek在地铁应急响应与处理中的具体实现方案，包括技术架构、功能实现和代码示例：1.事件检测与预警技术实现：视频监控与传感器数据融合：利用地铁站内的视频监控系统和传感器（如烟雾传感器、压力传感器）实时采集数据。通过深度学习算法（如目标检测和行为识别）对视频流进行分析，结合传感器数据，快速识别突发事件。自动警报触发：一旦检测到异常事件（如火灾、拥挤踩踏），系统立即通过预设的警报机制
AI 在未来相机领域的应用前景如何？程序员Android 人工智能数码相机智能电视
和你一起终身学习，这里是程序员Android人工智能（AI）在手机相机领域的应用已成为近年来技术创新的核心驱动力之一。随着计算摄影、深度学习算法和硬件加速技术的进步，AI正在重新定义手机摄影的可能性，并为未来带来更多颠覆性潜力。以下是AI在手机相机中的关键潜力方向及具体应用场景：经典好文推荐，通过阅读本文，您将收获以下知识点:1.计算摄影的深度进化多帧合成与超分辨率：AI通过分析多张连续拍摄的帧（
AI环境初识网络飞鸥 AI 人工智能
在搭建AI环境时，当前流行的技术涉及多个方面，包括开发框架、深度学习库、硬件支持以及具体的应用技术等。以下是一些主要的技术趋势和流行技术：一、开发框架与深度学习库TensorFlow：由谷歌开发的一个开源机器学习库，广泛用于研究和生产环境。它提供了强大的张量计算能力和灵活的架构，支持广泛的机器学习和深度学习算法。PyTorch：由Facebook推出，也是一个广受欢迎的开源机器学习库。PyTorc
金融大模型应用的机遇与挑战 Python程序员罗宾金融人工智能语言模型数据库自然语言处理
大模型本质特征大模型通常指大语言模型（LargeLanguageModel，LLM），是基于深度学习算法的自然语言处理技术，是通用大模型。大模型也在从单一自然语言处理模态向语音、图像等多模态大模型演进。目前国内外推出了众多的大模型，国内就不下上百款，也因此被称为“百模大战”或“千模大战”。但很多所谓的“大模型”仅是叫“大模型”而已，不管参数量多少，都不能称为真正的大模型。参数量是大模型的一个特征，
直播美颜SDK的底层技术解析：图像处理与深度学习的结合美狐美颜sdk 美颜API 直播美颜SDK 美颜SDK 图像处理深度学习人工智能美颜API 视频美颜SDK 直播美颜SDK 滤镜sdk
直播美颜SDK通过高效的图像处理技术和深度学习算法，使得用户在直播过程中可以获得更为自然、精致的美颜效果。本文将深入解析直播美颜SDK的底层技术，探讨图像处理与深度学习如何在这一领域实现完美结合，提升用户体验并推动行业创新。一、直播美颜SDK的基本概述图像处理是直播美颜SDK的核心技术之一，它主要负责对图像进行预处理、特征提取以及美颜效果的实时合成。在直播美颜SDK中，图像处理技术包含多个关键步骤
内容中台重构智能服务：人工智能技术驱动精准决策清风徐徐de来其他
内容概要现代企业数字化转型进程中，内容中台与人工智能技术的深度融合正在重构智能服务的基础架构。通过整合自然语言处理、知识图谱构建与深度学习算法三大技术模块，该架构实现了从数据采集到决策输出的全链路智能化。在数据层，系统可对接CRM、ERP等企业软件，通过标准化接口完成多源异构数据的实时清洗与结构化处理，例如某金融科技平台利用动态知识图谱技术，将分散的客户行为数据与市场情报进行语义关联，形成可解释的
DeepSeek原理介绍以及对网络安全行业的影响 AI拉呱 Deepseek 人工智能
大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，兼职硕士研究生导师；热爱机器学习和深度学习算法应用，深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖，拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验。曾辅导十几位非计算机学生转行到算法岗位就业。关注评审分享一起学习更多知识。1.DeepSeek公司介绍1.1DeepSeek是什么：wh
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
AI技术在音乐产品中有哪些应用场景？大数据人工智能音乐大数据
自动标注、平滑过渡、音乐鉴权、AI创作，当AI技术应用于音乐行业为人类的精神文化与娱乐生活带来便利和更多选择时，也是一件让人激动不已的事情。随着深度学习算法的出现、大数据和5G技术的成熟，AI人工智能已逐渐融入我们的生产生活中，在教育、医疗、政务办公、城市管理等多个方面发挥作用。随着AI技术在音乐行业研究及应用的深入，音乐人工智能已经不新鲜，很多新的应用和产品已经惊艳亮相。基于对于音乐技术及产品的
ocr智能票据识别系统|自动化票据识别集成方案 OCR_API 接口 ocr 自动化运维
在企业日常运营中，对大量票据实现数字化管理是一项耗时且容易出错的任务。随着技术的进步，OCR（光学字符识别）智能票据识别系统的出现为企业提供了一个高效、准确的解决方案，不仅简化了财务流程，还大幅提升了工作效率。一、什么是OCR智能票据识别系统？OCR智能票据识别系统是一种基于先进图像处理和深度学习算法的技术，能够自动从各类票据中提取关键信息，并将其转换为结构化数据。翔云发票识别系统可以应用于增值税
数字内容体验未来趋势：五大平台横向对比与深度解析清风徐徐de来其他
内容概要当前，企业数字化转型的核心战场正逐步向数字内容体验的精细化运营转移。随着用户行为碎片化与需求多元化趋势加剧，AI驱动的智能推荐系统、基于数据决策的动态优化能力，以及跨渠道的品牌一致性维护，已成为衡量内容平台竞争力的三大核心维度。本文将围绕这三大支柱，通过横向对比主流平台的技术架构与落地实践，揭示未来数字内容体验的演进方向。首先，AI驱动不仅改变了内容分发的效率，更通过深度学习算法实现用户行
一文带你了解人工智能：现状、应用、变革及未来展望空青726 人工智能 chatgpt ai 大数据机器学习深度学习创业创新
近年来，人工智能（AI）的发展势头迅猛，它已经渗透到了我们生活的方方面面。从智能手机的语音助手到自动驾驶汽车，从智能家居到医疗诊断，AI正在改变着我们的生活方式。本文将结合时事，为大家介绍当前人工智能的发展形势、在生活中的应用、人工智能的变革以及未来的发展方向。一、人工智能的发展形势1.深度学习：深度学习是当前AI领域的热门话题。通过模拟人脑神经元之间的相互作用，深度学习算法能够从大量数据中提取出
AI人工智能深度学习算法：在缺陷检测中的应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能深度学习算法：在缺陷检测中的应用1.背景介绍1.1缺陷检测的重要性在制造业中,产品质量是关键因素之一。缺陷检测是确保产品质量的重要环节,旨在及时发现并排除产品中的任何缺陷或异常。传统的人工目视检测方法不仅效率低下,而且容易出现疲劳导致的错误。因此,开发高效、准确的自动化缺陷检测系统已成为当务之急。1.2人工智能在缺陷检测中的作用随着深度学习技术的不断发展,人工智能(AI)已成为解决缺陷
基于深度学习的半导体检测与预测算法研究(二) 埃菲尔铁塔_CV算法深度学习人工智能神经网络 opencv 计算机视觉 python
摘要随着半导体行业的飞速发展，对生产过程中的检测和性能预测提出了更高要求。深度学习凭借其强大的数据处理和特征提取能力，在半导体领域展现出巨大的应用潜力。本文详细探讨了深度学习在半导体缺陷检测、工艺参数预测等方面的应用原理和方法，介绍了常见的深度学习模型如卷积神经网络（CNN）、循环神经网络（RNN）及其变体在半导体数据处理中的应用，分析了模型训练与优化的关键技术，并通过实际案例验证了深度学习算法在
计算机视觉国内外研究现状（综述）埃菲尔铁塔_CV算法计算机视觉
1.国内外研究进展1.2.1特征提取研究进展特征提取是图像处理的一个重要环节，是进行身份识别和行为识别的重要部分。近年来，针对不同特征的提取，国内外学者提出了许多特征提取算法，同样特征提取的效果大都不错。但是在复杂的猪舍环境中提取猪的特征还是比较困难的。下面针对几种目前常用的特征提取算法进行一些介绍。（1）传统的特征提取算法传统特征提取算法已经发展了很久，现阶段比较成熟，是深度学习算法出来之前研究
深度学习算法informer（时序预测）（一）（数据编码讲解）槑槑紫深度学习深度学习算法人工智能
前言：informer代码是在transformer代码基础上进行优化，请先了解transformer原理informer代码中数据编码包括三部分，位置编码、数据编码、时间编码目标：时序数据有7个特征，通过24个时间点（可以是年、月、日、时、分、秒）的数据预测未来1个时间点的数据一、位置编码1.pe不需要计算梯度，存放位置编码，形状为（max_len,d_model）2.若x的形状是（batch_
使用 DeepSeek 进行图像描述：多模态 AI 技术实践老大白菜人工智能 python 人工智能
使用DeepSeek进行图像描述：多模态AI技术实践背景介绍在当今的人工智能领域，多模态技术正在rapidly发展，为图像理解和描述提供了前所未有的可能性。本文将详细介绍如何使用DeepSeek的多模态模型来实现图像智能描述。技术原理多模态AI模型（如DeepSeek）能够同时处理图像和文本输入，通过深度学习算法理解图像内容，并生成准确、生动的自然语言描述。环境配置(.env)#SiliconFl
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他