Marcovaldo

YOLOv2 论文笔记

最近在看物体检测的论文，然后找到了这篇关于YOLO v2的翻译，里边还夹杂了很多博主的个人理解，边看论文边看这篇博客帮我搞明白了很多细节，所以转发一下。

博客原文地址为http://blog.csdn.net/jesse_mx/article/details/53925356

另外该博客中贴出的一个讲YOLO的PPT非常棒，地址是deepsystems.io:Illustration of YOLO

论文地址：YOLO9000: Better, Faster, Stronger
项目主页：YOLO: Real-Time Object Detection
Caffe实现：caffe-yolo9000

概述

时隔一年，YOLO（You Only Look Once: Unified, Real-Time Object Detection）从v1版本进化到了v2版本，作者在darknet主页先行一步放出源代码，论文在我们等候之下终于在12月25日发布出来，本文对论文重要部分进行了翻译理解工作，不一定完全对，如有疑问，欢迎讨论。博主如果有新的理解，也会更新文章。

新的YOLO版本论文全名叫“YOLO9000: Better, Faster, Stronger”，主要有两个大方面的改进：

第一，作者使用了一系列的方法对原来的YOLO多目标检测框架进行了改进，在保持原有速度的优势之下，精度上得以提升。VOC 2007数据集测试，67FPS下mAP达到76.8%，40FPS下mAP达到78.6%，基本上可以与Faster R-CNN和SSD一战。这一部分是本文主要关心的地方。

第二，作者提出了一种目标分类与检测的联合训练方法，通过这种方法，YOLO9000可以同时在COCO和ImageNet数据集中进行训练，训练后的模型可以实现多达9000种物体的实时检测。这一方面本文暂时不涉及，待后面有时间再补充。

回顾YOLOv1

YOLOv2始终是在v1版本上作出的改进，我们先简单回顾YOLOv1的检测步骤：

给个一个输入图像，首先将图像划分成7 * 7的网格。
对于每个网格，每个网格预测2个bouding box（每个box包含5个预测量）以及20个类别概率，总共输出7×7×（2*5+20）=1470个tensor。
根据上一步可以预测出7 * 7 * 2 = 98个目标窗口，然后根据阈值去除可能性比较低的目标窗口，再由NMS去除冗余窗口即可。

YOLOv1使用了end-to-end的回归方法，没有region proposal步骤，直接回归便完成了位置和类别的判定。种种原因使得YOLOv1在目标定位上不那么精准，直接导致YOLO的检测精度并不是很高。

YOLO检测原理参考推荐博客：论文阅读：You Only Look Once: Unified, Real-Time Object Detection

YOLOv2精度的改进（Better）

先来一个总览图，看看它到底用了多少技巧，以及这些技巧起了多少作用：

Batch Normalization

CNN在训练过程中网络每层输入的分布一直在改变, 会使训练过程难度加大，但可以通过normalize每层的输入解决这个问题。新的YOLO网络在每一个卷积层后添加batch normalization，通过这一方法，mAP获得了2%的提升。batch normalization 也有助于规范化模型，可以在舍弃dropout优化后依然不会过拟合。

High Resolution Classifier

目前的目标检测方法中，基本上都会使用ImageNet预训练过的模型（classifier）来提取特征，如果用的是AlexNet网络，那么输入图片会被resize到不足256 * 256，导致分辨率不够高，给检测带来困难。为此，新的YOLO网络把分辨率直接提升到了448 * 448，这也意味之原有的网络模型必须进行某种调整以适应新的分辨率输入。

对于YOLOv2，作者首先对分类网络（自定义的darknet）进行了fine tune，分辨率改成448 * 448，在ImageNet数据集上训练10轮（10 epochs），训练后的网络就可以适应高分辨率的输入了。然后，作者对检测网络部分（也就是后半部分）也进行fine tune。这样通过提升输入的分辨率，mAP获得了4%的提升。

Convolutional With Anchor Boxes

之前的YOLO利用全连接层的数据完成边框的预测，导致丢失较多的空间信息，定位不准。作者在这一版本中借鉴了Faster R-CNN中的anchor思想，回顾一下，anchor是RNP网络中的一个关键步骤，说的是在卷积特征图上进行滑窗操作，每一个中心可以预测9种不同大小的建议框。看到YOLOv2的这一借鉴，我只能说SSD的作者是有先见之明的。

为了引入anchor boxes来预测bounding boxes，作者在网络中果断去掉了全连接层。剩下的具体怎么操作呢？首先，作者去掉了后面的一个池化层以确保输出的卷积特征图有更高的分辨率。然后，通过缩减网络，让图片输入分辨率为 416×416 ，这一步的目的是为了让后面产生的卷积特征图宽高都为奇数，这样就可以产生一个center cell。作者观察到，大物体通常占据了图像的中间位置，就可以只用中心的一个cell来预测这些物体的位置，否则就要用中间的4个cell来进行预测，这个技巧可稍稍提升效率。最后，YOLOv2使用了卷积层降采样（factor为32），使得输入卷积网络的 416×416 图片最终得到 13×13 的卷积特征图（416/32=13）。

加入了anchor boxes后，可以预料到的结果是召回率上升，准确率下降。我们来计算一下，假设每个cell预测9个建议框，那么总共会预测 13×13×9=1521 个boxes，而之前的网络仅仅预测 7×7×2=98 个boxes。具体数据为：没有anchor boxes，模型recall为81%，mAP为69.5%；加入anchor boxes，模型recall为88%，mAP为69.2%。这样看来，准确率只有小幅度的下降，而召回率则提升了7%，说明可以通过进一步的工作来加强准确率，的确有改进空间。

Dimension Clusters（维度聚类）

作者在使用anchor的时候遇到了两个问题，第一个是anchor boxes的宽高维度往往是精选的先验框（hand-picked priors），虽说在训练过程中网络也会学习调整boxes的宽高维度，最终得到准确的bounding boxes。但是，如果一开始就选择了更好的、更有代表性的先验boxes维度，那么网络就更容易学到准确的预测位置。

和以前的精选boxes维度不同，作者使用了K-means聚类方法类训练bounding boxes，可以自动找到更好的boxes宽高维度。传统的K-means聚类方法使用的是欧氏距离函数，也就意味着较大的boxes会比较小的boxes产生更多的error，聚类结果可能会偏离。为此，作者采用的评判标准是IOU得分（也就是boxes之间的交集除以并集），这样的话，error就和box的尺度无关了，最终的距离函数为：

作者通过改进的K-means对训练集中的boxes进行了聚类，判别标准是平均IOU得分，聚类结果如下图：

可以看到，平衡复杂度和IOU之后，最终得到k值为5，意味着作者选择了5种大小的box维度来进行定位预测，这与手动精选的box维度不同。结果中扁长的框较少，而瘦高的框更多（这符合行人的特征），这种结论如不通过聚类实验恐怕是发现不了的。

当然，作者也做了实验来对比两种策略的优劣，如下图，使用聚类方法，仅仅5种boxes的召回率就和Faster R-CNN的9种相当。说明K-means方法的引入使得生成的boxes更具有代表性，为后面的检测任务提供了便利。

Direct location prediction（直接位置预测）

那么，作者在使用anchor boxes时发现的第二个问题就是：模型不稳定，尤其是在早期迭代的时候。大部分的不稳定现象出现在预测box的 (x,y) 坐标上了。在区域建议网络中，预测 (x,y) 以及 tx，ty 使用的是如下公式：

后来修改博文时，发现这个公式有误，作者应该是把加号写成了减号。理由如下，anchor的预测公式来自于Faster-RCNN，我们来看看人家是怎么写的：

公式中，符号的含义解释一下： x 是坐标预测值， xa 是anchor坐标（预设固定值）， x∗ 是坐标真实值（标注信息），其他变量 y ， w ， h 以此类推， t 变量是偏移量。然后把前两个公式变形，就可以得到正确的公式：

x = (t x * w a) + x a y = (t y * w a) + y a

这个公式的理解为：当预测 tx=1 ，就会把box向右边移动一定距离（具体为anchor box的宽度），预测 tx=−1 ，就会把box向左边移动相同的距离。

这个公式没有任何限制，使得无论在什么位置进行预测，任何anchor boxes可以在图像中任意一点结束（我的理解是， tx 没有数值限定，可能会出现anchor检测很远的目标box的情况，效率比较低。正确做法应该是每一个anchor只负责检测周围正负一个单位以内的目标box）。模型随机初始化后，需要花很长一段时间才能稳定预测敏感的物体位置。

在此，作者就没有采用预测直接的offset的方法，而使用了预测相对于grid cell的坐标位置的办法，作者又把ground truth限制在了0到1之间，利用logistic回归函数来进行这一限制。

现在，神经网络在特征图（13×13）的每个cell上预测5个bounding boxes（聚类得出的值），同时每一个bounding box预测5个坐值，分别为 tx , ty , tw , th , to ，其中前四个是坐标，to是置信度。如果这个cell距离图像左上角的边距为 (cx,cy) 以及该cell对应box（bounding box prior）的长和宽分别为 (pw,ph) ，那么预测值可以表示为：

这几个公式参考上面Faster-RCNN和YOLOv1的公式以及下图就比较容易理解。 tx , ty 经sigmod函数处理过，取值限定在了0~1，实际意义就是使anchor只负责周围的box，有利于提升效率和网络收敛。 σ 函数的意义没有给，但估计是把归一化值转化为图中真实值，使用 e 的幂函数是因为前面做了 ln 计算，因此 σ(tx) 是bounding box的中心相对栅格左上角的横坐标， σ(ty) 是纵坐标， σ(to) 是bounding box的confidence score。

定位预测值被归一化后，参数就更容易得到学习，模型就更稳定。作者使用Dimension Clusters和Direct location prediction这两项anchor boxes改进方法，mAP获得了5%的提升。

Fine-Grained Features（细粒度特征）

上述网络上的修改使YOLO最终在 13×13 的特征图上进行预测，虽然这足以胜任大尺度物体的检测，但是用上细粒度特征的话，这可能对小尺度的物体检测有帮助。Faser R-CNN和SSD都在不同层次的特征图上产生区域建议（SSD直接就可看得出来这一点），获得了多尺度的适应性。这里使用了一种不同的方法，简单添加了一个转移层（ passthrough layer），这一层要把浅层特征图（分辨率为 26×26 ，是底层分辨率4倍）连接到深层特征图。

这个转移层也就是把高低两种分辨率的特征图做了一次连结，连接方式是叠加特征到不同的通道而不是空间位置，类似于Resnet中的identity mappings（对Resnet这一机制几乎不懂，等看懂了再行补充）。这个方法把 26×26×512 的特征图连接到了 13×13×2048 的特征图，这个特征图与原来的特征相连接。YOLO的检测器使用的就是经过扩张的特征图，它可以拥有更好的细粒度特征，使得模型的性能获得了1%的提升。（这段理解的也不是很好，要看到网络结构图才能清楚）

Multi-Scale Training

原来的YOLO网络使用固定的 448×448 的图片作为输入，现在加入anchor boxes后，输入变成了 416×416 。目前的网络只用到了卷积层和池化层，那么就可以进行动态调整（意思是可检测任意大小图片）。作者希望YOLOv2具有不同尺寸图片的鲁棒性，因此在训练的时候也考虑了这一点。

不同于固定输入网络的图片尺寸的方法，作者在几次迭代后就会微调网络。没经过10次训练（10 epoch），就会随机选择新的图片尺寸。YOLO网络使用的降采样参数为32，那么就使用32的倍数进行尺度池化{320,352，…，608}。最终最小的尺寸为 320×320 ，最大的尺寸为 608×608 。接着按照输入尺寸调整网络进行训练。

这种机制使得网络可以更好地预测不同尺寸的图片，意味着同一个网络可以进行不同分辨率的检测任务，在小尺寸图片上YOLOv2运行更快，在速度和精度上达到了平衡。

在小尺寸图片检测中，YOLOv2成绩很好，输入为 228×228 的时候，帧率达到90FPS，mAP几乎和Faster R-CNN的水准相同。使得其在低性能GPU、高帧率视频、多路视频场景中更加适用。

在大尺寸图片检测中，YOLOv2达到了先进水平，VOC2007 上mAP为78.6%，仍然高于平均水准，下图是YOLOv2和其他网络的成绩对比：

Further Experiments

作者在VOC2012上对YOLOv2进行训练，下图是和其他方法的对比。YOLOv2精度达到了73.4%，并且速度更快。同时YOLOV2也在COCO上做了测试（IOU=0.5），也和Faster R-CNN、SSD作了成绩对比。总的来说，比上不足，比下有余。

YOLOv2速度的改进（Faster）

YOLO一向是速度和精度并重，作者为了改善检测速度，也作了一些相关工作。

大多数检测网络有赖于VGG-16作为特征提取部分，VGG-16的确是一个强大而准确的分类网络，但是复杂度有些冗余。 224×224 的图片进行一次前向传播，其卷积层就需要多达306.9亿次浮点数运算。

YOLOv2使用的是基于Googlenet的定制网络，比VGG-16更快，一次前向传播仅需85.2亿次运算。可是它的精度要略低于VGG-16，单张 224×224 取前五个预测概率的对比成绩为88%和90%（低一点点也是可以接受的）。

Darknet-19

YOLOv2使用了一个新的分类网络作为特征提取部分，参考了前人的先进经验，比如类似于VGG，作者使用了较多的 3×3 卷积核，在每一次池化操作后把通道数翻倍。借鉴了network in network的思想，网络使用了全局平均池化（global average pooling），把 1×1 的卷积核置于 3×3 的卷积核之间，用来压缩特征。也用了batch normalization（前面介绍过）稳定模型训练。

最终得出的基础模型就是Darknet-19，如下图，其包含19个卷积层、5个最大值池化层（maxpooling layers ），下图展示网络具体结构。Darknet-19运算次数为55.8亿次，imagenet图片分类top-1准确率72.9%，top-5准确率91.2%。

Training for classification

作者使用Darknet-19在标准1000类的ImageNet上训练了160次，用的随机梯度下降法，starting learning rate 为0.1，polynomial rate decay 为4，weight decay为0.0005 ，momentum 为0.9。训练的时候仍然使用了很多常见的数据扩充方法（data augmentation），包括random crops, rotations, and hue, saturation, and exposure shifts。（这些训练参数是基于darknet框架，和caffe不尽相同）

初始的 224×224 训练后，作者把分辨率上调到了 448×448 ，然后又训练了10次，学习率调整到了0.001。高分辨率下训练的分类网络在top-1准确率76.5%，top-5准确率93.3%。

Training for detection

分类网络训练完后，就该训练检测网络了，作者去掉了原网络最后一个卷积层，转而增加了三个 3×3×1024 的卷积层（可参考darknet中cfg文件），并且在每一个上述卷积层后面跟一个 1×1 的卷积层，输出维度是检测所需的数量。对于VOC数据集，预测5种boxes大小，每个box包含5个坐标值和20个类别，所以总共是 5×（5+20）=125 个输出维度。同时也添加了转移层（passthrough layer ），从最后那个 3×3×512 的卷积层连到倒数第二层，使模型有了细粒度特征。

作者的检测模型以0.001的初始学习率训练了160次，在60次和90次的时候，学习率减为原来的十分之一。其他的方面，weight decay为0.0005，momentum为0.9，依然使用了类似于Faster-RCNN和SSD的数据扩充（data augmentation）策略。

YOLOv2分类的改进（Stronger）

这一部分，作者使用联合训练方法，结合词向量树（wordtree）等方法，使YOLOv2的检测种类扩充到了上千种，具体内容待续。

总结和展望

作者大概说的是，之前的技术改进对检测任务很有帮助，在以后的工作中，可能会涉足弱监督方法用于图像分割。监督学习对于标记数据的要求很高，未来要考虑弱标记的技术，这将会极大扩充数据集，提升训练量。

扩展阅读：deepsystems.io:Illustration of YOLO

大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
大语言模型原理与工程实践：案例介绍 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：案例介绍作者：禅与计算机程序设计艺术近年来，随着深度学习技术的快速发展，大语言模型（LargeLanguageModel，LLM）在自然语言处理领域取得了突破性进展，展现出强大的文本生成、理解和推理能力。从智能对话到机器翻译，从代码生成到诗歌创作，LLM正在深刻地改变着我们与信息交互的方式，并为人工智能应用开拓了更广阔的空间。1.背景介绍1.1大语言模型的兴起大语言模型的
AI驱动电商搜索导购：技术创新与应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
文章标题《AI驱动电商搜索导购：技术创新与应用》关键词：人工智能，电商搜索导购，机器学习，深度学习，推荐系统，自然语言处理，个性化搜索，图像识别，应用案例，未来展望。摘要：本文旨在探讨人工智能（AI）在电商搜索导购领域的应用，分析其技术创新和实际应用案例，探讨AI驱动电商搜索导购的未来发展趋势。文章首先介绍了AI在电商搜索导购中的角色和优势，然后深入探讨了AI基础理论和搜索导购技术原理。接着，文章
JAVA中的ObjectOutputStream类程序研 java I/O java 后端 I/O 开发语言
ObjectOutputStream是Java中用于序列化对象的一种输出流，它可以将Java对象的状态信息转换为字节流，以便于存储或通过网络传输。序列化是将对象转换为字节流的过程，而反序列化则是将字节流恢复为对象的过程。本文将详细介绍ObjectOutputStream的原理、使用方法以及相关代码例子。一、ObjectOutputStream简介概述ObjectOutputStream是Java.
【机器学习实战入门】使用OpenCV进行性别和年龄检测精通代码大仙数据挖掘深度学习 python 机器学习 python opencv 数据挖掘人工智能
GenderandAgeDetectionPython项目首先，向您介绍用于此高级Python项目的性别和年龄检测中的术语：什么是计算机视觉？计算机视觉是一门让计算机能够像人类一样观察和识别数字图像和视频的学科。它面临的挑战大多源于对生物视觉有限的了解。计算机视觉涉及获取、处理、分析和理解数字图像，旨在从现实世界中提取高维数据，从而生成可用来做决策的符号或数值信息。该过程通常包括物体识别、视频跟踪
机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
#HarmonyOS篇：装饰器&LocalStorage&AppStorage 程序员xiaolibao HarmonyOS篇 harmonyos
@State装饰器：组件内状态父子Prop父子单向同步Link父子双向同步深层次响应ObservedObjectLink装饰器Observed装饰器使用场景：嵌套对象和数组中进行双向数据同步跨层ProvideProvideConsume跨层组件传递使用建议@State+@Prop组合方案：@Prop装饰器支持接收Object、class、string、number、boolean、enum类型，以
python--对象存储服务器赵钱孙李的赵 python学习记录者 python 服务器开发语言
目录对象存储服务器定义概念普及对象（Object）桶（Bucket）终端节点（Endpoint）访问域名知名的对象存储服务器提供商微软云Azure：MicrosoftAzureBlobStorage华为云OBS:阿里云OSS:腾讯云COSMinIO:AmazonS3(SimpleStorageService)GoogleCloudStorageIBMCloudObjectStorage具体代码使用
C#调用方法时的二义性解决方法 ttod_qzstudio C#Unity
如图中出现的错误：里面有三个名字为SetCurrentSelectableObject的方法，其中两个的参数都是引用对象，一个是SelectableObject类型，一个是string类型，这样导致引用出现了二义性，解决的办法就是对null进行强制转换，向下面这样写：SetCurrentSelectableObject((SelectableObject)null);
人工智能学习（一）之python入门 power-辰南大模型算法实战工程 python 数据库前端
一、引言在当今的软件开发领域，面向对象编程（Object-OrientedProgramming，OOP）已经成为一种主流的编程范式。Python作为一门功能强大且简洁易读的编程语言，对面向对象编程提供了非常完善的支持。无论是开发大型项目、构建数据科学应用，还是进行自动化脚本编写，理解和掌握Python面向对象编程都能让你更高效地完成任务。本文将带你快速入门Python面向对象编程，通过清晰的概念
Transformer架构原理详解：多头注意力（MultiHead Attention） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,多头注意力,Multi-HeadAttention,机器翻译,自然语言处理,深度学习1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展。传统的循环神经网络（RNN）在处理长序列数据时存在效率低下和梯度消失等问题。为了解决这些问题，谷歌于2017年提出了Transformer架构，并将其应用于机器翻译任务，取得了突破性的成果。Transformer的核心创
python md5加密_Python MD5加密实例详解 weixin_39870238 python md5加密
详解PythonMD5加密Python3下MD5加密#由于MD5模块在python3中被移除#在python3中使用hashlib模块进行md5操作importhashlib#待加密信息str='thisisamd5test.'#创建md5对象hl=hashlib.md5()#Tips#此处必须声明encode#若写法为hl.update(str)报错为：Unicode-objectsmustbe
AI 对程序员的冲击剖析程序员WANG 工具人工智能机器学习语言模型
摘要随着人工智能（AI）技术的飞速发展，其影响力已逐渐渗透到各个行业，程序员群体也面临着前所未有的冲击。本文深入探讨AI对程序员在编程工作模式、技能需求以及职业发展路径等方面带来的冲击，并分析程序员应对这些冲击的策略与方向，旨在为程序员在AI时代的职业发展提供参考。一、引言AI技术近年来取得了突破性进展，其在自然语言处理、机器学习、深度学习等领域的应用日益广泛。在软件开发领域，AI不再仅仅是辅助工
Lombok 在 IntelliJ IDEA 中的使用步骤阿乾之铭 intellij-idea java ide
Lombok是一个非常流行的Java库，它通过注解简化Java类的开发，特别是在处理POJO（PlainOldJavaObjects）类时，如生成getter、setter、toString等常用方法。Lombok在减少样板代码（boilerplatecode）方面非常有用。在IntelliJIDEA中使用Lombok插件，可以极大简化开发过程。1.安装Lombok插件要在IntelliJIDEA
clang和gcc对比三雷科技深入C++编程入门开发语言 c++c clang llvm gcc
clang和gcc对比一、基本概述二、背景与历史三、架构与模块化四、错误提示与静态分析五、性能与编译速度六、兼容性与多平台支持七、调试支持Clang和GCC都是广泛使用的C、C++编译器，它们各自具有独特的优势和特点，适用于不同的使用场景。以下是对两者的详细对比：一、基本概述ClangGCC定义一个C/C++、Objective-C/Objective-C++编程语言的编译器前端，采用底层虚拟机（
GCC支持Objective C的故事？Objective-C?GCC只能编译C语言吗?Objective-C 1.0和2.0有什么区别？程序员小迷编程语言小话ios 编译器 c语言 ios 开发语言 objective-c gcc msvc clang
GCC支持ObjectiveC的故事Objective-C主要由Stepstone公司的BradCox和TomLove在1980年左右发明。乔布斯离开苹果公司后成立了NeXTSTEP公司，买下了Objective-C语言的授权。GCC对Objective-C语言的支持是在1992年加入的，具体是在GCC1.3版本中首次引入的。GCC的后续版本继续改进了对Objective-C的支持，包括对Obje
在 PyTorch 训练中使用 `tqdm` 显示进度条 weixin_48705841 pytorch 人工智能 python
在PyTorch训练中使用tqdm显示进度条在深度学习的训练过程中，实时查看训练进度是非常重要的，它可以帮助我们更好地理解训练的效率，并及时调整模型或优化参数。使用tqdm库来为训练过程添加进度条是一个非常有效的方式，本文将介绍如何在PyTorch中结合tqdm来动态显示训练进度。1.安装tqdm库首先，如果你还没有安装tqdm，可以通过pip命令进行安装：pipinstalltqdmtqdm是一
【在 PyTorch 中使用 tqdm 显示训练进度条，并解决常见错误TypeError: ‘module‘ object is not callable】 weixin_48705841 人工智能
在PyTorch中使用tqdm显示训练进度条，并解决常见错误TypeError:'module'objectisnotcallable在进行深度学习模型训练时，尤其是在处理大规模数据时，实时了解训练过程中的进展是非常重要的。为了实现这一点，我们可以使用tqdm库，它可以非常方便地为你提供进度条显示。1.什么是tqdm？TQDM是一个快速、可扩展的Python进度条库。它可以用来显示迭代的进度，帮助
深度学习模型开发文档 Ares代码行者深度学习
深度学习模型开发文档1.简介2.深度学习模型开发流程3.数据准备3.1数据加载3.2数据可视化4.构建卷积神经网络(CNN)5.模型训练5.1定义损失函数和优化器5.2训练过程6.模型评估与优化6.1模型评估6.2超参数调优7.模型部署8.总结参考资料1.简介深度学习是人工智能的一个分支，利用多层神经网络从数据中提取特征并进行学习。它被广泛应用于图像识别、自然语言处理、语音识别等领域。本文将以构建
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
AttributeError: ‘NoneType‘ object has no attribute ‘xxx‘ Mad Soycat 常见BUG详见数据仓库大数据运维 centos linux
AttributeError:‘NoneType‘objecthasnoattribute‘xxx‘错误分析：AttributeError:'NoneType'objecthasnoattribute'xxx'AttributeError:'NoneType'objecthasnoattribute'xxx'错误通常出现在Python中，表示你尝试访问一个NoneType对象的属性或方法，但Non
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
深入面向对象 - 2 kdayjj966 python 开发语言
隐藏数据引入classCat(object):def__init__(self,new_name,new_age):self.name=new_nameself.age=new_agedefprint_info(self):print("我叫%s，今年%s了"%(self.name,self.age))#创建猫对象cat=Cat("波斯猫",4)#调用方法cat.print_info()#尝试修改
详解Python迭代器：轻松搞懂工作原理、用法和最佳实践 kdayjj966 python 开发语言
迭代器引入如果开发中有以下需求，如何解决？classStuSystem(object):"""学生管理系统"""def__init__(self):self.stus=[]defadd(self):"""添加一个新的学生:return:"""name=input("请输入新学生的姓名:")tel=input("请输入新学生的手机号:")address=input("请输入新学生的住址:")new_
安全运维：入侵检测与防御实战指南 Echo_Wish 让你快速入坑运维运维探秘安全运维
在当今的互联网时代，网络安全已经成为企业和个人都必须重视的关键问题之一。黑客攻击、恶意软件、数据泄露等威胁不断增加，而入侵检测和防御技术是保障信息系统安全的核心手段。本文将围绕如何通过入侵检测（IntrusionDetectionSystem,IDS）和防御技术来保护网络环境展开，结合实际代码示例，详细讲解实现原理与防御方案。1.什么是入侵检测与防御？入侵检测系统（IDS）是监控计算机网络或系统活
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
PyQt5页面跳转闪退问题解决丹123 开发语言 python qt5
逻辑描述：点击窗体login中的查询按钮，会出现sele窗体问题描述：点击查询之后，sele窗体闪退，刚出现就退出问题分析：直接在sele窗体中写main函数单独调用，是可以显示的，说明还是在调用过程中出现问题解决办法：在login中实例sele对象时，需要加self出现问题前的代码如下：注意defselect_act中的调用login.pyclassUi_mainWindow(object):d
error: libcublasLt.so.11: cannot open shared object file: No such file or directory/缺少libcublas.so查找鼾声鼾语 linux ubuntu 服务器 python can通讯方法
1,问题：gstnvtracker:Loadinglow-levellibat/opt/nvidia/deepstream/deepstream/lib/libnvds_nvmultiobjecttracker.sogstnvtracker:Failedtoopenlow-levellibat/opt/nvidia/deepstream/deepstream/lib/libnvds_nvmulti
Python中实现多层感知机（MLP）的深度学习模型 Echo_Wish Python 笔记从零开始学Python人工智能 python 深度学习开发语言
深度学习已经成为机器学习领域的一个热门话题，而多层感知机（MLP）是最基础的深度学习模型之一。在这篇教程中，我将向你展示如何使用Python来实现一个简单的MLP模型。什么是多层感知机（MLP）？多层感知机（MLP）是一种前馈神经网络，它包含一个输入层、一个或多个隐藏层以及一个输出层。每个层都由一系列的神经元组成，神经元之间通过权重连接。MLP能够学习输入数据的非线性特征，因此在复杂问题的建模中非
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多