wtrnash

YOLO v2论文理解

文章目录

1 介绍
2 改进措施

2.1 批量归一化
2.2 高分辨率分类器
2.3 使用anchor box进行卷积
2.4 维度聚类
2.5 直接位置预测
2.6 细粒度特征
2.7 多尺度训练
2.8 速度提升

3 YOLO9000
4 相关资料

1 介绍

YOLO v2是在YOLO v1的基础上进行了不少地改进的目标检测模型。在论文中，一部分主要介绍了相关的改进措施，使得YOLO v2模型在mAP和速度上相比YOLO v1得到了很大的提升。另一部分则是由于目标检测数据集相比分类数据集，数据量非常有限，所以提出了一种联合训练目标检测和分类的方法，在COCO检测数据集和ImageNet分类数据集上同时训练YOLO9000，使得其可以检测超过9000个不同的目标类别。

2 改进措施

YOLO v1存在的问题是相比最先进的目标检测系统精度比较低，会存在比较多的定位错误。与使用Region Proposal 策略的目标检测系统相比，召回率比较低。所以下述的改进措施主要为了改进召回率和定位，同时保持精度。

2.1 批量归一化

Batch Normalization应该都很熟悉了，这里简单介绍下。现代很多CNN模型都使用了Batch Normalization，能够使得神经网络更快地收敛，更容易训练，并起了一定正则化的作用，提高了模型的泛化能力。

做法大致如下，在对输入进行非线性映射前，也就是进入激活函数前，将输入减去均值除以标准差，使得变换后某个神经元的激活x形成了均值为0，标准差为1的正态分布，这样就把要进行的非线性变换向线性区拉动，防止梯度消失，加快训练收敛速度。由于这样将非线性变换拉到线性区，会使得网络表达能力下降，所以对变换后的激活进行了scale和shift，增强网络表达能力，如图1。

图1：Batch Normalization公式

YOLO v2使用了批量归一化后，加快了网络的收敛并一定程度避免了过拟合，所以也去掉了YOLO原先使用的Dropout层。通过这样的措施使得mAP提高了超过2%。

2.2 高分辨率分类器

之前YOLO v1的训练流程是先使用在ImageNet上预训练好输入为224×224图像的网络，然后将输入改为448×448，进行目标检测任务的Fine-tune，如图2所示。

图2：YOLO v1训练流程

这样做神经网络需要同时去学习目标检测任务以及适应新的输入分辨率。所以YOLO v2采用的做法是使用在ImageNet上预训练好的输入为224×224图像的网络，将输入调整为448×448后仍然在ImageNet数据集上进行了10个epochs的Fine-tune，这样给神经网络时间去调整卷积核使得其在高分辨率的输入上工作得更好。然后再使用448×448的输入在目标检测数据集上进行Fine-tune，如图3所示。这样的措施使得mAP提高了接近4%。

图3：YOLO v2训练流程

2.3 使用anchor box进行卷积

YOLO v1直接使用输出卷积层顶部的全连接层来预测边界框的坐标和长宽，而Faster R-CNN使用手动挑选的先验边界框，网络在特征图的每个位置预测anchor box的偏移值。预测偏移值而不是坐标使得问题更简化，也让网络更容易去学习。

然后考虑到最后的全连接层会丢失空间信息，而且目标检测问题和全局信息无关，更多的是目标周围局部的信息，所以YOLO v2移除了全连接层并使用anchor box来预测边界框。首先去除了一个池化层，使得输出的分辨率更高，这样更利于检测小物体。并且，由于YOLO的卷积层将图像下采样32倍，即输入为448×448时输出的特征映射为14×14，所以这里将输入从448×448调整为416×416，这样使得输出为13×13，使特征映射为奇数个，使得会有一个中心单元格，这样的好处是，目标尤其是大目标，会倾向于占据图像的中心，让一个中心单元格去预测该目标比让中心附近的四个单元格都可能负责预测该目标要更为容易。

相比YOLO v1一个网格含一组类别概率以及多个边界框，YOLO v2这里每个anchor box都含有一组类别概率，对比如下图所示。

图4： YOLO v1和YOLO v2的输出对比

使用anchor box后m AP有一定的下降，因为YOLO v1只预测98个边界框，而使用anchor box则会预测超过1000个边界框（如果一个网格有9个anchor box的话数量为13 * 13 * 9 = 1521个），这使得召回率大大提升。没有使用anchor box时中间模型获得69.5 mAP，召回率为81％。使用anchor box时模型获得69.2 mAP，召回率为88％，虽然mAP少量减少，但召回率的增加意味着模型有更多的改进空间。

2.4 维度聚类

YOLO v2在使用anchor box时遇到了两个问题。一个问题是anchor box的维度（长宽）是手动选择的。网络确实能够学习去调整anchor box的维度，但如果能够选择更好的先验anchor box,那么就可以使网络更为容易地去学习。

这里在训练集上使用k-means聚类来自动地寻找好的先验anchor box而不是手动地挑选先验。如果使用传统的k-means，即用欧式距离来作为距离进行聚类，大的边界框会比小的边界框产生更多的错误（这里我是这样理解的，大的边界框之间长宽的欧式距离会明显比小边界框之间的欧式距离要大，于是就会有“大框优势”，即聚类中心会更倾向于大的边界框，比如k值为5时，可能产生4个大的边界框，1个小的边界框，这样这5个边界框可能不是能最好代表所有边界框的5个边界框），而YOLO v2希望选择的先验anchor box应该是能和其他边界框有较好的IOU，而和尺寸大小无关，所以这里的距离公式如下：
$d (b o x, c e n t r o i d) = 1 - I O U (b o x, c e n t r o i d)$
即当前边界框和聚类中心边界框的距离是1减去两个边界框的交并比，也就是聚类中心能和该类的所有边界框拥有比较高的交并比。

YOLO v2测试了在VOC和COCO数据集下，不同k值以及对应的和最近中心的平均交并比如图5。

图5：VOC和COCO上的不同k值的平均IOU，以及找出的5个聚类中心

可以看出，k等于5是在模型复杂度和召回率上的一个较好的折中。聚类中心和手选的anchor box十分不同，有较少的短而宽的box，而有比较多的高而窄的box。

图6显示了在VOC 2007数据集上k=5使用欧式距离做聚类、k=5使用IOU为距离做聚类、手动挑选anchor box以及k=9使用IOU为距离做聚类的平均IOU。

图6：不同策略平均IOU对比

可以看出，使用IOU为距离做聚类比手动挑选anchor box有更高的平均IOU，表明使用k-means生成anchor box使得以更好的表示开始模型，使得任务更容易去学习。

2.5 直接位置预测

使用anchor box遇到的第二个问题是模型不稳定，尤其在早期迭代中。大部分的不稳定来源于对box的(x,y)位置预测。在区域建议网络中，预测偏移值 $t_x$ 和 $t_y$ 以及中心坐标(x,y)的公式如下（原论文中误将加号写成减号）

$x = (t_x ∗w_a)+x_a\\ y = (t_y ∗h_a)+y_a$

$x_a,y_a, w_a, h_a$ 为anchor box的固定值。即当前预测的位置 $x ， y$ ，为原先anchor box固定值 $x_a, y_a$ 加上偏移值 $t_x,t_y$ 乘上 $w_a,h_a$ 也就是进行尺度缩放后的值。

下图为Faster R-CNN的公式，其中带*的为真实值。

图7：Faster R-CNN区域建议网络公式

比如 $t_x$ 为1，相当于往右移一个anchor box的宽度，为-1则是往左移一个anchor box的宽度。这样造成的问题是该公式是无约束的，就会出现无论在哪个网格进行预测，anchor box会最终出现在图像上的任何一处的问题，也就是可能会出现该网格负责预测的anchor box不在该网格上，而去到了很远的地方。所以使用随机初始化模型后需要很长时间才能稳定预测偏移。

所以YOLO v2使用类似YOLO中使用的方法，预测相对于网格的位置坐标。使用sigmoid函数来约束使得网络预测值在[0,1]内。

在输出的特征映射图中，每个网格预测5个边界框（根据上面维度聚类的结果），每个边界框输出5个值，坐标 $t_x,t_y,t_w,t_h和置信度t_o$ 。如果当前网格距离图像左上角的距离为( $c_x,c_y$ ），先验的anchor box的宽和高为 $p_w,p_h$ ，则预测值公式如下：

$b_x = σ(t_x) + c_x\\ b_y = σ(t_y) + c_y\\ b_w = p_we^{t_w}\\ b_h = p_he^{t_h}\\ Pr(object)∗IOU(b,object) = σ(t_o)$

其中 $b_x,b_y,b_w,b_h$ 是预测后的坐标值。 $\sigma$ 为sigmoid函数，将偏移限制在[0,1]。图8用图像说明了该公式。

图8：box预测值公式图像表示

对位置预测进行约束后，参数更容易学习，也使网络更稳定。使用维度聚类以及直接位置预测后，相比之前使用anchor box的版本mAP提高了接近5%。

2.6 细粒度特征

修改后的YOLO模型输出一个13×13的特征映射，这对于比较大的目标来说是足够了，但对于定位小的目标来说或许可以从更细粒度的特征中收益。Faster R-CNN和 SSD在不同的特征映射上产生区域建议，获得多尺度的适应性，YOLO v2则采用了类似ResNet Identity mapping的策略，比如将较早的一层特征映射26×26×512先隔行隔列采样成4个13×13×512的特征映射，然后拼接起来形成13×13×2048的特征映射，当后面一层的特征映射为13×13×1024时，就和后面一层的特征映射在通道数上进行叠加，形成13×13×3072的特征映射。这样能够提供更细粒度的特征，通过这样的措施，mAP提高了接近1%。

图9：ResNet恒等映射结构

2.7 多尺度训练

YOLO v2还采用了多尺度训练，训练时，在网络结构完全不变的情况下，每10个batches网络就在以32为增量的{320，352，……，608}中随机选择一个新的输入图像维度来进行训练，如图10。这样可以让YOLO v2对于不同尺度的图像拥有健壮性，同样的网络可以对不同分辨率的图像进行检测，也相当于数据增强的作用，使得数据集能够得到扩充，来尽量避免过拟合。通过这样的措施，能够增加接近1.5%的mAP。

图10：多尺度训练

图11为YOLO v2在VOC数据集上不同尺度图像的表现，较低分辨率图像时，比如图像大小为288×288，能够获得与Fast R-CNN接近的mAP而超过90FPS。在高分辨率下，YOLO v2是一种最先进的检测器，在VOC 2007上具有78.6 mAP，同时仍然在实时速度以上运行。YOLO v2提供了精度和速度的简单权衡。

图11：不同输入尺度下的YOLO v2的m AP与FPS

图12为YOLO做了上述的改进措施后获得的mAP提高。

图12：YOLO到YOLO v2的改进措施及mAP提高

2.8 速度提升

在希望目标检测更精准的同时，YOLO v2也希望更加得快速。大多数检测网络基于VGG-16，但VGG网络拥有非常多的浮点数运算，复杂度比较冗余。YOLO v1基于的GoogLeNet比VGG-16要快，浮点数运算也要少于VGG-16，但准确度会比VGG-16要差。

YOLO v2采用了一个叫Darknet-19的模型，拥有19个卷积层和5个最大池化层，结构如图13，借鉴了VGG,用了很多3×3的卷积核。

图13：Darknet-19结构

先对分类进行训练，输入大小为224×224，在ImageNet上使用随机梯度下降法，进行了160个epochs的训练，然后按之前提及的方法将输入大小改为448×448，再训练10个epochs。然后对目标检测进行训练时修改了上述的网络结构，去掉了原网络最后一个卷积层，增加了三个3×3×1024的卷积层，并且在每一个上述卷积层后面跟一个1×1的卷积层，输出维度是检测所需的数量。对于VOC数据集，预测5种boxes大小，每个box包含5个坐标值和20个类别，所以总共是5 ×（5+20）= 125个输出维度。同时也添加了上文介绍的类似ResNet的转移层，从最后那个3 ×3 × 512的卷积层（图13中第13个卷积层）连到倒数第二层（也就是增加那三个3×3×1024的卷积层第二个），使模型有了细粒度特征。训练的其他超参数的细节不做赘述。

3 YOLO9000

论文提出了一个关于分类和检测数据的联合训练机制。因为分类数据集的数据量远远大于检测数据集的数据量如图14，所以如果能利用好分类数据集的数据，会使检测系统更加的强大。

图14：目标检测与分类数据集对比

这里采用了将分类和检测数据集共同训练的方法，会遇到几个挑战。由于检测数据集只含有较常用的目标和标签，类似于“狗”和“船”，而分类数据集会有更宽和更深的标签范围，比如ImageNet就含有超过一百多种的狗，包括“Norfolk terrier”, “Yorkshire terrier”, and “Bedlington terrier”等，如果直接使用Softmax层，那有一个前提是假设类是互斥的，而如果组合coco和ImageNet数据集，那么狗和猎犬显然不是互斥的，所以此时要使用分层分类方法。

ImageNet的标签是从WordNet提取的，在WordNet中，“Norfolk terrier”, “Yorkshire terrier”在“terrier”类别下，而“terrier”在“dog”类别下。WordNet被构造为有向图，而不是一个树，因为一个类可能是多个类别的子类，比如狗属于犬也属于家畜。所以这里需要从ImageNet中构造成树来简化问题。ImageNet在WordNet的根节点是物理对象，将所有只有单条路径的加入树中，为了使树尽量小，在一个类别含多条路径时，选择更短的一条路径。图15显示了COCO、ImageNet数据集以及最终组合成的WordTree。

图15：COCO、ImageNet以及组合成的WordTree

基于WordTree,如图16所示，不是所有类别共用一个Softmax，而是一个类别的在同一层次下的所有子类别使用一个Softmax。

图16：Softmax在ImageNet和WordTree上的使用

对于分类图像，我们假设图像包含一个物理目标， $Pr(physical\ object) = 1$ ，此时要计算特定节点的绝对概率，只需遵循通过树到达根节点的路径，并乘以条件概率。比如计算Norfolk terrier的绝对概率：

$Pr(Norfolk\ terrier) =Pr(Norfolk\ terrier|terrier) ∗Pr(terrier|hunting\ dog)\\ ∗...∗ Pr(mammal|animal) ∗Pr(animal|physical\ object)$

训练时，如果是检测数据集中的图像，则在反向传播过程中返回完整的损失，而如果是分类数据集中的图像，由于只有类别的标签，所以只返回分类错误。如图17。

通过这样的措施，使得YOLO9000能检测9000个以上的类别。

图17：检测图像和分类图像在反向传播时的差别

4 相关资料

论文地址：YOLO9000: Better,Faster,Stronger

youtube上有英文相关视频资料介绍

AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option