Diros1g

Yolo家族论文阅读笔记

You Only Look Once: Unified, Real-Time Object Detection学习笔记

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。

抓取bbox步骤：

1.输入图像分成S×S的网格。现在是划分成了7*7的，如果物品的中点落在某一个网格单元，这个网格单元将负责识别出这个物体。

注意只是看该目标的中心点，而不是整体。比如A（2，3）是狗的中心点，那么A就负责来负责预测狗
2.每个网格自身也要预测n个边界框bounding box和边界框的置信度confidence。文章中b=2
边界框包含四个数据xywh：（x,y）框中心是相对于网格单元的坐标，w 和 h 是框相当于整幅图的宽和高。置信度有两部分构成：含有物体的概率和边界框覆盖的准确性。

解释：iou交并比，pr就是概率p。如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值

每个边界框又要预测五个数值：x, y, w, h, confidence。（x,y）框中心是相对于网格单元的坐标，w 和 h 是框相当于整幅图的宽和高，confidence 代表该框与 ground truth 之间的 IOU（框里没有物体分数直接为 0 ）

每个网格都要预测 b= 2 个框，49 个网格就会输出 98 个边界框，每个框还有它的分数。每个格子最多只预测出一个物体。当物体占画面比例较小，如图像中包含畜群或鸟群时，每个格子包含多个物体，但却只能检测出其中一个。这是YOLO方法的一个缺陷。
最后每个单元格再预测他的n个边界框中的物体分类概率，有c个类别就要计算c个概率，和全连接层类似。本文中有20个类别

总结：每个方格要找到n个边界框，然后还要计算每个边界框的置信度，最后再计算每个边界框的分类的可能性。7*7（2*5+20)

bbox怎么产生的?

“But the bounding box is limited to the cell, so how does YOLO work when the object is bigger than one cell ?”. Bounding box predicted by the YOLO is not limited to the grid cell, only its (x,y) coordinates are limited to the grid cell. They write in the paper: “The (x, y) coordinates represent the center of the box relative to the bounds of the grid cell. The width and height are predicted relative to the whole image.”. So as you can see they predict width and height of a bbox with respect to the whole image, not grid cell.

翻译过来就是生成的bounding box的(x, y)被限制在cell里, 但长宽是没有限制的(即生成的bounding box可超出cell的边界)

网络结构

YOLO网络借鉴了GoogLeNet分类网络结构。有24个卷积层后接2个全连接层
输入是448*448*3
输出是7*7*30
YOLO先使用ImageNet数据集对前20层卷积网络进行预训练，然后使用完整的网络，在PASCAL VOC数据集上进行对象识别和定位的训练和预测。YOLO的最后一层采用线性激活函数，其它层都是Leaky ReLU。训练中采用了drop out和数据增强（data augmentation）来防止过拟合。

损失函数

yolov1的损失函数就是把三类损失加权求和，用的也都是简单的平方差

损失函数计算是有条件的，是否存在对象对损失函数的计算有影响，下面具体讲。

先要计算位置误差：预测中点和实际中点之间的距离，再计算bbox宽度和高度之间的差距，权重为5调高位置误差的权重
置信度误差：要考虑两个情况：这个框里实际上有目标；这个框里没有目标，而且要成一个权重降低他的影响，调低不存在对象的bounding box的置信度误差的权重，论文中是0.5
对象分类的误差：当该框中有目标时才计算，概率的二范数

yolov1的缺陷

不能解决小目标问题，YOLO对边界框预测施加了严格的空间约束，因为每个网格单元只能预测两个边界框，并且只能有一个类。这个空间约束限制了我们模型能够预测的临近对象的数量。我们的模型在处理以群体形式出现的小对象时会有困啦，比如成群的鸟。

yolov1的性能

YOLO以速度见长，处理速度可以达到45fps，其fastyolo甚至可以达到155fps。我看现在的yolov5都可以在移动端，确实是一个很快的目标检测算法。
我感觉可以通过把网格分的更细如9*9，让后每个网格预测3个bbox，当然就降低了效率。
参考资料：
You Only Look Once: Unified, Real-Time Object Detection
https://www.jianshu.com/p/cad68ca85e27
https://blog.csdn.net/tangwei2014/article/details/50915317
https://zhuanlan.zhihu.com/p/25236464
https://blog.csdn.net/Maybemust/article/details/83450321

YOLO9000: Better, Faster, Stronger

YOLOv2相对v1版本，从预测更准确（Better），速度更快（Faster），识别对象更多（Stronger）这三个方面进行了改进。其中识别更多对象也就是扩展到能够检测9000种不同对象，称之为YOLO9000。
yolov1的优势就是快，因为他不用滑窗，但是精确度就低，作者就该缺陷提出了进一步的改进。

改进

批量归一化（Batch Normalization）

所有的卷积层添加BN，带来了2%的mAP提升。
因为深层神经网络在做非线性变换前的激活输入值x随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动，之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近，所以这导致反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因。
BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布
原理

1.计算样本均值。

2.计算样本方差。

3.样本数据标准化处理。

4.进行平移和缩放处理。引入了γ和β两个参数。增加这一变换是因为上一步骤中强制改变了特征数据的分布，可能影响了原有数据的信息表达能力。增加的线性变换使其有机会恢复其原本的信息。

高分辨率分类器（High-Resolution Classifier）

YOLOv2先以224×224图片进行分类训练，再使用448×448的分辨率在ImageNet上微调分类网络，然后再微调检测网络。这使得检测器的训练更容易，并取得4%的mAP提升。

带有先验框的卷积（Convolutional With Anchor Boxes）

借鉴Faster RCNN的做法，YOLO2也尝试采用先验框。在每个网格预先设定一组不同大小和宽高比的边框，来覆盖整个图像的不同位置和多种尺度，这些先验框作为预定义的候选区在神经网络中将检测其中是否存在对象，以及微调边框的位置。比如车，都是矮胖的长方形，再比如行人，都是瘦高的长方形。

缩减输入图片的分辨率，从 448x448 变成 416x416，这样让后面产生的特征图大小都为奇数。使用卷积层进行降采样，最后得到13x13的特征图，每个网格采用9个先验框，总共有13139=1521个先验框，大大超过之前的7*7*2=98个。二者这1500多个先验框时属于整个先验框的，不是v1中的，每两个框属于一个网格。
提高了准确率，但这样就慢下来了，因为要测一组。

聚类

用的是 K-means，1500个框虽然大大提高的圈起来目标的概率，但是也大大提高了计算机的计算量。YOLO2的做法是对训练集中标注的边框进行聚类分析，以寻找尽可能匹配样本的边框尺寸。
不能用简单的欧式距离，因为大边框会产生更大的误差，但我们关心的是边框的IOU。就有了新的衡量距离函数：

1-两个框的交并比，IOU越大（交并比），距离越小，越接近。
作者实验表明，边框 K 越多，Avg IOU越大。K = 5的时候，就可与人工设置 9 个 Anchor boxes尺寸得到的效果。这样就又准又快了。13*13*5=845

上图右边显示了5种聚类得到的先验框，上图左边是选择不同的聚类k值情况下，得到的k个centroid边框，计算样本中标注的边框与各centroid的Avg IOU。

直接的位置预测（Direct location prediction）

每个网格有5个bbox（Anchor Boxes）后，这些bbox是有偏移量的，很有可能往左或者往右有偏移，把目标漏掉一部分。所以要限制一下bbox：

使用 logistic 激活函数来限制网络的预测约束在(0,1)范围内。边界框先验信息中的宽和高为p。预测为tx、ty、tw、th、to，这个to是之前的置信度，也得做个 logistic。网格与图像左上角的偏移c。

预测边框的蓝色中心点被约束在蓝色背景的网格内。

多尺度训练

进一步为了使得模型能够对各种尺度的图片进行有效检测，作者在训练Yolo v2时不再固定图像大小，而是每训练10个epochs随机地从一个组合{320; 352; :::; 608}中选取（注意它们都是32的倍数，因为darknet网络的步长为32）一个数作为输入的图像大小。此种训练方法被证明可有效地使得网络学会去自动识别各种尺度大小的图片。

V2的损失函数

v2损失函数和v1的思路一样，也是三个的加权和，用的还是二范数。。YOLO2使用交并比阈值Thresh=0.6、只有前128000次迭代计入误差。

网络结构：

之前v1用的是谷歌，现在用VGG16，YOLO2网络中第0-22层是Darknet-19网络来提取特征，后面第23层开始是添加的检测网络。3*3卷积，采用2*2的maxpooling层之后，特征图维度降低2倍，而同时将特征图的channles增加两倍.之前提到的bn批归一化加入之后，训练的速度有人提升了，而且也稳定了。

实验结果

可以看出来，yolo一如既往的快，同时也克服了v1中map值低的缺点，再544*544情况下可以达到78.6
参考文献：
YOLOv2:YOLO9000：Better，Faster，Stronger
https://blog.csdn.net/shanlepu6038/article/details/84778770
https://zhuanlan.zhihu.com/p/47575929
https://www.jianshu.com/p/b02f64e0d44b

YOLOv3: An Incremental Improvement

v3融合了别人的一些新的想法，改进了一下。YOLOv3 的提出不是为了解决什么问题，整篇论文其实是技术报告
###改进

边界框预测

v1的每个网络2个bbox，v2的5个anchor box，v3延续了这种方法，为每种下采样尺度设定3种先验框，总共聚类出9种尺寸的先验框。感觉没啥变化。

分类预测

预测对象类别时不使用softmax，改成使用logistic的输出进行预测。这样能够支持多标签对象（如一个东西可以是女性和人）

Darknet-53

一看53层的卷积来提取，就知道他使用了残差网络residual network的做法，添加了shortcut connection这样就避免了梯度消逝。

实验结果：

再要求map为50左右了，速度依旧非常快，yolo优势就是快。

参考文献：
YOLOv3: An Incremental Improvement
https://www.jianshu.com/p/d13ae1055302
https://www.cnblogs.com/wj-1314/p/9744146.html

#YOLOv4: Optimal Speed and Accuracy of Object Detection解读
这篇论文的创新点就是把这些年别人提出的一些模块、损失函数加进去一个一个试，最后试出来一个新的模型。由于论文中涉及了很多新概念，阅读起来有困难。
#####一.检测模型分成：输入、骨干结构、颈部、头部。提出一个更细分更形象的网络结构概念

骨干：预先训练的网络用来特征提取
颈部：近年来发展起来的目标检测器常常在主干和头部之间插入一些层，这些层通常用来收集不同阶段的特征图
头部：用来预测物体的类和边界盒的头部。通常分为两类即单阶段目标检测器和两阶段目标检测器。

二.Bag of freebies

传统的目标检测器是离线训练的，使目标检测器在不增加推理成本的情况下获得更好的精度，这种只改变训练策略或只增加训练成本的方法称为Bag of freebies，他使用了三种方法来达到这个目的。
在线学习：一个数据点训练完了直接更新权重（而不是一个batch），

离线学习：一个batch训练完才更新权重，这样的话要求所有的数据必须在每一个训练操作中（batch中）都是可用的

（1）数据增强：

数据增强的目的是增加输入图像的可变性，使所设计的目标检测模型对来自不同环境的图像具有更高的鲁棒性。
①像素级别的数据增强：在处理光度失真时，调整图像的亮度、对比度、色调、饱和度和噪声。对于几何畸变，添加了随机缩放、剪切、翻转和旋转。
②模拟遮挡问题进行数据增强：随机擦除和随机剪裁（一个把随机位置的像素变成0，一个把一整个矩形区域的像素变成0）

③将多幅图像结合在一起进行数据增强：MixUp使用两张图像以不同的系数比率进行相乘和叠加，然后用这些叠加比率调整标签。
CutMix是将裁剪后的图像覆盖到其他图像的矩形区域，并根据混合区域的大小调整标签。
④style transfer GAN ：用gan网络来做风格迁移，可以有效减少CNN学习到的纹理偏差

#（2）语义分布偏差：

①两阶段对象检测器：使用困难反例挖掘hard negative example mining 或在线困难样本挖掘 online hard example mining 来解决。
困难样本挖掘：用分类器对样本进行分类，把其中错误分类的样本(hard negative)放入负样本集合再继续训练分类器。
在线困难样例挖掘：一个batch的输入经过网络的前向传播后，有一些困难样本loss较大，我们可以对loss进行降序排序，取前K个认为是hard example，
②单阶段目标检测器：focal损失函数来处理各个类之间存在的数据不平衡问题。这个损失函数是在标准交叉熵损失基础上改进得到：
还有标签平滑(The label smoothing)、知识蒸馏(knowledge distillation等方法
#####（3）边界框回归的损失函数
IoU损失：计算BBox和ground truth框的交并比，然后将生成的结果连接到整段代码中。

GIoU损失：找到可以同时覆盖预测的BBox和ground truth框的最小面积的BBox，并将其代替IoU损失中的分母用于计算。

DIoU损失：考虑了与对象中心的距离。
CIoU损失：同时考虑了重叠区域面积，中心点之间的距离和纵横比等因素。CIoU 可以在 BBox 回归问题上实现更好的收敛速度和准确性。

b和bgt分别代表了预测框和真实框的中心点，ρ计算两个中心点间的欧式距离，c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。
####三.Bag of specials
仅增加少量推理成本，却能显著提高目标检测精度的插件模块和后处理方法。
#####（1）增强感受野
SPP(Spatial Pyramid Pooling,空间金字塔池化)：可以输入任意大小的图片，不需要经过裁剪缩放等操作。
ASPP(atrous spatial pyramid pooling 空洞空间卷积池化金字塔)：
空洞卷积:可让其获得较大感受野，又可让分辨率不损失太多。是隔开进行卷积提前特征值的。

RBF（Receptive Field Block）：模拟人类的视觉系统，考虑了不同尺度的感受野来提升特征的多样性，在RFB网络中使用分支池，不同的内核对应不同大小的RFs，应用扩张的卷积层来控制其偏心度，并对其进行reshape以生成最终的表示。

（2）引入注意力机制：

通道注意：Squeeze-and-Excitation(SE)模型，就是给每个通道加一个权值

最左边是原始输入图片特征X，然后经过变换，比如卷积变换，产生了新的特征信号U。U有C个通道，我们希望通过注意力模块来学习出每个通道的权重，从而产生通道域的注意力。中间的模块就是空间注意力机制模块。这个注意力机制分成三个部分：挤压(squeeze)，激励(excitation)，以及注意(attention)。
空间注意力：Spatial Attention module(SAM)模型空间域将原始图片中的空间信息变换到另一个空间中并保留了关键信息。

spatial transformer其实就是注意力机制的实现，因为训练出的spatial transformer能够找出图片信息中需要被关注的区域，同时这个transformer又能够具有旋转、缩放变换的功能，这样图片局部的重要信息能够通过变换而被框盒提取出来。
说人话就是空间变换模块可以把图像中关键的信息提取出来

（3）特征集成

SFAM：主要思想是使用SE模块在多尺度级联特征图上执行通道级级别的加权。
ASFF：使用softmax作为逐点级别权重，然后添加不同比例的特征图。
BiFPN：使用多输入加权残差连接以执行按比例的级别重新加权，然后添加不同比例的特征图。

（4）激活函数

一个好的激活函数可以使梯度更有效地传播，同时也不会造成过多的计算开销。作者试用了LReLU，PReLU，ReLU6，SELU，Swish，hard-Swish和Mish等激活函数
①LReLU和PReLU：主要目的是解决输出小于0时ReLU的梯度为零的问题。
②ReLU6和hard-Swish：专门为量化网络设计的。
③SELU：针对神经网络的自归一化问题。
④Swish和Mish：都是连续可微的激活函数。

（5）后处理

①NMS(非最大值抑制)：对那些预测相同目标的BBox进行过滤，而仅保留具有较高响应度的候选BBox。

②soft NMS：目标比较密集的时候nms容易误检。Soft-NMS和NMS的区别就在于改动了一个地方，在判断当前最高confidence的box和其余box的IOU的时候加了一个系数，这个系数可以让我们更好地选择要去掉的多余的box。

③DIoU NMS：在soft NMS的基础上，将中心点距离信息添加到BBox筛选过程中。

4.又加了些改进

自我对抗训练(SAT)：自我对抗训练主要执行2个前向和反向传播。在第一阶段中网络不会修改自身权重，而是去改变原始的图像。第二阶段，训练神经网络以正常方式检测此修改图像上的目标。感觉和GAN网络的实现机制有点相似，只不过GAN网络是使用两个网络进行对抗训练。
马赛克数据增强：将四张不同的图片通过一定的比例拼接成一张图，这样就可以训练网络检测到超出其正常背景的对象。同时在样本数据集较少的时候，这也是一种扩充数据集的方法。

四.最终结构

1.主体

作者在实验完众多新的模块之后后，调出最好的做了模型。
CSPDarknet53做主干网络，并添加了SPP，颈部使用PANet，头：YOLOv3

2.细节

主干免费包(BoF): CutMix和Mosaic数据增强，DropBlock正则化，类标签平滑
主干专用包(BoS): Mish激活、跨级部分连接(CSP)、多输入加权剩余连接(MiWRC)
检测器免费包(BoF): CIoU loss, CmBN, DropBlock正则化，Mosaic数据增强，自对抗训练，消除网格敏感性，为一个真值使用多个锚，余弦退火调度，最优超参数，随机训练形状
检测器专用包(BoS): Mish激活、SPP-block、SAM-block、PAN路径聚合块、DIoU-NMS

五.实验结果

1.不同特征对分类器训练的影响

我们知道ImageNet有大概1000个分类，而模型预测某张图片时，会给出1000个从高到低排名的概率,表示网络预测该图片属于各类的概率

Top-1 Accuracy是指排名第一的类别与实际结果相符的准确率
Top-5 Accuracy是指排名前五的类别包含实际结果的准确率
由于最后的主干网络是CSPDarknet-53，所以看第二张图，用了新的损失和图像增强后，精度有提升。

2.不同BoF对检测器训练的影响

M：马赛克数据增强
IT：IoU阈值
GA：遗传算法
LS：类标签平滑
CBN：CmBN(上文中经过改进的CBN)
CA：余弦退货调度进程
DM：动态mini-batch大小
OA：最优化锚点

3.BoS中方法对检测器的影响

当使用SPP、PAN和SAM时，检测器的性能最佳。

4.不同主干网络和预训练权重对检测器训练的影响

CSPDarknet53模型由于各种改进而显示出更大的提高检测器准确度的能力。

5.不同的小批尺寸对检测器培训的影响

小批量大小对检测器的性能几乎没有影响，这一结果表明，在引入BoF和BoS之后，不再需要使用昂贵的gpu进行训练。

参考文献：
https://blog.csdn.net/qq_36926037/article/details/106353387
https://www.it610.com/article/1296844378148511744.htm

YOLOV5

yolov5没有发布论文而且和v4也不是一个作者，v5是在v4几个月后就出来了，所以有很多撞车点。只在github开源了。就根据他的报告进行简单的学习。

1.数据增强

和v4一样都是用了数据增强，进行了三种数据增强：缩放，色彩空间调整和马赛克增强。

2.Auto Learning Bounding Box Anchors自适应锚定框

v3中提出来的，当要检测车的时候，bbox就不可能是瘦长类型的，v5中锚定框是基于训练数据自动学习的，这个模块在v4中没有。

3.Focus 结构

Focus是Yolov5新增的操作，原始图像输入Focus结构，采用切片操作，先变成304*12的特征图，再经过一次32个卷积核的卷积操作，最终变成304*32的特征图。

4.Backbone

主干网络没怎么变化和v4一样，依旧使用CSPDarknet，类似于DenseNet和resnet合并改进，网络更窄,参数更少，有残差块可以减少梯度弥散。

5.neck

Yolov5的Neck和Yolov4中一样，都采用FPN Feature Pyramid Networks特征金字塔+PAN的结构。

6.Yolov5四种网络的宽度

yolov5按大小分为四个模型yolov5s、yolov5m、yolov5l、yolov5x，yolov5在精度上没v4高，但是5s版本的速度是比较快的，也是他能迁移到移动端的原因。

参考文献：Windows 10 YOLO v3-PyTorch 复现_LogP的博客-CSDN博客

Windows 10 YOLO v3-PyTorch 复现_LogP的博客-CSDN博客
yolov4论文解读_a_1234567890_的博客-CSDN博客_yolov4论文解读
YOLOV4目标检测训练trick(bag of freebies)_我也不是故意要这么菜的啊的博客-CSDN博客

YOLO v4 论文中英对照翻译 | YOLO v4全文翻译-马春杰杰

【目标检测】YOLOv4论文理解_不断进步的咸鱼的博客-CSDN博客

论文阅读——YOLOv4:Optimal Speed and Accuracy of Object Detection - it610.com

(35 封私信 / 29 条消息) Kissrabbit - 知乎

天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj