YOLOv5(v6.1)学习历险记

这是一个记录自己学习的心酸博客,第一次写博客也不知道要注意什么,反正是给我自己看的,就碎碎念吧。这个主要是记录一下自己学习内容,以及从一个纯小白的角度去理解学习。不求高端有操作,但求通俗易懂。哎导师放养的后果就是万事CSDN、知乎、B站。这三位才是我的学术导师!

先来个最最基础的学习!yolov5的配置文件!以yolov5s.yaml为例!

YOLOv5(v6.1)学习历险记_第1张图片

 !在这里要注意这俩个参数的使用!因为在接下来的backbone和head里面计算通道数和个数会用到!真的让人十分头痛!

YOLOv5(v6.1)学习历险记_第2张图片

 这里主要就是定义了三个尺寸的anchor(锚框),分别对应大、中、小目标进行计算。

第一行在最大的特征图上--小数值检测大目标;

第二行在第二大的特征图上--中数值检测中目标;

第三行在最小的特征图上--大数值检测小目标

yolov5还加入了autoanchor计算,当他觉得你数据集不符合这个规定的锚框人家会自己重新计算~

YOLOv5(v6.1)学习历险记_第3张图片

backbone用来干嘛的呢:特征提取!人家还继承了Yolov4的CSP思想,对于CSP我通俗的理解啊(不一定对)就是分流。一部分继续原操作,另一部分呢直接与该阶段尾部concat拼接相连,从而既能保证该模块特征复用,又能截断梯度流,避免大量重复运算(类似与resnet的残差思想,就你给人家分开成俩部分一部分啥也不做,另一部分继续原来工作即可)

好的!下面最难的(我认为的)开始了!我把参数意思看懂了咋还对不上嘞!反正我是十分困惑

 对于我们第0层来说,[[-1,1,Conv,[64,6,2,2]]我们主要看args部分参数,它会被程序解析为[3,32,6,2,2]---为啥多个3呢,这边会增加个输入通道,因为输入的图像是彩色RGB3通道的所以输入为3.那输出咋又从64--32呢!因为输出通道(卷积核数量)要乘以width_multiple即64*0.5=32。6表示kernel卷积核的大小,2表示stride是卷积核的步长。其他没写的参数就默认为1,有的会省略卷积核大小步长之类的就代表为1!

那同理,对于我们第一层来说,输入来自第0层的输出,那么就会解析成[32,64,3,2]

YOLOv5(v6.1)学习历险记_第4张图片

 yolov5没有区分neck和head都写在一个head里。其实人家neck部分用的是FPN+PAN结构,啥是FPN呢:自底向上,反正就是从下往上把backbone提取的特征信息整合,PAN呢就是自顶向下,反正就是一个从下往上一个再从上往下,术语叫做多尺度特征融合(咋也不懂反正行就完事)

YOLOv5(v6.1)学习历险记_第5张图片

 那这里基本和backbone计算规则一样,那么Concat主要是个Concat操作(拼接通道数相加),那么在from那里[-1,6]就代表上一层和第六层相连接(注意人家是从第0层开始的),args参数里的None就代表默认值,Upsample代表上采样,'nearest'代表采样方式~

[[17,20,23],1,Detect,[nc,anchors]],代表指定第17层,20层,23层为输出~接到Head检测头去!

那么整体的网络配置文件就over了!后续相对yolov5进行修改一个重要的修改内容就是对yaml文件的修改,跟搭积木一样,通过调用不同的模块去对应不同的结构!PS:祝我研究生顺利毕业!!最后放一张yolov5s的网络结构图!

YOLOv5(v6.1)学习历险记_第6张图片

 

你可能感兴趣的:(学习)