Yolo系列学习笔记

Yolov1:2015/6/8
无anchor;
分成77 = 49个区域,每个区域预测2个bbox,输出7730( 25 + 20 )特征层。
使用IOU做confidence;
Loss = loss(bbox) + loss(confidende) + loss(classes);

Yolov2: 2016/12/25
Bn:移除dropout,提升了2% map;
更高分辨率:224224 -> 448448;
Anchor: map:69.5, recall:81% -> map:69.2 recall 88%;
Dimension cluster:k-means 聚类得到相应anchor;
Direct location prediction:将预测目标中心点限制在本区域内,网络更容易收敛;
Fine-Grained Features:1313 与 2626特征融合 PassThroughLayer(H/2, W/2, C*4),深度方向拼接。提高1%map;
Multi-Scale Training:每10个epoch更换一次输入图像尺寸;
Backbone: Darknet19,
Convolutional = Conv2d – BN – LeakyRelU
Output =13 * 13 * (5 + 20) * 5 预测5bbox;

Yolov3: 2018/8/8
Backbone: Darknet53, 同Resnet152相比利用卷积层替代最大池化下采样,卷积核较少->速度快;
Convolutional = Conv + Bn + LeakyReLU;
Output = N * N * [3 *(1 + 4 + 80)] for N = 13, 26, 52;
先直接conv到13 * 13, 再上采样回52 * 52, 与之前的特征层拼接(在深度维度拼接);

Loss = L(conf) + L (cls) + L(reg)
L(conf): Binary Cross Entropy,
L(cls): Binary Cross Entropy 二值交叉熵->相互独立, 多分类交叉熵->softmax;
L(reg): MSE
Yolov3SPP增强方法:Mosaic图像增强/ DioU替换IoU,CIoU定位损失/ Focal Loss
SPP即3条分支池化:55/ 99/ 13*13以实现多尺度融合

Yolov4: 2020/4/23
BOF:
数据增强:random erase/ cutout/ hide and seek/ grid mask/ mixup/ cutmix/ gan
数据分布:focal loss, 难挖掘

特征图:dropout/ drop connect/ drop block
Bbox 目标函数:MSE/ IoU/ L1, L2 loss/ GIoU/ DIoU/ CioU

BOS:
增大感受野:SPP/ASPP/ RFB
注意力:SE/Spatial Attention Module
特征集成:SFAM/ASFF/BiFPN
激活函数:ReLU/LReLU/ PReLU/ ReLU6/ Scaled ExponentialLinear Unit(SELU)/ Swish/ hard-Swish/ Mish
后处理:soft NMS/ DioU NMS

YoloX: 2021
Focus: 通道扩张
SiLU激活函数
CSPnet结构:残差块套娃

你可能感兴趣的:(学习笔记,深度学习,计算机视觉,目标检测)