YOLO V3

原文地址:https://zhuanlan.zhihu.com/p/...

YOLO V3网络架构

backbone：Darknet-53

网络结构解析：

Yolov3中，只有卷积层，通过调节卷积步长控制输出特征图的尺寸。所以对于输入图片尺寸没有特别限制。流程图中，输入图片以256*256作为样例。
Yolov3借鉴了金字塔特征图思想，小尺寸特征图用于检测大尺寸物体，而大尺寸特征图检测小尺寸物体。特征图的输出维度为 NxNx[3x(4+1+80)]， NxN 为输出特征图格点数，一共3个Anchor框，每个框有4维预测框数值 tx,ty,tw,th ，1维预测框置信度，80维物体类别数。所以第一层特征图的输出维度为 8x8x255 。
Yolov3总共输出3个特征图，第一个特征图下采样32倍，第二个特征图下采样16倍，第三个下采样8倍。输入图像经过Darknet-53（无全连接层），再经过Yoloblock生成的特征图被当作两用，第一用为经过33卷积层、11卷积之后生成特征图一，第二用为经过1*1卷积层加上采样层，与Darnet-53网络的中间层输出结果进行拼接，产生特征图二。同样的循环之后产生特征图三。
concat操作与加和操作的区别：加和操作来源于ResNet思想，将输入的特征图，与输出特征图对应维度进行相加，即 y=f(x)+x；而concat操作源于DenseNet网络的设计思路，将特征图按照通道维度直接进行拼接，例如8816的特征图与8816的特征图拼接后生成8832的特征图。
上采样层(upsample)：作用是将小尺寸特征图通过插值等方法，生成大尺寸图像。例如使用最近邻插值算法，将88的图像变换为1616。上采样层不改变特征图的通道数。
Yolo的整个网络，吸取了Resnet、Densenet、FPN的精髓，可以说是融合了目标检测当前业界最有效的全部技巧。

Loss函数

\( \lambda \)为权重常数，控制检测框Loss、obj置信度Loss、noobj置信度Loss之间的比例，通常负例的个数是正例的几十倍以上，可以通过权重超参控制检测效果。
\( 1^{obj}_{ij} \)若是正例则输出1，否则为0； \( 1^{obj}_{ij} \) 若是负例则输出1，否则为0；忽略样例都输出0。
x、y、w、h使用MSE作为损失函数，也可以使用smooth L1 loss（出自Faster R-CNN）作为损失函数。smooth L1可以使训练更加平滑。置信度、类别标签由于是0，1二分类，所以使用交叉熵作为损失函数。

YOLO V3

YOLO V3网络架构

Loss函数

你可能感兴趣的:(算法机器学习)