(二)YOLO-V1整体思想及网络架构

(1)核心思想

将输入的图像分为S*S的格子,对于每个格子为中心给出两个先验框,对于置信度高的格子(即位于物体中心的格子)通过回归任务将两个先验框调整至合适的大小,然后选择IOU指标较大的框作为预测结果

(二)YOLO-V1整体思想及网络架构_第1张图片

(2)网络架构

  • 网络输入:448×448×3的彩色图片
  • 隐藏层:由若干卷积层和池化层组成,用于提取图片的抽象特征
  • 全连接层:由两个全连接层组成,用来预测目标的位置和类别概率值
  • 网络输出:得到7×7×30的预测结果

(二)YOLO-V1整体思想及网络架构_第2张图片

        注:关于 7×7×30的预测结果,是指将图像分为7*7的网格,同时30中,1~5代表第一个先验框的(x,y,w,h)以及置信度c,6~10代表第二个先验框,11~30代表对应20个类别的预测概率

(二)YOLO-V1整体思想及网络架构_第3张图片

         总的来说,将网格数量定义为S*S,定义B个先验框,预测C个类别,那么输出结果即为S×S×(5×B+C)的矩阵向量 

(3)损失计算

损失函数主要分为三部分:坐标预测损失、置信度预测损失、类别预测损失

(二)YOLO-V1整体思想及网络架构_第4张图片

  • 坐标预测损失中,对先验框的(x,y,w,h)和真实的进行方差计算,这里需要注意对于w,h计算是取平方根,是由于对于大物体和小物体而言,w,h的绝对偏差对于他们造成的影响不同,为了缓和统一采用平方根计算
  • 置信度预测损失中,分为存在物体和不存在物体两部分,训练时就会把不存在物体的置信度分数推到零
  • 分类预测损失即为预测结果与真实结果的误差计算
  • λ代表每个损失函数的权重系数,根据每个损失函数的重要程度决定

(4)补充

        NMS极大值抑制,作用就是将物体预测的多个框中,挑选出IOU指数较大的框作为检测结果

(5)优缺点

        1.不能预测重合的物体

        2.小物体检测效果差

        3.不能进行多标签分类

        4.检测快,效率高

 

你可能感兴趣的:(目标检测,人工智能,深度学习)