YOLO学习:YOLO v1论文理解

概括:

YOLO在设计中摒弃了采用先进行目标检测再进行目标识别的方法,而是利用回归通过神经网络进行一次的估计输出目标所在的bounding box(框)以及class(类别)。

统一检测:

()将输入图片进行划分,得到S*S个栅格

()每个栅格单元可以预测B个bounding box以及各个bounding box置信度P:

\mathbb{P}\left ( Object \right )*IOU

其中IOU为系统预测出的框与原来标出的框的重合程度:

IOU=\frac{area\left ( predictedBox\bigcap truthBox \right )}{area\left ( predictedBox \right )+area\left ( truthBox \right )}

()同时,每个栅格也用于计算C个关于类别的条件概率:

\mathbb{P}\left (Class_{i}\mid Object \right )

()输出结构为5个参数(x,y,width,height,P):

(x,y):栅格中心

(width,height):相对于整幅图片的宽度以及高度

(p):置信度

网络设计:

()采用了卷积神经网络,首个卷积层获取图片特征,全连接层预测输出结果

()共有24个卷积层和2个全连接层

训练:

()使用ImageNet数据对卷积层进行预训练

()图片大小448*448

()height以及width进行了归一化处理,取值范围在0-1

()x,y根据位于特定的边界框中偏移量进行参数化处理,取值范围在0-1

()采用了线性激活函数:

if x>0:\o \left ( x \right )=x

else:     \o \left ( x \right )=0.1x

()优化方法:最小误差和平方;同时由于图片的绝大部分不包含物体,因而需要区别有目标与无目标部分的参数

 

 

你可能感兴趣的:(计算机视觉)