【新系列】【Day1】Yolo复习和提高

CV系列开篇:

深度学习经典检测方法:
统一的规律:网络越简单,速度越快,效果越差。

two-stage两阶段:Faster R CNN 、Mask R CNN

增加了一个预选框,然后再进行识别
优点:速度慢了点,无法做到实时。
缺点:

one-stage单阶段:YOLO系列

直接选出结果
one-stage
优点:
速度快!(可以基于视频去做、做实时的,最高200 FPS (每秒最快200帧)),可以控制网络的复杂度;
mAP值高
mAP 是综合的去描述检测效果(为什么取用mAP,是因为 ** 精度**,recall虽然很好,但乍一眼看去,两个算法无法比较) https://blog.csdn.net/bestrivern/article/details/98482493
IOU 真实值与预测值交集(越重叠,交集越大,所以越大越好)和并集的比值.

计算:

【新系列】【Day1】Yolo复习和提高_第1张图片
precision准确率,举例子,我是预言家,给了10个预言,9个对了,啥也不知道的路人就说我对了9个,准确率很高,对应的是TP+FP(就是我的预言),TP是对的,我的预言准确率为90%。

recall召回率,举例子,我是放鸽子的人,放了10个,然后实际回来9个,熟悉我的人知道我召回率为90%,所以认为我确实放了10个。对应的(TP+FN)是真的放了10个,9是TP召回的,我的召回率为90%。

基于置信度阈值:0.9、0.8、0.7的时候

【新系列】【Day1】Yolo复习和提高_第2张图片
图片来自哔哩哔哩视频讲解https://www.bilibili.com/video/BV1ha411r7cK?p=6
mAP就是图中各个阈值对应的面积之和(A1+A2+A3+A4)
【新系列】【Day1】Yolo复习和提高_第3张图片
2015年的情况
【新系列】【Day1】Yolo复习和提高_第4张图片
核心思想:
随便弄两个经验值,然后算一个更好的(IOU来),再对长和宽进行回归,让x,y(起始位置),w和h(宽和高)最合适,同时还要预测框中的物体是否是一个物体(置信度)。
-> 5个值 x,y,w,h(给出很多候选框)+confidence(过滤掉大部分框),最后归到最终结果!

YOLOv1:输入值固定为4484483,但可以reset,主要是全连接层大小限制死了->20481024。
【新系列】【Day1】Yolo复习和提高_第5张图片
v1就是一个普通的卷积神经网络,没啥好学的。v3再好好看网络。
【新系列】【Day1】Yolo复习和提高_第6张图片
上文说到,5个值 x,y,w,h(给出很多候选框)+confidence(过滤掉大部分框),最后归到最终结果!然后每个物体会预测两个框,所以有10个,然后剩下的是检测的20个类别(人为定的,20个检测目标)
所以最后的是7
7*(5+5+20)= 1470,虽然不准,但是快呀!!!

【新系列】【Day1】Yolo复习和提高_第7张图片
损 失函数:误差来源:x,y,w,h(框的位置误差),confidence(跟真实值的差距误差)
目标1:在图中画尽量正确的框
s*s的网格中逐个去求预测结果,求完每个Aij一个会自动产生两个候选框一个竖着,一个横着。然后选出IOU跟真实值接近的一个,x,y求差,在w和h加根号再求差,因为加上根号数值小时会敏感些(小物体小误差也得重视),大物体数值大的时候,变化率会小一些,但实际上效果较小!

目标2:分清前景(少部分框)和背景(大部分框)->背景为0,前景为1
方法:算出各个框的IOU取大于0.5的作为一轮筛选,同时有多个时,选最大的那个。(IOU小于最大值的但包含物体的(0.5~MAX)的去除)
得到损失函数之confidence的误差:框内物体与真实值的差距 和+ ** 背景与真实值的差距** ★(背景多,所以背景前面加个小参数)
【新系列】【Day1】Yolo复习和提高_第8张图片

YOLO-v2相关

【新系列】【Day1】Yolo复习和提高_第9张图片

你可能感兴趣的:(计算机视觉Day,by,Day,深度学习,计算机视觉,神经网络)