深度学习完全攻略!(连载十一:YOLO原理理解)

翻了翻之前的文件夹,找到这个之前整理的YOLO理解文档,在此基础上,做了一些修改,特做更新。

 

我相信很多同学在理解YOLO的时候是有很多疑惑的,尤其是1个cell,两个 bounding box,20个类别,简直头大。这篇文章带你来理解,如果有错误,不吝赐教。

 

相比于RCNN系列的算法,YOLO将分类问题转换为回归问题。关于RCNN系列,会在后面更新,请不要捉急。

 

既然是回归问题,就要用回归的思维来看待。什么意思呢?比如说,我们预测2019年12月的房价,它是有很多因素共同起作用,每个因素可以看作x,有了历史数据,假设房价是线性变化,那么我们只需要求得系数,就可把12月的x带进去,就得到了房价。整么来理解YOLO呢?

首先,图像就是输入,如果把图像分成块的话,每个块就是x,现在有很多这样的图像,那么只需要求得一组系数,对于新来的一幅图x’,就可以把x’带进去,就知道这个块或这幅图是什么东西。那么这个系数就可以看作是bounding box(就是把目标框住的那个框框)。虽然每个块只需要一个bounding box,但是,这个bounding box到底长什么样,我们不知道。与其这样,倒不如1个cell里面多高几个bounding box,那个好就用那个,反正,最后我只用其中一个就行了。开始的时候,我们并不知道bounding box的形状,只知道有几个。怎么办呢,别捉急。让CNN去学习吧。我们有几千万的训练集,还怕啥。我想这应该就是YOLO的核心思想了。我想,稍微分析下,应该就看出来,这种方法准确度应该是有问题的,而实验也证明了这一点。这很类似于RCNN中的bounding box regression(请参考我的其他博客)。

 

好吧,我表示原始论文看起来真他呀费劲。

找了很久,这篇博客写的也不错,可以看看。

https://segmentfault.com/a/1190000016692873?utm_source=tag-newest

 

话不多说,上菜。我感觉还是不要按照原文的思路来,太费劲了。

第一, 说一说IOU,置信度

先上图。

深度学习完全攻略!(连载十一:YOLO原理理解)_第1张图片

 

把图像分成7*7的块,那么对于输入的图像就可以构建一个7*7*30的张量,这些标签都是已知的。

深度学习完全攻略!(连载十一:YOLO原理理解)_第2张图片

P(object):就是说这个cell中存在物体的概率。怎么定义是否有目标呢?如果目标的中心点在这个cell里面,那么就认为有目标,如果不在,就没有目标。取值为0和1.

定义置信度:如果cell里面有目标,那么就用IOU来计算预测值(预测的bounding box)和真实值(真实的bounding box)差异。

P(class|objet):就是说这个cell存在物体,而且是某个类的概率。

那么最终,对于某个cell的一个box 预测某个类的概率就表示为:

P(class|objet)*P(object)*IOU

 

比如说上面的情况,只有一个类。

我们就可以定义这样的训练标签,如果有错误请指出。

【000000000000000000000000000000    // 第一个cell

000000000000000000000000000000

.......

1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0.7,0.02,0.14,0.14,0,0,0,0   // 第23个cell

........

000000000000000000000000000000】 // 第49个cell

 

第二, 再说一说网络结构

此处是截图

深度学习完全攻略!(连载十一:YOLO原理理解)_第3张图片

下面这个图视乎更直观一点。原始图像卷啊卷,就被卷成了7*7*30这样的张量。这家伙跟cell有什么关系呢?比如说,cell是7*7的,卷啊卷,最后原始图像中的一个块,就成了7*7中的一个点。

深度学习完全攻略!(连载十一:YOLO原理理解)_第4张图片

第三,然后说一说训练过程

在上面我们可以看到,YOLO就是一个网络,卷积,池化,全连接,最后输出一个7*7*30的tensor。此处应该有个图,我想应该很直观了,那就用本文的第一个图吧。

我觉得我们不能被有些博客给迷惑了。好吧,还是说说这个最终的tensor是个啥样的。就是这样的,一条粗粗链子。对于整个网络来说,你给他一幅图,它卷啊卷,池啊池,啪,输出一个7*7*30的张量。假设这个张量就是OK的,就是我们想要的,那么,我们按照张量的结果,进行解析,就可以在图上画出这个(x,y,w,h)对应的区域。好了,一般情况下第一次肯定不可能就得到好的结果,那怎么办呢?我们在输入训练图像的时候,是不是有标签呢,而且是不是也有对应的类别的信息呢。整,把这些信息搞成7*7*30的张量,这样不就可以用反向传播去迭代了嘛。一遍一遍的训练。你会发现,最后输出的张量,越来越是我们想要的。就是这么神奇。

 

总结一下吧

我自己还是挺喜欢YOLO的,简单有效,思路清奇。YOLO有很多小细节,推荐的博客里面有介绍,我就不说了。后续会继续更新V2和V3版本。本文已同步至公众号,欢迎订阅。

                                                                   

你可能感兴趣的:(深度学习)