1.yolov5目标检测-理论部分

YOLO基本思想

计算机视觉有3类主要任务:图像分类、目标检测、图像分割。图像分类就是将图像中的物体进行分类,比如是猫还是狗。目标检测不只要识别出来哪一类,还要识别出目标在图像中的位置。图像分割分为语义分割和实例分割(要求判断图像中的像素属于哪个类别)。
you only look once(你只看一次)= YOLO
1.yolov5目标检测-理论部分_第1张图片
由图片分类,过渡到目标检测,除了识别出目标,还要标记出目标的位置。我们希望模型输出下图中的结论,Pc为最大概率类别的概率,比如更像猫,然后99.5%,w,y是图像中心点,w,h是目标框的宽高,要记住xywh这种坐标表示方法到后面模型输出结论是有用的。下面就是识别到的类别a、b、c、d。
1.yolov5目标检测-理论部分_第2张图片
这里举两个例子,如下图,识别出来一只狗的上图,和识别不出来东西的下图。
1.yolov5目标检测-理论部分_第3张图片
于是乎,我们可以把图片和标注信息(类别,x,y,w,h)作为训练集,进行训练。这个过程是有监督的学习,对于每个图都要提供标注信息,也要提供背景图,背景图不标注,这样可以提高识别准确率。
1.yolov5目标检测-理论部分_第4张图片
注意,这里的卷积审计网络只是代值网络模型,并不是具体的模型实现手段。训练完毕之后,我们输入一张新的猫咪图,这样模型就能把目标进行定位,然后输出。如下图所示。
1.yolov5目标检测-理论部分_第5张图片
注意,这种策略只适用于单个物体,多个物体如何处理?
yolo的算法为了解决这个多物体的问题,将图像分为了含有多个目标的小格子,如下图所示。
1.yolov5目标检测-理论部分_第6张图片
可以将图片进行网格化的切分。对于每个小格子,都进行归一化,如果有目标就进行目标的定位,其中xy为中心点在小格子中的位置,w,h为大目标(绿框)相对于小格子(1)的高度和宽度。 如果每个小格子的x,y都是44的,那么都可以组成一个447的三阶矩阵,7是目标的位置矩阵,4和4是坐标的位置。
1.yolov5目标检测-理论部分_第7张图片
按照这种思想,我们可以构建训练集,来训练我们的网络,如下图:
1.yolov5目标检测-理论部分_第8张图片
训练完之后,模型再遇到新的图,就能识别多目标了。如下图所示。
1.yolov5目标检测-理论部分_第9张图片
这只是简单的思想示意,过程中还会有很多问题。比如yolo在检测的过程中,对同一个物体会标注出来多次,那么怎么确定最好的目标定位坐标是哪个呢?yolo使用的是IOU交并比的概念。
1.yolov5目标检测-理论部分_第10张图片
以狗为例,识别了三个框,分别是0.9,0.7,0.6(3个概率),两两比较IOU(我们可以知道 loU衡量了两个边界框重叠地相对大小。如果你有两个边界框,你可以计算交集,计算并集,然后求两个数值的比值),选择IOU大的则为识别最好的框。yolo会把边界框概率最大的拿出来,与其他的概率小的边界框求交并比,如果大于某个阈值,就会丢掉小的。
yolo模型会使用非极大值抑制,来选择置信度最高的那个框。
如果一个格子包含多个物体怎么办?如下图。会将长度为7的向量拼接起来,实际使用,格子都很小,基本不会出现这种情况的。
1.yolov5目标检测-理论部分_第11张图片
所以到最后,你的网络,就是根据类别生成的网络,4
4*n这种关系。
1.yolov5目标检测-理论部分_第12张图片

你可能感兴趣的:(计算机视觉,python,计算机视觉,目标检测)