【机器学习】《动手学深度学习 PyTorch版》李沐深度学习笔记(目标检测、锚框)

文章目录

      • 一、目标检测任务
      • 二、目标检测和边界框(锚框)
        • 1.如何去进行目标检测?
        • 2.生成训练锚框+交并比比较锚框相似度
        • 3.怎么去赋予锚框标号?
        • 4.使用非极大值抑制(NMS)输出(每个类别保留一个框)
        • 5.一些小问题

一、目标检测任务

【机器学习】《动手学深度学习 PyTorch版》李沐深度学习笔记(目标检测、锚框)_第1张图片
1.分类,即是将图像结构化为某一类别的信息,用事先确定好的类别(string)或实例ID来描述图片。这一任务是最简单、最基础的图像理解任务,也是深度学习模型最先取得突破和实现大规模应用的任务。其中,ImageNet是最权威的评测集,每年的ILSVRC催生了大量的优秀深度网络结构,为其他任务提供了基础。在人脸、场景的识别等应用领域都可以归为分类任务。
2.检测,分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求同时获得这一目标的类别信息和位置信息。相比分类,检测给出的是对图片前景和背景的理解,我们需要从背景中分离出感兴趣的目标,并确定这一目标的描述(类别和位置),因而,检测模型的输出是一个列表,列表的每一项使用一个数据组给出检出目标的类别和位置(常用矩形检测框的坐标表示)。【注意:这里有三种表示方式,分别是:①左上右下②左上高宽③中间高宽】
3.分割,分割包括语义分割(semantic segmentation)和实例分割(instance segmentation),前者是对前背景分离的拓展,要求分离开具有不同语义的图像部分,而后者是检测任务的拓展,要求描述出目标的轮廓(相比检测框更为精细)。分割是对图像的像素级描述,它赋予每个像素类别(实例)意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。

二、目标检测和边界框(锚框)

引言:什么是锚框?
1.锚框的作用
对于目标检测任务,有这样一种经典解决方案:遍历输入图像上所有可能的像素框,然后选出正确的目标框,并对位置和大小进行调整就可以完成目标检测任务。这些进行预测的像素框就叫锚框。这些锚框通常都是方形的。同时,为了增加任务成功的几率,通常会在同一位置设置不同宽高比的锚框。
2.特征图中的锚框
如果按照上述方案不加改变的执行,即使是一张图片所产生的锚框将多到我们难以承受的地步。对于一个224x224的图片,假设每个位置设置3个不同尺寸的先验框,那么就有224x224x3=150528个锚框;这个数量太大了!所以,更好的处理方式是先对原图进行下采样处理,得到feature map,在feature map中生成锚框。以vgg16的backbone为例,把224x224的输入图片下采样了5次,得到7x7的feature map,那就只需要得到7x7x3=147个先验锚框,这样的设置大大减少了先验框的数量,同时也能覆盖大多数情况。

1.如何去进行目标检测?

1.提出多个被称为锚框的区域(边缘框)
2.预测每个锚框里是否含有关注的物体
3.如果目标物体在锚框之中,预测从这个锚框到真实边缘的偏移

2.生成训练锚框+交并比比较锚框相似度

1.IoU-交并比:用来比较两个框之间的相似度(范围0-1,0 表示无重叠,1表示重合)
2.用Jacquard指数的特殊表达式表示
在这里插入图片描述

3.怎么去赋予锚框标号?

1.每个锚框是一个训练样本
2.将每个锚框,要么标注为背景,要么关联上一个真实边缘框
3.我们将会生成大量的锚框(会导致大量的负类样本)
边缘框是真实的框,而锚框是我们假定的框,当两个框之间的IoU值最高,表示相关性最强。
边缘框:
【机器学习】《动手学深度学习 PyTorch版》李沐深度学习笔记(目标检测、锚框)_第2张图片

4.使用非极大值抑制(NMS)输出(每个类别保留一个框)

每个锚框预测一个边缘框,NMS可以合并相似的预测
1.选中是非背景类的最大预测值
2.去掉所有其他和它IoU值大于θ的预测
3.重复上面的步骤直到所有的预测要么被选中要么被去掉

5.一些小问题

1.会以每个像素点为中心,成为5个锚框(7个、9个都常见)
2.为什么要给每个像素做锚框? 这样能保证有足够多的覆盖率,坏处就是会生成非常多的锚框

你可能感兴趣的:(深度学习,目标检测)