Author :Horizon Max
✨ 编程技巧篇:各种操作小结
机器视觉篇:会变魔术 OpenCV
深度学习篇:简单入门 PyTorch
神经网络篇:经典网络模型
算法篇:再忙也别忘了 LeetCode
它从根本上说是一个有监督的学习问题,提供了一组标记图像的训练集。
包括二十个对象类别:
Person
:person
Animal
:bird, cat, cow, dog, horse, sheep
Vehicle
:aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor
:bottle, chair, dining table, potted plant, sofa, tv/monitor
有三个主要的对象识别竞赛:分类 、检测 和 分割 ;
官方链接 :VOC 2012
下载链接 : training / validation data
官方文档 : (VOC2012) 开发套件
(1)分类
:对于 20 个类中的每一个,预测测试图像中该类示例的存在/不存在 ;
(2)检测
:从测试图像中的 20 个目标类别中预测每个对象的边界框和标签 ;
(1)分割
:生成逐像素分割,给出在每个像素处可见的对象类别,否则为“背景” ;
文件为 XML格式
的图片标注信息
以其中一个为例:
里面包含的信息有:图像数据的 名称、地址,目标的种类、位置等 ;
ImageSets 下有 4 个子文件夹
train.txt
:训练集相关数据
val.txt
:验证集相关数据
trainval.txt
:训练集与验证集合并后的相关数据
1、Action
:与人体动作相关的数据,包括三个部分(train.txt、trainval.txt、val.txt),对应的动作有 jumping、phoning 等 ;
用于 人体动作分类竞赛 (Action Classification Competition)
2、Layout
:与人体部位相关的数据,包括三个部分(train.txt、trainval.txt、val.txt),对应的部位有 head、hand、feet 等 ;
用于 人体部位检测竞赛 (Person Layout Taster Competition)
3、Main
:与目标检测相关的数据,包括三个部分(train.txt、trainval.txt、val.txt),一共包括 20 个类别 ;
用于 图像分类 / 检测竞赛 (Classification/Detection Competitions)
4、Segmentation
:与图像分割相关的数据,包括三个部分(train.txt、trainval.txt、val.txt)
用于 图像分割竞赛 (Segmentation Competition)
VOC 2012 数据集提供的所有的 .jpg 格式的图片,训练集和测试集一共 17125 张 ;
命名格式:“年份_编号.jpg”,与 1)Annotations 中的标签相对应,图片的像素尺寸不相同 ;
语义分割标注掩模图,一共 2913 张 ;
实例分割标注掩模图,一共 2913 张 ;
以其中一张 2007_000129.jpg
为例,将 原始图像 、语义分割图像 、实例分割图像 放在一起进行比较 :
原始图像(JPEGImages)
:数据标签都存放在 Annotations
文档内 ;
语义分割图像(SegmentationClass)
:同一物体类别颜色一样,不同物体类别颜色不同 ;
实例分割图像 (SegmentationObject)
:同一物体类别 和 不同物体类别颜色都不同 ;
2007_000129.jpg
对应的 Annotations
文件:
:图片尺寸 width、height、depth ;
:图片内的目标 (bicycle、person 各有三个 object );
:目标名称,对应着 bicycle、person ;
:拍摄角度
:目标检测框是否被截断(1为是,0为否);
:目标是否难以识别(1为是,0为否);
:bounding box 目标框的位置,对应着 左上角 和 右下角 的两个坐标 ;