图像标注就是利用人工或者AI等技术对图像特征打上特定类型标签的一个过程,其发展大致经过以下三个过程:基于文本的人工图像标注,由观察员实现所见即所得;基于内容的自动图像标注,采用深度学习等方式提取图像底层特征;基于语义的图像标注,可以对图像的语义内容进行分类,使标注脱离颜色、纹理等底层特征,实现从语义等高层特征进行图像检索等功能
常见的图像标注类型主要包括:分类标注、点标注、线标注、边界框、像素标注等,下文就这5种图像标注类型进行介绍
01.分类(classification)
分类标注是最基本的一种标注手段,其表现形式一般就是一张图对应一个数字标签,比如 Dogs vs. Cats数据集,该数据集共可分为dog和cat两类,因此标签设计时可以用0代表dog,1代表cat
02.点标注(keypoints)
点标注通常用于对图像特征较细致的场景,如人体姿态估计,人脸特征识别等
Leeds Sports Pose数据集中每张图像标注有 14 个关节位置,可以用于对人体姿势进行检测\评估
Wider Facial Landmarks in-the-wild (WFLW) 数据集对人的眉毛、眼睛、鼻子、嘴唇等部位进行标注( landmark annotation),用来对人脸特征进行定位。一个有趣的应用就是可以给歪果仁强行带上口罩(Artificial Mask)
03.线标注(line)
线标注最常用的应用场景就是自动驾驶领域,用来识别车道及边界
Lane Marker数据集对车道轨迹进行了标注
04.边界框(bounding box)
边界框标注主要用于对象检测,用来识别某个特征在图像中的具体位置,细分一下又可以分为2D边界框(Box2D)和3D边界框(Box3D)
CALTECH-Airplane detection数据集含有800张飞机类jpg图片,同时含有相应图片中飞机的2D边界框坐标
Audi Autonomous Driving Dataset (A2D2)是一个具有2D语义分割,3D点云,3D边界框和车辆总线数据功能的数据集,下图是其中关于3D边界框的标注
05.像素标注(pixel level label)
像素标注又称区域标注,是一种将图像中像素进行归类的标注方式,主要有语义分割和实例分割两种
KolektorSDD数据集由包含缺陷的电子换向器的图像构成,其缺陷部分的标注如右下图所示,可以看出这里将缺陷部位的像素置为1(白色),其余部位重置为0(黑色),实现了图像的语义分割
类似的还有CityScapes数据集,其专注于对城市街道场景的语义理解,包含有对车辆和人员的实例细分
[1]陈金菊.图像语义标注研究综述[J].图书馆学研究,2017(18):2-7+20.
[2]https://hackernoon.com/illuminating-the-intriguing-computer-vision-uses-cases-of-image-annotation-w21m3zfg