在工业界,大批量的工业自动化生产过程中,用人工进行表面质量检测存在诸多弊端,例如漏检率较高、实时性较差、劳动强度大、效率低、受人工经验和主观因素的影响大。
随着计算机技术,人工智能和数据科学的发展,以及工业界、学术界研究的深入,出现了基于机器视觉技术的表面缺陷检测技术。这种技术应用于生产环境,可以为企业降本增效,也是企业数字化转型的必由之路。基于机器视觉技术应用于企业产品表面缺陷检测,可以提高企业生产作业的效率,避免工人作业在复杂的工作环境、主观因素导致的不准确性、疲劳导致的漏检等。
基于机器视觉技术的表面缺陷检测的应用范围很广泛,目前已在钢材、纺织、食品、包装、建材、电子、塑胶、印刷、化工等行业得到了广泛的应用。产品表面缺陷检测属于机器视觉技术的一种,就是利用计算机视觉模拟人类视觉的功能,从图像采集、图像处理、计算、输出结果、反馈结果。及时发现含有缺陷的产品,从而有效控制产品质量,还可以根据检测结果分析生产工艺中存在的某些问题,从而杜绝或减少缺陷产品的产生,提高产品良品率。
本文收集整理了16个表面缺陷检测相关的数据集,并对每个数据集的特点进行了简单的介绍。
数据集收集了夹杂、划痕、压入氧化皮、裂纹、麻点和斑块6种缺陷,每种缺陷300张,图像尺寸为200×200。数据集包括分类和目标检测两部分,不过目标检测的标注中有少量错误,需要注意。
谢韦尔钢铁公司(Severstal)原名为切烈波维茨钢铁股份有限公司,位于沃洛格州伏尔加河上游、雷客斯克水库北部,是俄罗斯大型钢铁公司之一。该数据集中提供了4种类型的带钢表面缺陷。训练集共有12568张,测试集5506张。图像尺寸为1600×256。
UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库共有550多个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。UCI带钢缺陷数据集包含了7种带钢缺陷类型。这个数据集不是图像数据,而是带钢缺陷的28种特征数据,可用于机器学习项目。钢板缺陷的7种类型为:装饰、Z_划痕、K_划痕、污渍、肮脏、颠簸、其他故障。
数据集里有1万份来自实际生产中有瑕疵的铝型材监测影像数据,每个影像包含一个或多种瑕疵。供机器学习的样图会明确标识影像中所包含的瑕疵类型。
中国科学院自动所一个课题组收集的数据集,是“Saliency of magnetic tile surface defects”这篇论文的数据集。收集了6种常见磁瓦缺陷的图像,并做了语义分割的标注。
RSDDs数据集包含两种类型的数据集:第一种是从快车道捕获的"I"型RSDDs数据集,其中包含67个具有挑战性的图像。第二个是从普通/重型运输轨道捕获的"II"型RSDDs数据集,其中包含128个具有挑战性的图像。两个数据集的每幅图像至少包含一个缺陷,并且背景复杂且噪声很大。RSDDs数据集中的这些缺陷已由一些专业的人类观察员在轨道表面检查领域进行了标记。
这是一个公共的合成PCB数据集,由北京大学发布,其中包含1386张图像以及6种缺陷(缺失孔,老鼠咬坏,开路,短路,毛刺,杂散铜),用于检测、分类和配准任务。
该数据集主要针对纹理背景上的杂项缺陷,为较弱监督的训练数据。包含10个数据集,前6个为训练数据集,后4个为测试数据集。每个数据集均包含以灰度8位PNG格式保存的1000个“无缺陷”图像和150个“有缺陷”图像,每个数据集由不同的纹理模型和缺陷模型生成。“无缺陷”图像显示的背景纹理没有缺陷,“无缺陷”图像的背景纹理上恰好有一个标记的缺陷。所有数据集已随机分为大小相等的训练和测试子数据集。弱标签以椭圆形表示,大致表示缺陷区域。
在布匹的实际生产过程中,由于各方面因素的影响,会产生污渍、破洞、毛粒等瑕疵,为保证产品质量,需要对布匹进行瑕疵检测。布匹疵点检验是纺织行业生产和质量管理的重要环节,目前人工检测易受主观因素影响,缺乏一致性;并且检测人员在强光下长时间工作对视力影响极大。由于布匹疵点种类繁多、形态变化多样、观察识别难度大,导致布匹疵点智能检测是困扰行业多年的技术瓶颈。本数据涵盖了纺织业中布匹的各类重要瑕疵,每张图片含一个或多种瑕疵。数据包括包括素色布和花色布两类,其中,素色布数据约8000张;花色布数据约12000张。
KTH-TIPS 是一个纹理图像数据集,在不同的光照、角度和尺度下拍摄的不同材质表面纹理图片。类型包括砂纸、铝箔、发泡胶、海绵、灯芯绒、亚麻、棉、黑面包、橙皮和饼干共10类。
该数据集由7个不同织物结构的245张4096 x 256像素图像组成。数据集中有140个无缺陷图像,每种类型的织物20个,除此之外,有105幅纺织行业中常见的不同类型的织物缺陷(12种缺陷)图像。图像的大尺寸允许用户使用不同的窗口尺寸,从而增加了样本数量。数据集还包含所有具有缺陷的图像的分割mask,使得白色像素表示缺陷区域,其余像素为黑色。
路面裂纹检测数据集(CrackForest数据集)是一个带注释的道路裂缝图像数据集,可用于分类、分割和检测。
该数据集包含了2624张300x300的太阳能电池板缺陷图像。
该数据集包含399张图片,52张有缺陷的图片和347张无缺陷的图片。图片宽度500,图片高度1240到1270。
数据集包含带有和不带有裂纹的各种混凝土表面的图像。图像数据在单独的文件夹中分为负样本(无裂纹)和正样本(有裂纹)两部分,用于图像分类。每个类别有2万张图像,总共4万张图像,每张图像是227x227像素的RGB通道图像。
该数据集包括2000多张图片,主要用于桥梁裂缝检测。
上面介绍的数据集,部分可以用于图像分类、目标检测、图像分割,根据需要选择相应数据集进行建模研究。当然,还有一系列其他的缺陷检测数据集,由于篇幅限制,不在此文章中进行介绍。
关注微信公众号:AIexplore,发送消息:缺陷检测数据集,即可获取本文介绍的数据集。
[1]https://www.vicos.si/resources/kolektorsdd/
[2]https://zhuanlan.zhihu.com/p/195699093
[3]https://github.com/Eatzhy/Surface-defect-Detection-dataset
[4]https://zhuanlan.zhihu.com/p/371208491
[5]https://www.cvmart.net/dataSets
[6]https://blog.csdn.net/qq_27871973/article/details/84974231