深度学习算法的效果离不开高质量数据集,因此在此对项目中用到的经典数据集进行梳理,本帖长期更新。
神一样的数据集,伴随着本轮深度学习的爆发而不断充实。在深度学习与计算机视觉(PB-13)—ImageNet数据集准备一文中,作者对imagenet数据集进行了非常详细的介绍。
在至关重要的数据集部分,在本文进行介绍:
imagenet的数据集部分共计有图片1431167张。
train:包含1281167张图像,这些图像被分为1000类,即train文件夹下面包含1000个子文件夹,不同子文件夹内部的照片数目有差异。
test:test目录包含10万张图像(1000个类,每一类中都有100个数据)。
val:与train数据集目录类似,val数据集目录包含1000个子文件夹,共计50000张图像(1000个类中每类有50张图像)。
TID2008是由乌克兰国家航空航天大学的N504信号接收、传输与处理系建立,包括25幅参考图像,四种不同变换幅度,1700幅失真图像。失真类型有17种包括:加性高斯噪声、颜色分量强于照明分量的加性噪声、空间位置相关噪声、掩膜噪声、高频噪声、脉冲噪声、量化噪声、高斯模糊、图像噪声、JPEG压缩、JPEG2000压缩、JPEG传输错误、JPEG2000传输错误、非偏心式噪声、不同强度的局部块失真、强度均值偏移以及对比度变化。
原论文 的abstract如此介绍:In this paper, a new image database, TID2008, for evaluation of full-reference visual quality assessment metrics is described. It contains 1700 test images (25 reference images, 17 types of distortions for each reference image, 4 different levels of each type of distortion). Mean Opinion Scores (MOS) for this database have been obtained as a result of more than 800 experiments.
25张参考图片建立如下图所示:
下载链接:http://www.ponomarenko.info/tid2008.htmLIVE数据库是比较全面的数据库,里面除了包含常规图像质量评价图像,还有3D Image、Mobile video等其他类别图像数据,此外还有各种图像评价的方法和开放源码,可以尝试。我在实验中采用了LIVE2005年数据库也就是release2,里面包含了29张参考图像和快速瑞利失真、高斯模糊、JPEG2000和JPEG压缩失真以及高斯白噪声共五组失真图像。
CSIQ共包含25张参考图像以及JPEG 压缩、 JPEG2000 压缩、整体对比度缩减、加性高斯粉红噪声 (1/f 噪声 ) 、加性高斯白噪声、高斯模糊 等6种类型的失真图像,每种图像共有5个失真等级。
来源于论文 DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks,数据集通过在同一场景使用BlackBerry、Sony、Apple以及佳能单反(DSLR,Digital Single Lens Reflex)四部数码设备,因为不同设备的视角不同,数据集制作者通过匹配SIFT关键点来进行homography的变换,然后裁剪下按照100px*100px的大小裁剪得到paired dataset。
可以见链接:GitHub
Introduction: We collected 5,000 photographs taken with SLR cameras by a set of different photographers. They are all in RAW format; that is, all the information recorded by the camera sensor is preserved. We made sure that these photographs cover a broad range of scenes, subjects, and lighting conditions. We then hired five photography students in an art school to adjust the tone of the photos. Each of them retouched all the 5,000 photos using a software dedicated to photo adjustment (Adobe Lightroom) on which they were extensively trained. We asked the retouchers to achieve visually pleasing renditions, akin to a postcard. The retouchers were compensated for their work.
简而言之:以Raw的数据格式存储了多种场景、天气环境下的5000图片,每张图片又由5位专业的retoucher进行重新修饰来得到专业的令人满意的处理结果。这样的数据集即为enhancement中常用的训练数据集。
下载链接:https://data.csail.mit.edu/graphics/fivek/
超分作为经典的图像生成内容之一,近年来收到许多关注。
全称:DIVerse 2K resolution high quality images,超分任务需要的数据集不多,在已有的数据集基础上还可以通过常见的数据增强方式进行扩充。DIV2k数据集作为CVPR附属赛道的NTIRE指定用数据集,一共包含1000张2K分辨率的RGB图像,其中800张为训练集,100张为验证集,100张为测试集。数据集内部与2k分辨率的ground truth相对应的还有各种降质倍数的Low Resolution数据集。
下载链接:https://data.vision.ee.ethz.ch/cvl/DIV2K/
A common semantic segmentation dataset with 20 object classes and one background class. Our experiments are performed on the 10,582 images for training and the 1449 images in the validation set for testing。
A subset of the COCO dataset (Lin et al. 2014) generated for scene parsing, containing 182 object classes and one background class on 9000 training images and 1000 test images.