ImageNet系列1《ImageNet:A Large-Scale Hierarchical Image Database》
ImageNet系列2《ImageNet Large Scale Visual Recognition Challenge》(待完成)
ImageNet系列2《Scalable multi-label annotation》(待完成)
2009年李飞飞团队发表,提出了21k的ImageNet基准数据集
ImageNet官网:https://www.image-net.org/challenges/LSVRC/index.php
论文分为摘要、介绍、ImageNet的特性、ImageNet和相关数据集、构造ImageNet、ImageNet应用、未来工作
(问题)互联网上图像数据的爆炸式增长有可能训练出更复杂、更健壮的模型和算法,用于索引、检索、组织图像和多媒体数据并与之交互,但如何组建数据集是个问题。
(创新点)提出了从WordNet结构构建的大型图片数据集“ImageNet”。
(具体介绍)ImageNet旨在用平均500-1000个干净和高分辨率的图像构成WordNet的8w个同义词(synsets)中的大部分,所以会由WordNet构建ImageNet数千万图片的语义树。ImageNet目前由12个子树、5247个同义词集、320w图片。ImageNet数据集比目前现有数据集更大、多样且准确。我们使用了Amazon Mechanical Turk来搜集数据。
(下游和优势)我们展示了目标识别、图像分类和自动目标聚类方面展示了应用。
结构: 使用WordNet结构。
具体: WordNet中大约8w个名词同义词,在ImageNet中,我们为每个同义词提供了500-1000个图片。ImageNet包含12个子树:mammal, bird, fish, reptile, amphibian, vehicle, furniture, musical instrument, geological formation, tool, flower, fruit。包含了5247个同义词和320w图片
文章结构: section2展示了ImageNet,section3描述了如何使用Amazon Mechanical Turk建立,section4为应用
ImageNet旨在提供5kw数据,在paper公布时(2019),ImageNet包含12个子树,大部分分析基于mammal和vehicle。
规模(Scale): 12个子树,320w图片,超过5274个类别,每个synset中平均超过600张图片(20%图片非常少)。fig2展示了分布。
层次结构(Hierarchy): ImageNet将不同类别的图像组织在一个密集的语义层次结构中。与WordNet类似,ImageNet中图像的语法集通过几种类型的关系相互关联,“IS-A”关系是最全面、最有用的关系。尽管可以使用WordNet将任何带有类别标签的数据集映射到语义层次结构中,但是ImageNet的密度是其他数据集无法比拟的。fig3比较了ImageNet和ESP的树,可以看到ImageNet的树更大更密。
准确性(Accuracy): 图 4 显示了在不同树深度随机分布的总共 80 个合成集的标记精度。平均达到99.7%的精度。因为同义集在层次结构中越低,就越难进行分类。
多样性(Diversity): ImageNet的构建目标是图像中的对象应该具有不同的外观、位置、视点、姿势以及背景杂波和遮挡。为了解决图像多样性量化的难题,我们计算了每个synset的平均图像,并测量了反映图像中信息量的无损JPG文件大小。图5比较了ImageNet的mammal子树和Caltech101随机四个采样结果
|
|
|
|
table1对比了几个数据集。
small image dataset: 比如Caltech101/256、MSRC、PASCAL等,ImageNet的类别数是他们的20倍,图片数是他们的100倍(优势: 数量)。
TinyImage: TinyImage是一个拥有8000万32×32低分辨率图像的数据集,在互联网上将WordNet中每个词搜索到的图片整合在一起。数据集中的每个synset平均包含1000个图像,其中10-25%可能是干净的图像。高噪声和低分辨率的图像使得它不太适合于通用算法的开发、训练和评估。与TinyImage数据集相比,ImageNet包含高质量的synset(∼99%精度)和全分辨率图像,平均大小约为400×350(优势: 高质量)。
ESP dataset: ESP dataset中数以百万计的图像通过游戏被标记,但它的快速性也构成了一个主要的缺点,即人们倾向于在一个易于接近的语义层次上标记视觉对象,称为“基本层次”(如鸟),而不是更具体的层次(“次坐标层次”,如麻雀),或更一般的层次(“超坐标层次”,如脊椎动物)。然而,ImageNet展示了图像在语义层次结构中更为均衡的分布(优势1: 语义层次更加均衡)。ESP和ImageNet的另一个关键区别是语义消歧。当人类玩家输入“银行”这个词时,不清楚它的意思是“河岸”还是“金融机构”。在如此大规模的情况下,消除歧义就成了一项非常重要的任务,但是ImageNet不存在这个问题(优势2: 不存在语义歧义问题)。最后,大部分ESP数据集都不公开,只能访问60K个图像及其标签(优势3: 公开)。
LabelMe and Lotus Hill datasets: LabelMe和Lotus Hill数据集分别提供3w和5w标注和分割图片。都仅有200个类别,但是提供了轮廓和位置。ImageNet目前没有提供详细的目标轮廓(劣势: 未提供轮廓和位置),但是类别数量和图片数量远超这两个数据集(优势: 数量)。此外,这两个数据集中的图像大部分是由数据集的用户或研究人员上传或提供的,而ImageNet包含从整个互联网上抓取的图像(优势: 多样性)。Lotus Hill数据集只能通过购买获得。
搜集图片: 从互联网上搜集的图片,每个synset准确率大约10%,ImageNet旨在提供每个synset 500-1k张干净的图片。通过在几个图片搜索引擎搜索得到候选图片(步骤一),对每个synset,搜索词为WordNet中同义词(步骤二)。由于搜索引擎会限制数量,为了获得尽可能多的图像,如果相同的单词出现在目标同义词集的注释中,我们通过将查询附加到来自父同义词集中的词来扩展查询集(步骤三)。比如搜索whippet,注释为"small slender dog of greyhound type developed in England",我们也是用"whippet dog"和"whippet greyhound"。为了进一步扩大,我们会将搜索词翻译为其他语言,包括中文、西班牙语、荷兰语和意大利语。(步骤四)通过synset内部去重,每个synset平均有超过1w张图片。
清理图片: 通过人工标注,使用了Amazon Mechanical Turk(AMT),一个在线分发任务给使用者完成并付款的网站。给了用户几个候选图片和目标synset定义(来自Wikipedia),来询问用户每张图片是否包含目标物体。(具体不进行介绍)
第一个实验强调干净、高分辨率图片的好处,第二个实验展示了ImageNet的树结构,最后一个实验描述了更多的扩展
(参考https://blog.csdn.net/qq_43403025/article/details/113405920)
NN-voting + noisy ImageNet: 为了模拟TinyImage数据集(即从搜索引擎中收集的图像,无需人工清理),使用每个synset的原始候选图像,并将它们降采样到32×32。给定一个查询图像,从哺乳动物子树中提取100个最近邻图像,然后通过聚集目标类别树内的投票(最近邻数)来进行分类。
NN-voting + clean ImageNet: 在干净的ImageNet数据集上运行上述相同的NN投票实验。这一结果表明,拥有更准确的数据可以提高分类性能。
NBNN: 实现了朴素贝叶斯网络中提出的最近邻(NBNN)方法强调全分辨率图像的有用性。NBNN使用一个特征包来表示图像。结果表明,NBNN提供了更好的性能,证明了在全分辨率图像中使用更复杂的特征表示的优势。
NBNN-100: 运行相同的NBNN实验,但将每个类别的图像数限制为100。结果发现,性能可以通过扩大数据集。值得注意的是,NBNN-100在访问整个数据集方面优于NN投票,再次展示了使用全分辨率图像获得详细特征级别信息的好处。
这个实验使用了一个简单的对象分类方法,我们称之为“tree-max classifier”,来说明ImageNet层次结构的有用性。结果表明,利用ImageNet层次结构的简单方法已经可以在不需要额外训练或模型学习的情况下为图像分类任务提供实质性的改进。
ImageNet可以扩展以提供有关每个图像的附加信息,其中一个信息是每个图像中对象的空间范围。想到两个应用领域:首先,为了训练一个鲁棒的目标检测算法,通常需要在不同的姿态和不同的视点下对目标进行定位;其次,在杂乱的场景中定位对象,使用户可以使用ImageNet作为对象定位算法的基准数据集。
三部分,第一扩展到5kw的数据集,第二使ImageNet公开可用,第三扩展包含更多信息。
参考博客和论文:
https://blog.csdn.net/qq_43403025/article/details/113405920
https://image-net.org/static_files/papers/imagenet_cvpr09.pdf