计算机视觉中常见的问题和常见的数据集

目录

问题

数据集

Lena

MNIST

CIFAR

ImageNet

PASCAL VOC

Caltech Caltech101 and Caltech256

MS COCO All

Cityscapes

Labeled Faces in the Wild

医学


问题

• 人脸检测:查找图片中的所有人脸。
• 人脸识别:确定人脸对应的人。
• 面部识别:确定给定的面部是否对应于特定的人。
• 姿势识别:确定给定人体姿势对应的预定集合中的哪个姿势。
• 通过颜色或纹理识别均匀的区域。
• 对象识别:确定一组预定类别中的哪一个
图片中的给定对象对应。
• 语义分割:确定与一个对象有关的图像区域。
• 图像分类:确定图像或其中描绘的对象属于哪个类别,而不需要定位图像中的对象。分类可用于回答图像是否包含大象、飞机或日落等问题,而无需指定大象或飞机在图片中的确切位置。
• 文本检测和识别:确定图片中文本的位置和内容。

        图像处理的一般任务可以划分成几个详细的任务处理。比如,像图像的语义描述这样一般的任务也可以作为更狭义的问题的组合来解决。

数据集

        为验证和比较各种算法而收集的公开可用数据集对于计算机视觉领域(以及许多其他数据分析分支)的发展起着非常重要的作用。 标准数据集对于客观比较解决同一问题的不同方法是必要的。 数据对于开发基于机器学习的算法至关重要。

Lena

        用于测试和演示各种图像处理算法的最著名的测试图像可能是“Lena”。 测试图像是瑞典模特的数字化肖像,而后者又是《花花公子》杂志插页的片段。 根据维基百科,1973 年,来自南加州大学的 Alexander Sawchuk 需要一张具有良好动态范围的照片肖像来说明有关图像处理的文章。 Sawchuk 扫描了一张花花公子海报的片段。 他使用了每英寸分辨率为 100 点的扫描仪,生成了 512 x 512 点的图像。 很快这张图片就变成了事实上的行业标准:它被用来测试和开发各种图像校正机制,并掌握新的处理算法。

MNIST

        用于测试机器学习算法的首批图像集之一是 MNIST 集合(“Modified National Institute of Standards and Technology”的缩写)。它由手写数字的样本组成。该数据集用于开发第一个基于神经网络的图像分析算法。 MNIST 集合包含 60,000 张训练图像和 10,000 张测试图像,大小为 2828 像素。所有图像分为 10 类,每个数字一个。在这个数据集中识别手写数字的任务是经典的分类问题。给定一张图像,有必要确定它属于哪个类别(即描绘了 10 个数字中的哪一个)。以今天的测量,无论是集合大小还是图像分辨率都相当小。但是这个数据集仍然被积极使用,主要是作为深度学习的第一个例子和神经网络的简单测试。使用该数据集编写用于训练和测试的神经网络就像用新的编程语言编写“Hello World”程序一样。

CIFAR

        CIFAR-10 和 CIFAR-100 也是机器学习和计算机视觉研究中常用的非常流行的数据集。 它们在图像数量和分辨率上类似于 MNIST,但图像是彩色的并且更加多样化。 CIFAR-10 数据集包含 10 个不同类别的 60,000 张 32x32 彩色图像,例如飞机、汽车、鸟类等。 CIFAR-100 数据集有 100 个类,每个类包含 600 张图像。 这些数据集也被广泛用于测试图像分类算法。

ImageNet

        ImageNet 是一个带标签的图像集合,它的创建被许多人认为是深度学习时代的开始,也是深度学习在计算机视觉领域取得令人难以置信的进步的主要原因之一。 训练深度神经网络需要大量数据。 ImageNet 是第一个带注释图像的大型数据集。 ImageNet 包含超过 1400 万张图像(与 MNIST 和 CIFAR 中的 60,000 张相比!),分为 20,000 多个类别。 自 2010 年以来,ImageNet 的创建者每年举办一次名为 ILSVRC(ImageNet 大规模视觉识别挑战赛)的比赛。 在这个挑战中,各种软件产品在 ImageNet 数据库中对物体和场景进行分类和识别。 ILSVRC 使用 ImageNet 集合的一个子集,该集合由大约 120 万张图像和 1,000 个类组成。 图像为 224x224 像素。

PASCAL VOC

        在 ImageNet 和 ILSVRC 之前,最著名的图像分类和对象检测竞赛是 2005 年至 2012 年进行的 PASCAL VOC 挑战赛(模式分析、统计建模和计算学习视觉对象类)。为该挑战赛收集的图像集用于长期以来一直是测试各种算法的事实上的标准,尤其是对象检测和分割算法。 与之前讨论的集合不同,PASCAL VOC 包含对象级标记,其中在每个图像中标记包含对象的特定区域。 http://host.robots.ox.ac.uk/pascal/VOC/databases.html http://host.robots.ox.ac.uk/pascal/VOC/images/tud3c.html

Caltech Caltech101 and Caltech256

        Caltech Caltech101 和 Caltech256 是另外两个通常用于测试图像分类和对象识别算法的图像集合。 这些数据集分别由 101 和 256 个图像类别组成。 每张图像的大小约为 200300 像素,就像在 ImageNet 和 PASCAL VOC 中一样。 大多数 Caltech101 类别包含大约 50 张图像,但也有包含更多图像的类别。 例如,“平面”和“人脸”类别包含大约 800 个样本。 每个图像都用包含对象的框的坐标和对象类进行注释。 http://www.vision.caltech.edu/Image_Datasets/Caltech101/ http://www.vision.caltech.edu/Image_Datasets/Caltech256/

MS COCO All

        以前考虑的集合包含尺寸相对较小的图像。 然而,当今大多数相机都能以更高分辨率生成图像。 对于许多问题(例如,自动驾驶汽车的物体检测),使用高分辨率图像很重要。 MS COCO (Microsoft COCO: Common Objects in Context) 包含沿较长边分辨率高达 1000 像素的图像。 此外,我们之前讨论过的大多数集合都没有语义分割标记,其中每个图像的像素都被标记为属于特定对象。 MS COCO 集合今天被认为是比较对象检测和语义分割算法的标准。 它包含来自 91 个类别的对象的 328,000 张图像。 标记对象的总数约为 2,500,000。 http://cocodataset.org/ https://arxiv.org/pdf/1405.0312.pdf

Cityscapes

        另一个广泛使用的高分辨率图像集是 Cityscapes。 该集合包含在欧洲 50 个城市收集的城市景观图像。 每个图像是 10242048 像素。 该数据集包含 5,000 张带有详细对象注释的图像,在单个像素级别上,以及大约 20,000 张带有不太详细注释的图像。 https://www.cityscapes-dataset.com/ https://arxiv.org/pdf/1604.01685.pdf

Labeled Faces in the Wild

       人脸检测和识别问题一直受到特别关注。为此目的创建了大量带注释的集合。今天使用最广泛的集合之一是Labeled Faces in the Wild:http://vis-www.cs.umass.edu/lfw/。
顾名思义,该集合旨在研究无约束的人脸识别问题。它包含从网络收集的人脸图像,对照明、姿势或头部位置没有任何限制。这不是一组背景单调的肖像,而是新闻报道中的画面。该集合包含在互联网上发现的超过 13,000 张名人的图像。该系列中约有 1,680 人拥有不止一张照片。

医学

        医学图像尽管医学图像分析是计算机视觉最重要的实际应用之一,但公开可用的医学图像集合并        不多。这主要是由于此类数据的私密性。直到最近几年,当大型数据集的可用性可以显着加快算法的开发变得明确时,才开始出现大型匿名医学扫描集合。第一个在机器学习小组中流行的此类集合是 ChestXray14,其中包含约 112,000 次胸部扫描,具有 14 种疾病的指标。最近,斯坦福机器学习小组发布了另一个大型集合 CheXpert。该集合包含 224,316 次胸部扫描。 http://academictorrents.com/details/ 557481faacd824c83fbf57dcf7b6da9383b3235a https://stanfordmlgroup。 github.io/competitions/chexpert/https://arxiv.org/abs/1901.07031

你可能感兴趣的:(计算机视觉,计算机视觉,人工智能)