AI_图像标注:图像标注简介

一. Image Caption任务简介

1.传统的计算机视觉任务

AI_图像标注:图像标注简介_第1张图片

深度学习在图像领域取得了爆炸式的发展,这些任务的正确率直逼人类水平,可是:

2.计算机已经理解图像了吗?

 

AI_图像标注:图像标注简介_第2张图片

这是faster-rcnn的一个目标检测结果,看似结果非常好,可是当我们把这张照片输入到一个计算机里时,它能告诉我们的只是:“这是马,这是人,这是狗”,这远远没有达到计算机已经理解图像这一个判断。我们希望的是,当输入这一张照片时,计算机能够告诉我们:“一个人骑在一匹马上,他的狗坐在马前面”。我们甚至希望计算机在看到这幅图片后能够说出下面这段话:“在一个阳光明媚的下午,一个穿着蓝色衣服的年轻小伙坐在一匹健壮的马上,他的爱犬坐在马的前面,他们相互对望着,看起来非常开心”。这样才能勉强说计算机已经理解了图像。

3.Image Caption涵义

(图像标注 图像字幕 看图说话 图像理解)

本质是视觉到语言(Visual-to-Language,即V2L)的问题

AI_图像标注:图像标注简介_第3张图片

这张照片是一年级看图说话的作业,上面的描述:”图上是什么时候?都有谁?在哪里?在干什么?在说什么?“ 正好对应了image caption任务的要求:根据图像给出能够描述图像内容的自然语言语句。这对人类来说实在是一个小儿科的任务,但是在计算机视觉领域却不能不说是一个挑战。因为这需要在两种不同形式的信息(图像信息到文本信息)之间进行“翻译”。

4.Image Caption 当前水平

和人类水平描述差距仍然明显!

AI_图像标注:图像标注简介_第4张图片

关于image caption这个topic阶段性文章

•Explain Images with Multi modal Recurrent Neural Networks, Mao et al.

•Deep Visual-Semantic Alignments for Generating Image Descriptions,Karpathy and Fei-Fei

•Show and Tell: A Neural Image Caption Generator,Vinyalset al.

•Long-term Recurrent Convolutional Networks for Visual Recognition and Description,Donahue et al.

•Learning a Recurrent Visual Representation for Image Caption Generation, Chen and Zitnick

5.Image Caption 实际应用

图像标注问题如果能够得到很好的解决,那么价值是显而易见的

图像检索(更细粒度的搜索)

视力受损人士的生活辅助(计算机成为另一双眼睛)

6.Image Caption数据集

1. Microsoft COCO Caption数据集

• 原COCO数据集中约330,000张图像,人工地为每张图像都生成了至少5句标注,标注语句总共超过了约150万句 

• MS COCO C5/C40

2. Flickr8K和30K

• 图像数据来源是雅虎的相册网站Flickr 

• 数据集中图像的数量分别是8,000张和30,000张

3. PASCAL 1K

• 大名鼎鼎的PASCAL VOC challenge图像数据集的一个子集

• 20个分类,随机选出了50张图像,共1,000张图像 

7.Image Caption评价标准

BLEU

• 图像标注结果评价中使用最广泛,设计初衷并不是针对图像标注问题,而是针对机器翻译问题 

• 分析待评价的翻译语句和参考翻译语句之间n元组的相关性

 


 

你可能感兴趣的:(计算机视觉与图像处理)