900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释...

点击我爱计算机视觉标星,更快获取CVML新技术



本文转自量子位。

鱼羊 发自 云凹非寺
量子位 报道 | 公众号 QbitAI

谷歌的900万注释图像数据集Open Images,再次进化。

这一次的V6版本,不仅增加1400种视觉关系注释类型,新增2350万个经过人工验证的图像级标签,包含250万个人类动作注释,还更新了新特性局部叙事(localized narratives)。

所谓局部叙事,是一种全新的多模式注释形式,包括所描述对象的同步语音、文本和鼠标轨迹。

900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释..._第1张图片
图源:谷歌博客

在Open Images V6中,有50万图像适用这一模式。

同时,谷歌也发布了COCO数据集的完整12.3万图像的局部叙事。

局部叙事

Open Images的这一次升级,重头戏就在于加入了局部叙事。

在Open Images V6中,新增了507444个局部叙事。

谷歌表示,这部分注释数据里,鼠标轨迹总长度约为6400公里;要念完所有的文本叙述,需要1.5年时间。

900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释..._第2张图片

在研究、利用视觉和语言之间的联系时,通常会使用图像字幕,即图像及其描述文本之间的配对。

那么问题来了,文本中每个单词都对应到图像的哪一个部分呢?

局部叙事,这时就派上了用场。

这些注释由注释人员完成。注释人员在念出图像描述文本的同时,会将鼠标移动到单词对应的图像区域上。

900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释..._第3张图片

并且,他们会手动纠正自动语音识别结果,确保语音、文本和鼠标轨迹三者对应正确且同步。

900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释..._第4张图片

另一个有趣的应用点是,这些图像为探索人们描述图像的方式提供了潜在的研究途径。

因为谷歌并没有指定注释人员要用什么方式去移动鼠标,所以在这些注释中,你可以看到不同的指示对象的方式。

900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释..._第5张图片

这可能会为新用户界面的设计带来灵感。

新的视觉关系,人类动作和图像级注释

除了局部叙事,Open Images V6还新增了大量新的视觉关系和人类动作注释。

比如在一张狗狗叼飞盘的图像中,除了狗狗和飞盘会被各自标记出来,“捕捉”这个动作也会被标记出来。

900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释..._第6张图片

而对计算机视觉而言,理解人的行为也是一大研究重点。于是,Open Images V6中现在一共包含250万个人类动作,比如“跳跃”、“微笑”、“躺下”等等。

900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释..._第7张图片

并且,在添加了2350万个新的经过人工验证的图像级标签后,Open Images V6里的图像级标签达到5990万个,涵盖19957个不同类别。

目前,Open Images V6共包含:

  • 600种类别的可框住对象子集。包含1,743,042张训练图像,41,620张图像的验证集和125,436张图像的测试集。

  • 19,958种类别的图像级标签子集。训练集包含7,337,077张人工验证的注释图像和8,949,445张机器注释图像。

  • 完整集合包含9,178,275张图像。

关于Open Images

Open Images是谷歌在2016年推出的大规模图像数据集,包括大约900万张图片,标注了数千个图像类别。

2019年,谷歌释出Open Images V5,新增了对图像分割掩码的注释。分割对象样本近280万个,覆盖350个类别,成为最大分割掩码数据集。

并且从2018年开始,谷歌就基于Open Images数据集发起了系列挑战赛。

谷歌希望,通过Open Images V6,能进一步刺激人们对真实场景的理解。

传送门

Open Images V6下载地址:
https://storage.googleapis.com/openimages/web/index.html

谷歌博客:
https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html



数据标注与增广交流群

欢迎关注数据标注工具与使用、增广方法,扫码添加CV君拉你入群,如已为CV君其他账号好友请直接私信,

(请务必注明比如:数据

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

你可能感兴趣的:(900万注释图像数据集升级了!谷歌开放Open Images V6,首增语音、文本、鼠标轨迹同步注释...)