韩梅梅
听说,上周AI界发生了一件大事?
李雷
对,李开复、王小川、张一鸣组了一个AI Challenger全球AI挑战赛,吸引了65个国家,1万多AI界武林高手参与。
韩梅梅
来打架了?
李雷
人家是竞技,不是打架。在视觉和翻译两大领域,分出人体骨骼关键点检测、图像中文描述、场景分类、英中机器文本翻译和英中机器同声传译五个赛道,展开激烈较量。
韩梅梅
听不懂。
李雷
ok,给你科普下,先来看一段热舞视频。
看透你,管你是哆啦A梦还是恐怖分子
人体骨骼关键点检测
人体骨骼关键点检测?乍一听,还以为和医学有关,实际上不是这样。
简单来说,该技术是让计算机学会从海量的图片中,完整识别人体骨骼的14个关键点,描述出人体的基本框架。
14个关键点包括:头顶,脖子,左右肩关节,左右肘关节,左右腕关节,左右髋关节,左右膝关节,左右踝关节。
人体骨骼关键点检测在实际生活中有多项应用,比如体感游戏、无人驾驶、安防等。
例如,通过对路边行人的实时监测,无人驾驶汽车可以准确捕捉行人的运动姿态,预估他下一个动作,是站在路边聊天,是准备过马路,还是准备跑步闯红灯。无人驾驶汽车据此做出实时反应,避免危险发生。
在安防应用中,利用该技术,机器可以不通过面部长相,单凭人体走路的姿势就能预测其身份,在茫茫人海中,快速锁定恐怖分子。
所以,不管是哆啦A梦掏法宝的姿势,还是恐怖分子掏枪的姿势,机器都能够准确识别!
本项比赛,主办方开放了一个30万张图片数据集,包含了超过100种复杂生活场景内的实际人物动作与姿态,标注人物个数达到60万量级。
这是目前全球规模最大的数据集。对比一下,另一项国际计算机视觉领域最受关注和最权威的比赛MS COCO的标注人数仅为10万人。
机器达到大学生同等文化水平
图像中文描述
图像中文描述比赛,要求参赛者让机器学会看图说话,一句话点明图像中的重要信息,人物、场景、动作等内容,即要符合自然语言习惯。
我们为选手提供了一个庞大的数据集,选手据此做训练,生成了一个提炼Topic关键词的算法,根据关键词重新组合后的描述。
比如下面这张PPT是一个获奖团队的作品,三张图片下面各有两句描述。可以明显的看到,经过优化后的第二句,要比第一句准确很多。
图像中文描述赛道选手提交案例
Topic 1:玉米、玉米堆、堆旁、生机勃勃。
优化前:院子里有两个穿着各异的人在做食物。(不够准确)
优化后:室外一个拿着玉米的女孩前面有一个坐在玉米堆上的男人在干活。(比较准确)
Topic 2:系鞋带、休息区、穿鞋。
优化前:窗台的石台上坐着一位穿着短裙的女士。(明显错误)
优化后:一个穿着灰色裤子的女人在道路上系鞋带。(相当准确)
目前,国内外图像描述的数据集主要是英语(例如MSCOCO数据集),还没有相应的用于中文描述的图片数据集,但中文描述通常在句法、词法上灵活度较大,英语描述算法未必适用。
数据不好,就会影响牛逼技术的产生。为了准备一个高质量的数据集,主办方共动用了250人的团队,其中200人标注,50人检查,共历时7个多月。5人独立描述1张图片,以此保证描述的多样性。
正如AI Challenger执行委员王咏刚所期待的那样:倾力投入,从无到有打造一个中文世界的数据集和竞赛,让更多人才和AI交流愈加活跃起来。
最终,主办方打造了一个30万张图片的数据集,共有150万句中文描述,超过100种复杂生活场景。该数据集在训练场景复杂度、人物动作复杂度、身体遮挡情况都远高于现有的其他数据集,并创新性地引入了形容词和中文成语,大大提升了描述语句的丰富度。
最终的评比显示,训练成果基本能达到与大学生同等的文化水平。对同一张图,机器能给出多种准确的表达方式。
实际生活中,这项研究的成果,可以被直接应用于图像理解、机器人视觉、盲人辅助等领域。
另外,它还能进一步丰富和完善搜索方式。
目前的图片搜索,计算机只能通过筛选网络上的相关关键词来确定所需图片,准确率不高。而有了精确的机器描述,计算机能真正理解图片中的内容,更精准的提供信息,让用户不必再为图文不一致的搜索结果降低效率而烦恼抓狂。
有了TA,去火星交流都不怕
同声传译
口语与书面语的差异大,比如无标点、无断句、口语化,甚至夹杂语气词,这些问题给机器同声传译带来了极大的干扰。
英中机器同声传译赛道选手提交范例
为了解决这个问题,选手首先需要设计多种策略,将语音识别后的文本,处理为可用于翻译的文本,然后翻译成目标语言。
比如上图,原文没有任何标点,断句不清晰,且存在大小写误判。机器需要先断句,加上标点,然后再翻译成中文。可以明显的看到,断句后的翻译效果,在句式的复杂度和句意的准确度上都要比之前好。
英中机器同声传译赛道选手提交范例
这项比赛,主办方提供了1000万句对的口语训练数据,并尽可能做了优化处理,全部经过译员检查和矫正,句正确率在97%以上,英中双语句式对照工整、质量高、噪音低。
英中机器同声传译赛道选手提交范例
自动记录每一刻的小美好
场景分类
场景分类竞赛的趣味性很强,一共吸引了453支团队参赛,是各赛道中参与人数最多的。
该赛道要求参赛者根据图像内容,为它赋予一个语义类别,比如草地、宫殿、酒吧、沙漠等。
场景分类是图像检索、图像内容分析和目标识别等问题的基础。但由于图片的尺度、角度、光照等诸多因素的带来的复杂性,场景分类一直是计算机视觉中的棘手问题。
主办方从400万张互联网图片中精选出了8万张,分属于80个日常场景类别,例如航站楼、足球场。每个场景类别包含600-1100张图片,供参赛选手训练。让他们以此集建立算法,预测每张图片所属的场景类别。
这项技术的应用之一,是把各种不同场景不同类别、堆得比山高比海深的图片,自动归类,节省人工检索的时间。
“AI Challenger全球AI挑战赛”背景介绍:
“AI Challenger全球AI挑战赛”是由创新工场、搜狗、今日头条联合发起的竞赛活动,面向全球人工智能领域科研人才,致力于打造大型、全面的科研数据集与世界级竞赛平台。
首届“AI Challenger”全球AI挑战赛回顾
2017年首届AI Challenger有视觉和翻译两大类共五个赛道,分别是人体骨骼关键点检测、图像中文描述、场景分类、英中机器文本翻译和英中机器同声传译。
主办方为首届竞赛奖金提供了200万元人民币,公开了超过1000万条中英文翻译数据、60万个人体动作分析标注数据、30万张图片场景标注和语义描述数据公开。这是国内迄今公开的规模最大的科研数据集。
未来三年,“AI Challenger ”将持续投入千万基金,建设更大规模的AI前沿领域高质量数据集,还会主办世界级的AI竞赛,将AI Challenger打造成具有全球影响力的竞赛平台。
创新工场董事长兼CEO、人工智能工程院院长李开复说,“我最大的希望就是,未来三年,AI Challenger能消除中美年轻顶尖人才之间的差距。从我们这里走出去的优秀选手,最终能成长为中国乃至世界AI产业的领军人物。”
推荐阅读:
—— END ——