全文共6085字,预计学习时长18分钟
图源:Unsplash
人类正处于争夺人工智能统治地位的激烈角逐之中。美国五大科技公司(谷歌、亚马逊、脸书、苹果和微软)正将大量资金投入到图像识别、语音识别和情感分析等领域的研究和开发之中,并以前所未有的速度对人工智能技术初创公司进行收购。
在中国,百度、阿里巴巴、腾讯和小米在政府的支持下,正在迅猛发展,以期望在2025年成为人工智能领域的全球领导者。这一新型的军备竞赛尤为紧张激烈,因为似乎结局会是赢家垄断人工智能行业,通吃一切(这点下文会详细说明)。
人工智能的进步依靠三个重要部分共同协作:算法创新、计算能力和数据。最先进的深度学习算法是推进人工智能技术发展的首个重要部分。随着大量财力流入学术实验室和大型科技公司,这些算法正在迅速完善。自2010年以来,最直接的结果就是学术研究呈爆炸式增长。例如,从2014年至2017年,有关神经网络的研究报告数量的复合年增长率达37%。同样,近期在首尔举行的国际计算机视觉大会,也见证了2017年到2019年研究报告递交量的翻倍增长。值得庆幸的是,学术研究人员开放了大多数的研究,以期望能和人工智能团体分享自己的进展成果,而大型技术实验室则渴望从世界范围内吸引最优秀的研究人员。
人工智能指数2018年度报告
计算能力是推进人工智能的第二个关键因素。在该领域,人们不断取得大量进展,在2012年到2018年间,见证了计算领域高达300000倍的增长。呈指数的增长的计算能力超越了之前每18个月翻一番的摩尔定律。有理由相信,随着Cerebras、Graphcore及HorizonRobotics等新的硬件初创公司开发出专门针对人工智能的芯片,实现FLOPS/Watt(还有TPU)的实质性增长,这一趋势仍会持续。性能的提升也伴随着计算成本(FLOPS/$)的下降,再加上分布式云计算,这将会让人工智能更加容易上手。
人工智能方程式的第三个,也是最后一个重要部分,就是数据。尽管有大量的算法创新,但数据依然尤为重要,因为如今的算法对数据有着极大的要求。为了达到更深层次的见解。人工智能算法需要用大量的数据集进行训练,并且需要用更多的数据集进行验证。数据能让人工智能算法更好运作,更快学习,更加强大。事实上,一个拥有更多数据的简单算法往往胜过一个拥有较少数据的复杂算法。除此以外,许多算法都出现了边际性能的衰退,也就意味着需要对其输入更多数量级的数据,以取得输出准确性的小幅改善。
一个叫做Allegro的人工智能计算机视觉平台演示了回报下降的实例。通过使用一个含超过20万张打了标签的图像 (COCO) 的公共数据集,Allegro训练了两个对象检测算法,以自动识别80个不同类别的目标图像(比如,狗、猫、汽车、自行车)。实验的结论是,在识别大约前1万张图像时,算法的平均精确度迅速增加,之后就开始放缓,因此完全体现了回报下降的规律。
读者可能会对这一点感到困惑,因为如今世界上有着大量的数据。显然,每日产生的数据量是巨大的。2018年,这个数字是每天2.5万兆字节,其中90%的数据是在前两年产生的。这一增长仅随着物联网的增长而加速,而物联网会让人们的家更智能,让健康更持久,让生活更便捷。
然而,这个数据宝藏背后,是不可忽视的事实:数据分布不均匀。更具体地说,许多大型科技公司拥有大部分生成的数据。这些公司主要是美国的5家和中国的4家。比如,每天有3.5千万张图像上传到脸书上,650亿条信息在WhatsApp上被发送,35亿个搜索词条在谷歌上产生。
获取数据的不公平意味着数据已成为进入科技世界的新壁垒。正如佩德罗·多明戈斯 (Pedro Domingos) 在《终极算法》(The Master Algorithm) 中所言:“谁拥有最多的客户,就能积累最多的数据,学习最优秀的模型,获得更多最新的客户,从此往复,良性循环——但对竞争对手来说,则是恶性循环。”在这场科技巨头企业的新型斗争中,较小的科技初创公司和非科技公司难以与之抗衡。但一切都随合成数据的出现而改变。
在说明合成数据为什么能成为游戏规则改变者的原因之前,先解释一下合成数据是什么,还是很重要的。合成数据,亦或是仿真数据,顾名思义,是指由计算机生成的,而非从真实活动中抓取的数据。换言之,这是一种在算法上创造的数据,复制了真实数据的统计部分。尽管合成数据在90年代就已出现,随着储存成本的下降,生成对抗网络等新算法的出现以及计算能力领域的大量进展,人们对合成数据的兴趣重新燃起。
合成数据广泛运用于多个领域,包括为新产品、模型验证以及最重要的人工智能模型训练测试数据。就和每个行业都要收集真实数据一样,合成数据可在广泛的行业中生成。它可应用于临床科学实验,以避免涉及由健康数据造成的隐私问题(见MDClone)。它可运用于敏捷开发和开发运行,以加速测试和质量保证的循环。金融机构可以使用合成数据来测试和训练欺诈检测系统。最后同样重要的是,它可以用来训练计算机视觉算法。
此文将着重讲述合成数据如何作用于计算机视觉领域的,这是一个训练计算机通过图像和视频识别理解世界的研究领域。尽管60多年前这一领域起步于训练计算机分辨三角或方形等形状,计算机视觉的终极目标是训练计算机和人类一样理解世界。
人工智能驱动的检测平台StandardCognition展示了其如何分辨顾客挑选的商品。(图源:StandardCognition)
计算机视觉研究人员正在解决一些当下最重要的问题。应用实例包括医学成像(见Aidoc)、无人驾驶汽车、智能商店(见Standard Cognition)、无人机,增强现实技术 (AR) 和虚拟现实技术(VR)。所有这些应用包括训练计算器识别不同事物,以发现癌症,避免交通事故,或是带上AR和VR耳机看世界。这些应用实例都要求用大量数据对算法进行训练。比如,需要给算法提供数以百万的癌症扫描影像,以获得如今能超过放射科医生的精确诊断。类似地,训练一辆汽车识别障碍,避开障碍,或在恰当的时机停下来,也需要大量图像,以打造出比人为驾驶汽车更安全的无人驾驶汽车。问题在于,对这些数据的获取成为了增强所有这些人工智能模型精确度的障碍。合成数据能解决这一主要瓶颈问题,并且相比真实数据,具有更加显著的优势。
现在应该很清楚了,合成数据的主要优势是可扩展。由于合成数据是通过算法创建的,因此字面上来说,人们可以根据所需为算法训练创造出足够多的数据。例如,在另一个医学案例中,多伦多大学的研究人员创造了合成X射线,该X射线用来模拟特定的罕见情况。他们把真实的X射线与这些情况结合,以获得足够大的数据库来训练神经网络,从而辨别罕见病症。这一案例是个多方面的重大突破,也为那些缺乏用来重要数据来改进算法的科技公司带来了良机。
除了可扩展,合成数据还可以避免很多在从真实数据中抽样时会碰到的统计问题。有关这一问题最常见的例子就是抽样偏差。公司很难获取到一些真实数据,而这些数据需要涵盖足够大的差异,以代表世界上事物的广泛分布。人类就是个很好的例子。正如最近《财富》杂志所言,即使对谷歌这样的大公司来说,收集涵盖足够多的不同种族的面部数据,都是很大的挑战。这是一个巨大的问题,因为在偏置数据上训练算法,会导致算法在面对用户时的“表现”出现偏差。为了解决这一问题,DataGen 这样的公司正在使用差异性较大的数据打造完全合成的人脸,以确保对算法的训练能在涵盖更真实世界人口分布的人脸基础上进行。
DataGen用高差异性打造的完全合成的人脸实例(图源:DataGen)
和真实数据的统计问题联系起来的话,合成数据的生成能够用来解决现实生活中的罕见情况。这些黑天鹅事件在现实生活中难以掌控,亦或是说在某些情况下甚至根本不值得去处理(比如,危险事件)。例如,在目标检测领域,抓取有关交通事故或者野生动物横穿马路的数据是很困难的。然而,对自动驾驶汽车来说,了解交通事故的状况或是避开野猪横穿高速公路的情况是至关重要的。这就是即使特斯拉每月通过自动驾驶汽车车队抓取了大量真实图像,它还是在市场上建立了一个最先进的模拟器,以合成数据与真实数据相结合的方式来训练其人工智能模型的原因。
合成数据的另外一个好处就是成本更低。总的来说,人工收集和标注真实数据的成本是非常昂贵的(而且非常耗时)。基于应用案例,一旦算法投入生产,收集和标注数据至少会耗费成百上千的美元。更不用说收集和标注的过程要花费数周或数月了,这无疑大大减缓了人工智能研究人员取得进展的速度。最重要的是,有些数据的收集非常困难,因为这些数据难以获取。比如,收集来自战争地区的数据是很困难的,或者,去到山区或深海环境获取数据也是很难的。因此,合成数据为克服收集数据需要大量成本这一缺点带来了巨大的机遇。
员工们正在给一家标注公司手工标注图像(图源:纽约时报)
当需要更改硬件和摄像设备,大范围跨越数组进行真实数据抓取时,这一成本就会相当高。这是科技公司不断发布含内置摄像头的新产品遇到的情况。每一台新手机、监控摄像头、机器人或无人机都有透镜参数,它会曲解先前算法的训练方式。这些算法一开始经常遇冷,需要用新数据以正确的参数进行重新训练。差异越大,新产品所需的数据就越多,比如,如果旧算法是用视平线高度的数据训练的,那么一台新扫地机器人就需要全新的数据。在所有这类情况下,使用合成数据能够轻而易举地转换摄像头的内外参数,从而提取出完美适合每种应用情况的数据。
机器人技术是合成数据能够产生巨大影响的又一领域。机器人专家正致力解决非常困难的问题,同时也面临训练数据稀缺的挑战。许多机器人训练使用深度强化学习的算法,这些算法通过自我探索学习新技能。这就需要成千上万的样本以获得改善。由于机器人资金耗费巨大,这一过程成本过高,几乎不可能在现实实验中通过人力的迭代来完成。然而,在合成环境中用上“代理”则是训练机器人的完美沙盒。
合成数据的另一关键优势就是保护隐私。如果说《通用数据保护条例》的出现带来了什么启示,那就是政府有关隐私的立法对科技行业产生了重大影响。科技公司需要转变其收集的数据的方式和类型。如今,收集人脸、人体全身甚至人家中的数据是个相当敏感的话题。然而,如果人们想要继续解决围绕在人类和环境四周的巨大挑战,就需要继续为训练人工智能算法收集这类数据。为什么不合成完全没有隐私风险的大量现实人脸或室内环境图片,来取代从人们的家中抓取数据这一行为呢?
DataGen创造的完全合成的室内环境实例(图源:DataGen)
最后,合成数据的另一个关键优势是,它包含了比人工收集标注真实数据更丰富的信息。一方面,合成数据提供了完美真相,而传统的人工标注的数据总是存在一定程度误差。这一点本身就为训练人工智能算法带来了巨大的价值。然而,其真正的超能力在于,它有提供3D标注之类更深层面信息的能力。众所周知,由于人工标注的固有限制,3D标注很难扩展。使用合成数据,就可以涵盖所有3D几何图形信息、3D语义元数据、物理参数,甚至其他真实数据无法提供的类别。例如,合成数据可以包括有关深度、物质、物理学(比如物体质量或折射)的数据,甚至其他语义参数。为了解释得更清楚,下面请看两个具体实例:合成人眼和抓取东西的合成手掌。
科技公司需要人眼数据训练人工智能算法是有很多原因的:情绪识别、AR和VR技术,甚至医疗设备。使用合成人眼,就可以获得红绿蓝 (RGB) 颜色数据、红外线数据、景深图、分割图和一些细节,比如人眼实际注视方向或人眼上和人眼周围的各种折射参数。
对合成人眼的额外标注实例(图源:DataGen)
在用手抓取物品的情况下,可以使用以上信息,但也要涵盖物体质量和材质数据,以及物体可被抓取的位置,或是手实际抓取物体时的变形参数等语义环境数据。当在训练算法识别人在抓取什么东西(智能商店)或如何抓取物体(机器人)时,这些额外的变量都至关重要。
对人手抓取物体进行的额外分割实例(图源:DataGen)
现在应该清楚了,合成数据为解决数据缺陷和进一步加速人工智能算法的学习曲线提供了绝好机会。然而,与所有软件一样,合成数据的能力只同步于其所建立的模型。为了生成良好的结果,合成数据需要较高的质量,要能够完美应用到现实世界。正如OpenAI 的研究科学家乔什·托宾(Josh Tobin) 在埃文·尼塞尔松 (Evan Nisselson)发表于TechCrunch的一篇文章中所言:“打造一台精确的合成数据模拟器真的非常困难。在由合成数据完美训练的模型和真实数据训练的模型之间,其精确度存在3-10倍的误差。鸿沟仍在。合成数据已经能够不错地完成很多任务,但在要求极度精确的情况下,目前其性能依然差强人意。”
好消息是,有很多初创公司正在着力解决这一难题。其中就包括一个名为DataGen的以色列公司。DataGen的团队正在打造一台合成数据生成引擎,用来大规模生成人物和环境的逼真数据,以训练计算机视觉算法。当笔者第一次了解到该公司时,最令人印象深刻的是其数据的逼真程度。笔者认为,如果合成数据能够到迷惑到一个人,使其信以为真的程度,那么该合成数据就足以用作训练神经网络了。然而之后笔者发现情况并非一定如此,该团队将自己的数据和真实数据进行比较,结果发现合成数据已经超越了真实数据。这就意味着人们已经到达了填补模拟与现实之间鸿沟的程度,而这一鸿沟在过去的十年间击退了无数研究人员和科技公司。
DataGen用算法创造的及其逼真的人手实例(图源:DataGen)
缩小模拟和现实之间的差距意义重大。合成数据会平衡大型科技公司与无法获得同样类型真实数据的小型初创公司之间的竞争。较小的科技公司将会有能力构建出超越强大对手的算法,因此重新平衡激烈的人工智能竞赛。
也就是说,大型科技公司也会将合成数据和真实数据结合起来使用,并将在自己的人工智能算法上见证巨大进步。这一不断增多的竞争对社会将是完全有利的,因为人工智能研究会加速并生成更好的真实成果。
最后,无论是初创公司还是大型科技公司,合成数据都将会引领计算机视觉和人工智能领域带来下一个突破,并激发出永远改变人类历史进程的创新成果。
图源:Unsplash
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)