中国人工智能学会通讯——AI Platform for Business: Research Roadmap

中国人工智能学会通讯——AI Platform for Business: Research Roadmap_第1张图片

很高兴来到这样一个场合,刚得知秘书长让我参加这个创新创业论坛时,我觉得和自己的身份有一点距离。我来自于企业研究院,不过从技术角度来讲其实有共通的地方,我所在的IBM中国研究院不断地制造新技术和新的产业方向,改变了我们公司,所以我想今天讲的一个话题是在1万米的高空从技术的眼光看看人工智能对于行业发展的变化,哪些关键的技术可能会被改变。那么既然讲到了,想给大家一点感觉,简单回顾一下历史。因为从历史上来看,计算机产业从过往来讲变化很大。大家也许不不太清楚,最早的程序员都是女生,或者是说多半是女生,原因是最早的程序员面对的是机器、是硬件,程序怎么编?通过一个硬件后面板子的连线,会连成这样,把连线改变,程序逻辑也就改变了。所以,编程实际上相当于硬件上通过连线来做,女性在这方面或许更有优势,会更细致一些,有一根线松了或连错了,程序会出BUG了。

中国人工智能学会通讯——AI Platform for Business: Research Roadmap_第2张图片

计算机自出现以来有很大的发展,它可以开始编程,用软件的方法来编程是很大的变化。最早的硬件计算机,能够做简单的计算,比如人工普查、导弹的弹道计算,所有东西都固化。当你写一个程序开始交流,这也带来了像PC或者是手机进入我们视线中,大大改变了我们的产业,所以现在的计算机是很强大的。现在有一个新的方式,我们可以通过计算机交流,这个交流方法是说我们除了有这样的程序以外,还可以通过训练一种模型,让计算机通过数据解决现实中的问题。所以,我们讲计算机其实是在过往100年间发生了很多的变化。

中国人工智能学会通讯——AI Platform for Business: Research Roadmap_第3张图片

其实AI 也是一个老话题,2 000多年前的古希腊, 比如亚里士多德这些人,他们讲一些逻辑、辩证和思想,现代AI逻辑推理的思想最早可以追溯到他们。但是我们把AI用在计算机系统里面,这是计算机发明以后。早期很多发明的人用AI做很了不起的事情。70年代有人用AI做推理,如能不能把红色的三角形给我搬起来,也许上面还摆着一个另外的小物体,必须要把那个物体搬开,然后拿出来。在1973年有人用AI的技术去做画,这个很了不不起。我记得昨天的主论坛说到了计算机是不是能够有创造力,这个创造力是怎么来的。其实人们都见仁见智,但是有一点很有意思,多数的艺术家的艺术都说是来源于生活。他也是通过一些大数据,通过生活中的一些经历,或者说他小学比如说画画,要向很多的画学习,就是说他小时候做过很多的基本功。这种机器画画这件事,也做了很多,1973 年开始做。我们现在来看很多人用深度学习方法来做,也取得了很好的效果。比如,用深度学习去学习梵高画的模式,给他任何一张照片,都能画成梵高的状态。让机器来教书,教的是代数,可以看到在五六十年前以前,我们就试图让机器做一些像艺术家、老师的工作。所以如果这样来看,今天在讲我们AI,刚刚说把这些机器人放在这个酒店里去帮助酒店去送水、送东西,其实这些工作是一脉相承的,只是说今天我们可以做得更好。

中国人工智能学会通讯——AI Platform for Business: Research Roadmap_第4张图片

最近也有很多有意思的事情,明天AlphaGo和柯洁下棋,机器在下棋这个问题上已经无数次证明过人的能力。最左上角这位老先生是我们IBM 的老前辈Arthur Samuel,1956 年写程序很难,没有高级语言,就是通过开关连线和打孔卡片来写程序,在IBM701上做算法、做国际跳棋。里面用搜索树的方法来做国际象棋的方式,那时好像已经有直播了,战胜的美国一个洲际的冠军,很了不起了。下棋这件事人们觉得很了不起的事情。小区里经常看到一些退休的老头下象棋下得不亦乐乎,越是年龄大可能越会觉得这个里面有很多的哲理。右上角的人也是很了不起的,Gerald Tesauro,他现在仍然在IBM研究院工作。在1994年他通过机器和机器自己下去优化西洋陆战棋棋局评估策略,其实这些技术和AlphaGo 的技术是一脉相承的,可以看到整个发展历程。下棋是很简单的过程,棋本身的规则很简单,输赢信息在台面上,所以对人工智能的很多人来讲,下棋是一个验证算法是不是有效的很好的方式。比方说,现在谈到了很多所谓的对抗神经元网络,可能很多都是因为AlphaGo做了很好的榜样,这是很有意思的工作。但是其他,随着搜索状况很多,信息公开的是能计算的;有一些信息很难计算,比如说语言是非常难计算的。语言的产生,最近研究语言学的同行做了一项有趣的分析,发现不同语言文字在大脑里的兴奋区域不同,这个关键字在这个区域,另一个关键字在脑的另一个区域,他们把结果画了一张图。人类历史到现在有几百万年,甚至上千万年时间,语言同样也进化了这么多年,自然语言理解这件事是非常难做的。2011 年时IBM 做过一件事,沃森试图解决其中一部分的问题,问答机器是不是能够做得比人好。结论是,沃森系统打败了人类比较好的专业选手,从这个角度来讲,好像我们离智能又近了一步。原因是说,即便图灵测试也是一个问答的场景,问答做得好,其实也打开了一扇大门。

今天我们讲计算的变化,从这个打卡机、打孔机到可以编程的,大家手里用的手机也好,电脑也好,服务器也好,可编程的系统,到今天整个的计算机产业突然之间有一个新的话题,就是AI。这一轮AI非常热。前年我参加中国第一届人工智能大会(CCAI),那时讲人工智能59 年,去年是60年,会场上都是人山人海。回忆我当年本科毕业报博士方向时,很少有人愿意选AI 的方向,很冷门,这几年发生了很大的变化。也就是说不到20年的时间,为什么这次会发生那么大的变化?有两件事促成了这次人工智能的爆发,让AI现在的算法和技术可以用在场景中。一是大数据分析在各行业的成功应用;二是计算机本身的计算能力飞速的提高,让像深度学习这类运算复杂度极高的算法重获新生。

我们可以想象现在生活在数据时代,已经没有什么隐私可言。在座的各位没有微信的有几位?真希望有两位能举手。我问问为什么,你的生活、你的朋友圈也变大——充分互联了。原来有六度空间,现在可能不需要六个。原来心理学的试验说,人一辈子有150个朋友,最好的10个左右,女生闺密只有1位;现在我听说有一些人的朋友圈超过了他的量,很多超过了5 000位,这是很难做到的,而且这么多人的朋友圈怎么看得过来。可见技术的发展让人们的沟通变得更顺畅。回过头来讲数据变得更容易了,那么多东西,我们首先构建语言模型很难达到像真人的场景;第二个是有数据没有足够的计算能力还是不行。

很多年前,我有同学利用循环神经元网络做语音识别,训练也不大,很小的一点数据,得到结论也很有意思,神经元网络并没有提高识别率,反而降低识别率了,为 什么?一个是数据不够大,如果数据大了,训练时就不能收敛,现在我们知道了为什么不能收敛了。我们需要多少个GPU,多少个CPU在一起算,分布式运算是能够收敛的,现在的计算机可能算两个月,那么大量的数据不能收敛了。过去计算机比现在慢了不知道多少数量级,不可能做到这一点,所以海量的机损能力也让这个数据可以有很好的基础。现在相当于让八九十年代、七八十年代发表的论文所说,以前无效的东西,在大数据的智能环境下就有效了,像现在的深度学习一样的。昨天我记得主报告论坛里面讲到了一共就DNN、CNN、RNN三个锅,三口锅一起训练。虽然话讲得很简单,但是确实是这样,很多的数据和工具加上工具能力就变得简单化了。玄妙的东西也变成调参数的过程。我们往上看一下从整个人工智能角度来看,很多的技术领域是非常难解决的。到现在为止并没有说人工智能在发展到某一年、某一天,突然之间就开了窍。而是某一个点、某一个应用上得到很好的验证,另外一个应用尝试也得到了不错的发展,仔细看很多领域仍然很难的。

中国人工智能学会通讯——AI Platform for Business: Research Roadmap_第5张图片

IBM研究部门在人工智能领域主要研究四个领域的技术。

第一部分是数据理解,真正的难点是对非结构化的数据和场景的理解。理解什么?给你一张照片,设想一个场景,人比机器人厉害的地方。你可以设想一个昏暗的灯光下有一个小台灯,有一朵玫瑰花,然后一男一女年纪相仿坐在那,男生抓着女生的手,旁边放着钻戒,这是什么场景。人可能基本上能想到这个场景,但是机器理解这个场景是很难的。它很难联系到这个场景是求婚。实际上我们理解一个图片的内容,到真的理解这个图片上的场景是一个很难的过程。

第二个是推理。推理就更有意思了,很多时候,我们说计算机、人工智能在很多行业里做得很好。比如,医生为什么变成名医了?因为他看到了这张图片,看到了这张病理,看到了现在的情形就能推出这个病人将来可能发展到什么状况;而普通小医生是看不不出来的,因为他没有见过这个场景。这个推理里很多地方是基于他的知识和经验,基于一些常识,让机器去学习常识是很难的,因为没有足够的数据。

第三点是人机交互。人机交互怎么做,用语言的方式、姿态的方式去跟机器交互,还是一个比较浅层的交互。尤其是中国语言博大精深,字面上的问题和真正意思不一样,也许这个词配合当时的场景,再配上语调可能表达的意思就不同了。

最后一部分是系统。我们搞计算机的,最后的网络是系统,能不能构建一个更有效的系统来解决这个问题,这里有这么多技术,而我们只是选择这么一个技术,那么多技术需要解决。所以,这个领域还有很长的路要走,还有很多的机会。

这里我们举几个例子,希望给大家一点启发。比如能不能问机器人一句话,告诉我ICBC过去十年整个资产负债表的情况?它的华东地区的情况怎么样?银行的总裁经常问外面的分管行长这么一个问题。机器做这件事的难点在哪?在于如何理解这个文档。举一个简单的例子,比如一家上市公司,这家上市公司有财务报表,可以把这个财务报表的信息拿下来,人可以看得很清楚,有一张图表说3 月份它的数据是多少、4 月份是多少。但是建立的场景是这个人有一些金融常识,他知道这个图表的横轴和纵轴什么意思,波动代表着什么?这是需要一点时间的积累和经验的积累才得到的。但是,你让机器理解这个图表是很难一件事,且不说理解里面的语意内容,把这个pdf文件的内容抽取出来,变成数字化都很难。因为图表有很多种,上海交易市场是一种情况,各个公司又都有自己的图表,转化为PDF变成了一张图,从图中准确地恢复文字间的语义关联在技术上是很困难的。

最近Watson出了一个新广告,做了一件什么事?IBM研究院在图像视频分析领域做了很多年,他们想试试能不能辅助艺术家的工作。我们看每一部电影都有一个预告片,可长可短,15秒、30秒、5分钟的都有。预告片是很重要的,因为放预告片的场景一般是广告场景。大家想看能不能让机器来做这件事,因为所有的这些电影拍完了以后素材都在,能不能抽取一些场景。从视频分析的角度来说这个很简单的一个任务。为什么说简单,我们有做场景切分的、有做镜头切分的,我们有技术做得很好。但是预告片是艺术家才能剪出来的东西,好的和差的是不一样的。Watson把几百部恐怖片的各种预告片做了一个分析,这个预告片里出现的镜头的分类是什么分类。因为一部片子如果做视频可能有很多的故事和叙述环境,与很多剧情相关,如果分类可能会分很多类,但是惊奇地发现,这些恐怖片的预告片里只出现三类场景,三类场景是什么?温馨的场景、疑惑的场景,最后是可怕的场景。恐怖片都跳不出这个套路,分析完了以后,我们去看这个Watson剪接的预告片。开始是很温馨的场景;随后开始出现一些疑惑、悬疑在里面了;最后是可怕的场景。

从数据分析角度出发,原来我们做的是计算,现在是分析。分析有什么特点?有海量浮点的计算几个月甚至是更长的时间,能不能做得更快,做各种各样的加速器。我们都是芯片角度的,改造现在的芯片让它更适合做神经元网络工作。这是一个很了不起的项目,模仿脑去改变现在一个芯片的设计和系统架构。总之,我们看到了很多的机会,技术上当然有很大的挑战,真正落到实处有很远的距离要走。再从软件开发的角度来讲,原来我们看软件开发,现在我们讲一边是运维、一边开发,开发人员和运维人员在一起,这是非常时髦的观点。但是AI运用场景里面多了一个角色,这里面有很多的运维不仅是系统层面,还有数据模型的运维,所以我需要Data Scientist。

这个世界每天都在变化,但是好像从来没有像现在这样快。中午吃饭时清华大学的朱小燕老师给我介绍了她做的点菜机器人,以后餐桌上也可以做智能的交互。AI的技术促进很多行业的升级,数据成为了新的核心竞争力。掌握数据的人和提供数据分析服务的人可能是两拨人。这是这一轮产业变化里面很重要的。所以无论做什么样的场景,在这个过程中能够迭代、积累更多的数据,做更好的场景,再有产生更多的数据、更多的用户、新的场景,这是这一轮里从行业、产业、创新创业角度会产生很多的新机会。做AI 的人终于不能像我读书时那么糟糕,觉得没有人理他。从另外一个角度来说,技术的发展是循序渐进的,毕竟这里有很多的技术需要更多的理论上的突破和更多的实践积累才能做出来,希望同在座的各位一起能够为这个更好的世界添砖加瓦。

(本报告根据速记整理)

你可能感兴趣的:(中国人工智能学会通讯——AI Platform for Business: Research Roadmap)