2月16日,在“第七届挖贝北交所·新三板领军企业年会暨挖贝金股奖颁奖盛典”上,刘鹏教授作主题演讲——《人工智能引领未来》,深度剖析了人工智能发展的三次飞跃,为现场嘉宾带来了一场科技盛宴。
刘鹏教授(配图来自挖贝网wabei.cn)
以下为刘鹏教授演讲实录:
非常荣幸有这样一个机会给大家做分享,我在这里主要讲人工智能在最近这十年的三次大飞跃,第一次飞跃是2012年图像识别的飞跃,主要来自于神经网络技术的突破,第二次飞跃是AlphaGo在2016年挑战围棋世界冠军李世石,第三次飞跃就是最近特别火的ChatGPT,从去年11月份发布至今,ChatGPT已经引起了全世界的震动。
首先来看看第一次飞跃,在美国有一个比赛叫ImageNet,这个比赛是由李飞飞组织数据来筹办的,从2010年开始建立数据库,数据库里放了128万张经过标注的数据。比如说里面有一辆车则将其标注为车辆,有人则标注为人,有植物则标注为植物。其中有10万张数据是用于识别、测试。
在2012年,突然出来了一个新的算法,这个算法叫AlexNet,它的准确度一下子从原来的百分之七十多提升到百分之八十多,从那以后这种技术大行其道,让神经网络的层数越来越高。在2012年时,AlexNet用了八层神经网络,后来到2014年,谷歌的Net用了22层,慢慢发展到152层,神经网络的准确度也越来越高。到了2015年,ResNet的错误率只有3.57%,而人类的错误率是5.1%,通过机器判断图片的准确度已经超越人类。
提出这个理论的是加拿大多伦多大学的教授Hinton,他和他的学生创造了这个理论,这个学生叫Alex,Hinton和另外两位人工智能专家都获得了图灵奖,而图灵奖是计算机界的诺贝尔奖。从那以后,机器视觉一发不可收拾,比如说左上角这个图,可以让计算机去判断这个图片里到底有什么东西,或者是让计算机用语言去描述这张图片里发生了什么情况,里面有什么对象,或者是把图片里每个对象扣出来等等。这些应用层出不穷,由于这个技术的突破也产生了中国的人工智能四小龙,现在他们大部分都上市了,他们都是机器视觉领域里的佼佼者,也发表了大量论文,参加了很多国际比赛并拿了很多奖,所以他们把这些技术做得越来越专、越来越精。在这方面的应用,中国还是比较前沿的。
我们也做了一些工作,我们设计了一个算法,这个算法叫视频DNA,可以把一个人走过去的数据做三维叠加,做成体现时间和空间分辨率的数据立方体,而这个数据立方体反映了这个人潜在几乎所有我们能看到的特征,而传统的技术是用特征提取的方法提取这个人的身高、重心、频率等数据的。我认为传统的方法不可行,因为我们在100个人里把1个人特征挑出来是很容易的,但是如果你想要在一千万人把他挑出来,跟他特征相似的人就特别多,所以这个人的特征数据容易被淹没在数据海洋里,而视频DNA这种方法就能够提取出来,而这大概是我们十年前做的技术。
我们还会去解决其他的问题,比如说在高速公路上收费,现在都是用ETC或者取卡,为什么不能够直接通过车牌识别就收费?比如说在海南,高速公路是没有收费站的,是把所有的费用计在油费里,所以海南加油要比内地贵一些。最近这种计费方式遇到一个很大的难题,因为现在越来越多的新能源车是不加油的,如果计费的话,我们必须追踪每辆车,知道每辆车到底跑了多少高速公路。
所以这个问题怎么解决?高速公路上识别每辆车其实并不难,因为停车场早就是这样做的,自动识别、自动收费。但是,在高速公路上往往会遇到各种情况,比如在拍照的时候太阳光反光,车牌被太阳光光线遮挡了,有的车牌太脏了、太旧了、变形了、太暗了、速度太快了、下雨了、下雪了等等,这些情况我们怎么把这些车牌识别出来呢?
对于这些问题,江苏交通控股就组织了一个比赛,请了很多人工智能公司参加,让大家从2017年10月份开始,对着一条真实的高速公路进行车牌识别,比较大家识别的结果,这个结果是随时随地实时比对的,如果有三家以上的识别结果是相同的,说明这三家肯定是对的,因为大家不会错的一样,其他的人都是错的,如果大家都不统一,则人工检查到底谁是对的。
经过这么多年,这个比赛已经识别了上百亿张的车牌,在这个比赛里,我们在各种自然条件下始终保持了第一名的水平。
我们准确地把每一辆车识别出来,然后把速度再加一倍,这样就能够非常准确地把现实世界的状态投射到信息空间,这也是未来元宇宙所需要的,就是把每个人、每辆车真实世界的状态投射到信息空间,由人工智能去管理,这是很重要的一件事。
我们用这样的算法也可以去解决别的问题,比如癌症。癌症有个特点,如果病人发现早,就比较容易治,如果发现晚,基本上预后就很差。如果想要让病人尽早地得到治疗,就需要尽早发现症状。但是棘手的是,癌症初期,病人的症状往往不明显,也就是说,即使我们拍了一个片子,医生也不确定这个病人到底是不是癌症。
针对这个问题,我们和南京鼓楼医院合作做了前列腺癌的识别,识别准确率做到了99.38%,在国际上也引起了比较大的反响。
机器视觉也可以用在工业里。在工业领域,我们一般是解决目前为止没有人能解决的问题,如果别人能解决,我们就不再接触了。比如在汽车制造的过程中,99%的环境都是机器人完成,但还有1%是人在做,这1%就是要检查车辆的每个件表面有没有瑕疵。在这一方面,现在很多还是人工检测,为什么不让机器完成?因为机器速度和精度达不到人的要求。目前汽车制造领域还在大量地使用人工,包括我们现在知道的一些知名车企,也是如此,但人工检测经常会有遗漏,整车出品的时候没发现,结果后来又返工,造成整个成本的浪费,所以我们就设计了一个系统,对汽车进行快速建模,从而通过人工智能算法检查它表面的瑕疵。
比如上面写的字的高度,通过我们的算法就可以准确地找出瑕疵,然后用机械手把这种缺陷挑出来。
我们处理了很多类似的情况,比如发动机里边很反光,非常亮,它的缺陷能不能查出来;或者汽车轮毂是变形的,要正面、反面、侧面、里面全部看清楚,要求也很高。
我们一般是首先看这个行业里有没有人做出来,如果没有我们就会去做,如果它的应用场景很广,就可以把这个部署在产线上。
第一次飞跃,带来了很多效率上的提升,带来了生活质量的改善。
第二次飞跃,AlphaGo。2016年3月9号,李世石和AlphaGo下围棋,这是Google公司子公司DeepMind发起的邀请赛,冠军可以拿到100万美元奖金,当时李世石表情非常开心,他把他女儿也带到了发布会上。
左边这位是哈萨比斯(DeepMind创始人),是一个神童,在4岁时就开始思考两个问题。
1、人的大脑为什么能够思考那么复杂的问题?
2、将来我能不能用计算机模仿人的大脑?
他8岁的时候就开始自学编程,16岁高中毕业的时候就写了第一个软件“主题公园”,后来就去上大学,再后来创办了DeepMind公司。
AlphaGo这个公司非常神奇,做了很多了不起的事情,现在ChatGPT、OpenAI也非常神奇。
这个比赛成绩大家都知道,AlphaGo4:1战胜了李世石。为什么说起这个事?比赛之前,柯洁当时的评价是计算机战胜李世石的可能性不到5%;聂卫平在3月7号讲,若机器和人比赛围棋,我认为机器是一点机会没有的,我对人工智能有特别大的怀疑,你们都是忽悠,围棋,电脑绝对不可能战胜人类;李世石讲,除非出现不可理喻的低级事故,否则我绝不会输,人工智能向人类发起挑战还处于起步阶段。
这些大佬们当时都没有意识到,居然会有一个程序能够打败世界冠军,因为在这个比赛之前,AlphaGo这个软件根本没跟高手下过棋,只跟二段的高手下过棋,现在从二段下完之后直接挑战世界冠军,大家都觉得这是不靠谱的做法,而且AlphaGo整个公司会围棋的就一个人,他把规则告诉程序,让程序自学成才,跟世界冠军挑战,谁也没干过,当时不确定性非常大,所以到比赛中间的时候,大家都傻眼了。
古力是中国的一个九段围棋高手,他说五个九段一起上或许能赢;聂卫平说AlphaGo全局几乎零失误;柯洁说AlphaGo围棋确实是有史以来我见过的强大的对手。
这个比赛真的颠覆了我们人类的想象,可能大部分人都在想下棋输了就输了。1997年,卡斯帕罗夫跟IBM深蓝下国际象棋也输了,输了就输了,下个棋输了就算了,我们就不下棋了。
但这件事没有这么简单,围棋棋盘是19条横线乘以19条竖线,一共是361个交叉点,每个点有三个状态(黑子、白子、或没有子),所以他的计算空间是3的361次方,等于10的171次方,而宇宙里的原子总数只有10的80次方,相当于是宇宙原子总数乘以宇宙原子总数再乘以1000亿倍,这个空间想把它探索到是不可能的。
这么大一个空间,为什么国际象棋在1997年就被探索到了,因为它的格子太少了,所以计算机就取代了,现在格子看着好像不太多,但组合很多,这就是组合爆炸。
AlphaGo是从三个策略解决的。
第一,跟人类学习。学习了人类从五段到九段的高手曾经下过的16万盘棋,一共3000万步,学习各种情况下人类是怎么下棋的。
第二,左右手互搏。把自己做成两个版本互相打,打赢了就升级,打输了就降级淘汰,赢了就不断地打,不断地自我成才。
第三,它对态势有了全局观,看到每个棋面都能评分赢的概率是多少,这种对复杂态势的判断能力只有人类才具有。像我们买股票不就是态势的感知和判断吗?它就是通过大量的学习对态势有了判断的能力。
AlphaGo通过这三种手段就进化了。李世石跟它下的第一盘棋,当时不太认真,也没当回事,结果输了以后很紧张,那天晚上李世石从韩国请了3个厉害的高手陪他下了一晚上,AlphaGo那天晚上下了100万盘棋,第二天李世石再跟AlphaGo下棋的时候,发现它已经不是昨天的它了。
第二年AlphaGo跟柯洁下棋的时候,这个版本叫Alpha Zero,从0开始,就把左边这个向人类学习去掉了,最开始随机下,不断自我迭代,用了72个小时就超越了以前的AlphaGo,所以它不需要向人类学习,而是自学成才。
柯洁跟它下的时候输的很惨,基本上一点赢的机会没有,三盘全输。AlphaGo后来就出现了一些新版本,像Alpha Zero不只是下围棋,干别的事情也行,比如去打游戏,出了一个打游戏版本Alpha Star,把世界上主要游戏都玩了一遍,把冠军打败了。
后来开始干正事,出了一个AlphaFold。我们知道,生命科学家研究生命科学时,非常依赖蛋白质结构知识,人类已知的蛋白质大概是1.8亿种,但人类知道蛋白质结构的只占百分之零点几,以前是怎么知道的呢?像施一公这样的大科学家,他们通过冷冻去观察一个蛋白质,然后把它的结构解剖出来,基本上一个结构要花费一个月时间,而且使用的是千万级别的设备。后来,AlphaFold版本用了两年时间,几乎把人类已知的蛋白质结构全部破解了,而且准确度误差只有一个原子宽度。
现在很多生命科学家都转到AlphaFold上去做研究,这个突破带来了很大的影响,比如以前治疗不了的疾病——艾滋病、癌症、新冠等等,现在攻克就有了希望。可以说,由于AlphaFold的突破,使得生命科学大爆发。
从2016年之后,我们突然发现AlphaGo其实不只是下了个围棋,而是解了一道世界级难题“组合爆炸”,科学里碰到的大部分问题都是这种问题,比如城市堵车,我们希望城市的红绿灯能够智能配置,尽量优化开车速度,让城市尽量减少堵车。
从2017年开始,我们就利用AlphaGo的思维方式去破解城市的交通智能控制难题,折腾了这么多年,数学公式已经写了1000多页。我们跟南京市交管局合作,取得了比较大的一个进步就是构造了一套系统,这套系统比原来AlphaGo碰到的问题要复杂的多,AlphaGo每个十字路口就三个状态,我们每个十字路口是这个方向的车要左转、这个方向的车要直行、那个方向车要右转,每个车道的车数量都不同,它的速度都不一样。
所以,每个十字路口就是一个组合爆炸,我们把一个城市所有不规则的组合爆炸组合在一起,联合去求优化解,这是非常复杂的一个数学问题。所以我们不断地去优化我们的算法,最后优化的结果是我们和交管局一起对这个算法做了验证,当然这个验证不是直接用在现实道路的红绿灯上,在现实中控制和应用还要经过一定的流程,所以我们是通过他们认可的仿真系统,将真实数据输入到仿真系统去看开车速度会提高多少。我们通过交管局周围那些道路数据做了实验,能把开车的速度提高127%,是原来的2倍多。当然这要投入使用还需要很多验证,就像药一样需要小试、终试、大试,所以我们现在还在研发,正在努力在今年在两个城市落下来。
我们也参加了一些比赛,包括参加全国颠覆性技术创新大赛。这是给红绿灯配时,右边是道路的实况,每次配时都在改,道路变得越来越绿,当然这是在仿真系统里看到的成果。我们非常相信只要仿真系统客观反映了真实世界,那真实世界就会是这样运转的。
这是我们开发的这套系统,这套系统是以山东枣庄作为假想的,我们跟交管部门合作在做这件事情。所以我们可以通过这套系统去优化城市的通行情况。
解了这个题之后,我们突然发现别的问题好像也差不多。我们到一个汽车工厂去考察,左边是国产的汽车工厂,我当时就很好奇,为什么机器人这么慢,为什么特斯拉机器人那么快,他们给我解释的原因是机器人都凑在一起干活,机械手很容易互相撞着,所以为了避免它们相互碰撞,就要用节拍来控制每个机器人,这个节拍控制这个机器人干活,那个节拍控制那个机器人干活,不要同时工作。那么为什么特斯拉就不怕撞在一起,他说特斯拉原来也是很慢的,后来2018年特斯拉手上有些订单但是生产跟不上,所以马斯克拿着睡袋到工厂里待了三年,调试了所有机器人的代码,使得机器人能够并行工作而且互相不打架,所以特斯拉的产能就迅猛提升,就变成了世界级的车企。所以他的降价空间比别人快,因为生产效率比别人高。
我当时在想我们就不能做这个吗?我们就用人工智能写了一个软件,这个软件是加在国外的机器人仿真软件里,加上人工智能引擎,加入之后让机器人学会怎么配合,在不管什么复杂的场景情况下,都能够快速让人工智能把软件写好,从而让所有机器人能够协同起来高效工作。
类似的问题还有很多,我们也用这种思路去设计新的材料。最近正在跟一个知名的钢企合作设计新的钢材,和这个有点类似,不过我们突破的速度非常快。我们从早上九点开始设计,下午五点下班的时候系统就做好了,而且验证了我们输出的数据,每输出的一条数据就是一种新的钢材,当然我们还没有来得及去验证这个钢材到底是不是我们想象的那样,但是新的突变时代已经来了。
我现在讲第三次飞跃ChatGPT,人造的各种东西达到1亿用户需要多少时间?电话是75年,手机是16年,网站是7年,推特是5年,苹果的应用商店是2年,Tiktok是9个月,ChatGPT是2个月就达到了1亿用户,据说美国91%的大学生现在都是用ChatGPT帮他写作业。美国纽约的教育局已经禁止ChatGPT进学校,免得学习用它作弊。
比尔盖茨最近有讲话称,ChatGPT作为聊天机器人,可对用户查询做出类似人类的反应,与互联网发明一样重要,人工智能的进步是目前重要的创新,这反映了真实的情况。马斯克讲了这样的话,ChatGPT好得惊人,人类距离强大且危险的人工智能又迈进了一大步。这个东西太惊人了。
ChatGPT是一个问答系统,当我提问它,经过它模型计算后给出一个答案,关键是你想知道的东西它基本都能够给出答案,让它写首诗就写诗,让它写工作汇报就写工作汇报,这是很惊人的。ChatGPT是基于3.5版发展起来的,它的神经元数量是1750亿个,那么这两个月就会发布4.0版,4.0版现在有一个说法大概是100万亿的神经元。新版会支持生成电影、生成视频、生成图片、生成音频、模仿人类等等。这是很恐怖的进步,它能做我们感官类的、思维类的各种工作。
它是怎么做到的?编码和解码,我们有一张图片,想让人工智能理解这个图片,人工智能看到这张图片之后,经过神经网络的编码,最后编成空间的向量,向量再去解码,希望解出原来的图片。所以这是一种无监督的学习,把互联网上的数据喂进去,把每张图、每段文字从这里面输进去,再解出来发现不一样。我们再去调神经网络,让它尽量一样,所以它不断地做这种循环,4.0是把人类互联网上的数据都拿去学了一遍。现在发现它再往上提升就比较难了,因为没有数据了。
除了ChatGPT,还有很多类似的系统,这是一个开源软件Stable Diffusion,这个是我们做的实验,输入一句英语,比如说“天空中的花园”,它就生成了相应的图片。这是这次元宵节做的图片,中国的元宵节有很多灯笼,这是Stable Diffusion生成的图片。这是FaceBooK做的,它现在已经能够用这样的类似技术去生成视频,这个描述是一只泰迪熊在画自画像,人工智能自动生成了视频。
所以大家可以想象五年之后,可能演员这个职业就没有了,导演也没有了,剧作家也没有了,因为所有写剧本的是人工智能,拍电影的也是人工智能,人工智能自己想电影场景,设计电影的逻辑都会,它把电影制造出来,最后它还掌握人的需求,它知道这个电影会有哪些人看,根据人类的大数据去设计这个电影。而人类拍的电影可能成本又高,效率又低,质量还不如它。
我们会发现很多行业都会面临这样的竞争,就好像车牌能识别,那么地下车库的收费员就没有了;当我们用ETC的时候,会发现高速公路收费员就减少了很多,这是必然的结果;当自动化生产用机器人了,当机器人都能扫地、送餐、送快递了,会发现很多工人现在都不需要在岗位上了;甚至现在大家都认为ChatGPT比他的老师讲课好很多,而且它给你讲的东西非常清楚,所以大家觉得老师可能也不是特别重要了。所以,现在已经到了人工智能爆发的拐点。
DALL-E,也是Open AI做的一个工具,这个图提示是中文,“碗汤是另外一个次元的入口”,就是一碗汤是一个次元的入口。生成出来的图片比我们人类的想象力要高很多,这是一个泰迪熊在时代广场滑滑板等等。
这是Google做的Imagen,这是一个报喜鸟,它站在一篮子的马卡龙上面,通过它的脚指头放的位置可以发现,它已经充分理解了这个脚指头就应该是这样的。
所以,你如果问ChatGPT秦始皇用的是哪个品牌的手机,它说秦始皇那时候连电都没有,手机都没有,他不会用手机,它知道潜在的逻辑,以及这里面的深层含义。
这里面我们也做了很多研发,和其他硬件研发企业一起设计了向量计算一体机。因为我们发现所有人工智能计算,包括人脸识别、自然语言理解,最后卡脖子的地方是卡在向量计算上,比如人脸是把它转换成一个向量做向量比对,我们自然语言理解也是把它转化成一个向量并做向量比对,所以现在ChatGPT已经到了一个可以通过向量的关系去推的阶段了,但也幸好,它还不能理解这到底是什么含义,我们觉得,下一个比ChatGPT更强的东西,是一定要明白我们人说的一句话到底是什么意思,这个意思就是空间的哪个向量的位置,而这个位置则需要大量的计算。
所以,这个机器就是为这个准备的,已经做了很多年了,这里面有60颗处理器,算力是一秒钟做7亿次向量计算,比我们用GPU卡强了40倍。
用这个就可以理解自然语言,理解人说的每句话是什么意思,基于这个我们就做了很多自然语言的搜索引擎,也基于它正在研发一些能够理解语义的人工智能新引擎。当然,这还需要时间,如果有足够的资源,我们有可能会把这个做出来,但是首先要解决的问题是,这么强大的具有学习所有知识的能力,并且能明白所有万物道理的人工智能,我们是绝对不允许直接把它放到互联网上去危害人类的。
所以,首先要做的是保护人类的利益,保护人类不受侵犯,同时也能够保护地球的安全,这是下一步我们要做的很重要的一件事。
我的汇报就是这些,谢谢!