2016 年,AlphaGo 可以说确立了 AI 的“围棋霸权”。但人工智能专家李志飞却说,“AlphaGo 更多是对人类心智的冲击”。在过去 5 年里,他认为去年问世的 AI GPT-3 的现实影响力可能会比 AlphaGo 更大,因为 GPT-3 让人类真切看到了通用语言智能的希望。
AlphaGo 虽能轻松击败人类,但也只限于围棋等专精领域,无法“触类旁通”;而 GPT-3 除了文本联想、翻译、写诗,还能画画、做财务报表、编程,“一个模型就可以做所有事”。通用,就是 GPT-3 的革命性。
李志飞把 GPT-3 形容为“一位科科都是高分的全才”。更让人激动的是,这么一个优秀的学生在学习过程中居然是无监督、完全自主驱动的,也就是学习过程它不需要人们提供有答案的练习题来复习测验(微调模型),只要给他无限多的文本序列,就能自动从文本里学到各种知识。
GPT-3 几乎是把整个互联网的浩瀚内容全部读完了。它总共阅读了大约 5000 亿词,模型大概有 1750 亿参数。系统有上万个 CPU/GPU 在 24 小时不间断地“阅读”任何领域的信息,半个月即可读完整个互联网的内容。猛灌数据量,是这个 AI 模型的“暴力”所在。
“我以前特别反对‘暴力’,觉得没有什么深度,研究也没有美感。”但是最近的很多现实进展,也让他开始相信这种训练 AI 的方法,这是一种“先求其然,再求其所以然”的功能主义。这种方法或许能让人类更早造出更接近人类的通用人工智能。
“暴力”的背后,是烧钱耗力。GPT-3 这个 AI 模型运算一次要花 450 万美金,可能比发一个卫星还贵。那么,中国是不是就不能做?李志飞说,“不是。因为很多系统第一次做出来时特别难,但是很快就有特别多的优化,成本大幅度的降低,我们可以做出同样甚至更好的系统。”
李志飞还认为,2020 年可能是通用 AI 的元年。对于人们对未来 AI 的恐惧心理,他说,“别怕。”
以下是李志飞的演讲实录,由极客公园编辑整理。
GPT-3,通向通用 AI 智能的希望
李志飞的 AI 语音替身:出门问问创始人兼 CEO 李志飞对 GPT-3 的技术突破感到激动,他认为 GPT-3 让人类真切看到了通往更加通用的语言智能的希望。李志飞是自然语言处理及人工智能专家,美国约翰霍普金斯大学计算机系博士,前 Google 总部科学家。通过他的解读你将能够理解 GPT-3 是谁,他厉害在哪里,以及未来会如何进化。
李志飞:大家好,我是出门问问的李志飞,刚刚前面大家听到这个欢迎我的视频可能觉得很奇怪,感觉我是自己给自己录了个音然后欢迎我自己,但是其实不是这样的,这不是我的录音,而是我的 AI 语音的替身产生出来的声音。他基本上把我的湖南普通话已经学的非常像了,已经达到以假乱真的目的了。
在过去几年其实有很多这样的 AI 系统,比如语音助手、比如人脸识别、比如声音的替身,都进入了我们日常生活。但是所有的这些系统很大的问题是“不通用”,就是一个系统只能干一件事情,干不了很多事情。
今天我想花时间跟大家聊一下怎么做一个更加通用的人工智能系统。我会跟大家举例子——GPT-3。
GPT-3 是什么?GPT-3 本质上是一个语言模型,语言模型通过对语言进行建模,他可以生成或者预测语言,也可以判断这个语言好跟坏。GPT-3 是一个科研组织 OpenAI 创立的语言模型。
OpenAI 很多人可能非常陌生,但是其实说起他的联合创始人、早期的创始人就非常清楚了,他是 Elon Musk。
这个 GPT-3 这么神奇,他都能干什么?他其实可以做很多事情。比如他可以写作文,你给他开一个头,然后他就可以把整个文章写出来。而且他写出的文章句子非常通顺,更关键的是他段落之间逻辑也非常自洽。
网上有人把 GPT-3 写出来的文章和人类写出的文章给另外一个人判断,到底哪些机器写的,哪些是人类写的,其实人已经很难分出来了,所以他基本上可以以假乱真。
除了写文章,他也可以进行对话,而且他对话的内容可以非常的广泛,天文、地理、历史都可以。网上利用 GPT-3 创建了一个 Elon Musk 的对话机器人,人类跟 Elon Musk 对话机器人进行对话的时候,你会发现这个对话机器人他可以像 Elon Musk 一样说话。
比如他经常会讲到人类、火星、太空、地域性原理等这些普通人类一般不太会说的话。
他也可以做翻译,大家知道翻译是非常难的一件事情,因为他涉及到两个语言,以及这个语言之间的匹配,但是 GPT-3 可以做翻译,而且他做出来的翻译有的时候比一个专门翻译的系统还要做得更好,这也是非常厉害的。
前面无论是翻译,还是对话,他都是一个发散性的输出,也就是说这个 GPT-3 的输出他可以不是唯一的答案,只要意思对了就可以,所以也不是特别神奇。
但是 GPT-3 除了做这种发散性的输出以外,他也可以做非常精准的输出,比如他可以做算术题,比如如果你问他“48+12=多少”,他会告诉你等于 60。
大家可以看到这个 60 也是一个非常精准的答案,而不是随便说的,这个以前在语言模型中也是非常难做到的。
除了前面各种技能,他其实还可以干的事情非常多。比如他可以写诗,他可以编程,在某种程度上、某些地方可以代替程序员,也可以画画,也可以下国际象棋,做财务报表,基本上他会五六十种技能,关键是用同一个模型就可以完成所有的这些功能。
所以 GPT-3 出来以后,全球科技爱好者非常激动,因为 GPT-3 让大家看到了一个通向通用的 AI 智能的希望。
吞下整个互联网的数据,AI 演绎暴力美学
这个 GPT-3 表现这么好,背后的学习又牛在什么地方?其实可以用三个关键词来总结——多任务、无监督、小样本学习。
多任务,前面讲到,一个模型可以干很多事情,可以有 50 多种技能,这个非常厉害。
无监督,一般的模型我们要给他很多问题、答案、问题、答案,他才能训练出一个模型,但是 GPT-3 直接把互联网的内容全部给他,他就可以自学成才,这也是非常厉害的,小样本学习或者举一反三的能力,这是人类非常强的能力。
比如 GPT-3 本来可能没有关于高兴的概念,但是如果你对着 GPT-3 教他两个例子,他可能就会产生一个高兴的句子。
比如你对 GPT-3 说,GPT-3 我这里有两个关于高兴的例子,一个是我今天很开心,第二个是我今天玩得很好,他可能自己就会说“我今天真是嗨爆了”。这种举一反三的能力也是非常厉害的。
这个 GPT-3 这么厉害,背后是不是有特别复杂的理论算法?其实不是的,他背后就是用了一个非常简单、现在非常流行的算法,叫做 Transformer,中文大家可以翻译成变形金刚,当然他不是我们电影里面的那个变形金刚。所以这个模型其实是非常通用、非常简单的一个模型。
GPT-3 其实在我看来是一个暴力美学的胜利,他不是一个特别复杂理论的胜利。为什么这么说,大家可以从三个角度看,一般大家认为 AI 的三要素:算法、数据、算力。
这个 GPT-3 在每一个地方都非常暴力,算法他总共用了 1750 亿的参数,这是非常厉害的。
因为两年前我们可能觉得训练一个 5 亿、10 亿参数的模型就非常厉害了,但是这是 1750 亿;人的大脑,比如有 800 亿的神经元,有千万亿级的参数,那 GPT-3 跟人的大脑之间差了几个数量级。
第二个,数据,GPT-3 把互联网上的所有内容基本上是千亿级的词都读完,这个跟人相比也是非常厉害的。因为人假如一个月能读十本书,一年读一百本书,读 50 年,一生也就读 5000 本数,一本书假如 20 万字,加起来就 10 亿字。但是 GPT-3 读的是千亿级的字,所以这个数量级是差别很大的。
算力层面也非常暴力,他用了一万个 GPU 去算,算了半个月最后训练出了一个模型,网上算了一下,大概花了 450 万美金,也就是比发一个卫星可能都还贵。
大家可能会问,OpenAI 作为一个工业组织为什么这么喜欢暴力?这个其实跟它的使命、信仰是有关系的。
首先他的使命是要做通用的人工智能,一般认为实现通用的人工智能可能有两种不同的信念:
一种信念是今天的这个深度学习的算法都不够,肯定实现不了通用的人工智能,我们必须对人脑、对模型有更深刻的认知才能实现通用的人工智能;
另外一种信念说不是的,今天的模型可以了,我们关键是要把这个模型做得足够大,数据量足够大,当这个模型特别大的时候就可以实现通用的人工智能。
OpenAI 是非常坚信第二种方法的,他们花了很多精力做大模型,处理这个大数据,确实我们看到他最后出来的模型确实展现出非常惊人的智能行为。
这个其实在学术界是不一定非常认同的,因为学术界可能很多人不太喜欢这种暴力的模型,大家都喜欢理解这个原理最后做出个系统。
但是其实通过过去几年的进展,大家看到这些暴力模型都展现出非常好的表现,可能慢慢越来越多的人开始信仰这种暴力的方式。
其实这也非常容易理解,因为 GPT-3 就是一个典型的复杂系统,复杂系统当他非常大的时候就会有一些智能的行为,他有几个基本的特点:
第一,这个复杂系统有非常简单的节点,节点很简单。
第二,节点之间有很多交互,但是这个交互方式也是非常简单的。
但是当节点以及节点之间交互非常多,频率非常高的时候就会涌现出集体的智能。
比如蚂蚁的智能就是这么一个例子,单一个蚂蚁可能看起来没有那么智能,但是当一群蚂蚁他们通过简单的交互,最后搬运一个东西的时候你会发现他是一个非常强的智能体。
其实这样的复杂系统有很多,比如互联网、人类社会都是这么一个系统,也许我们人脑的智能也是这么一个系统,他也许有很多暴力的因素在里面,比如 800 亿的神经元,千万亿级别的参数,也就是说暴力可能是实现通用 AI 的一个方向。
如此烧钱耗力,中国也能做出 GPT-3 吗?
大家可能会说这个 GPT-3 花了这么多钱,那么多厉害的人训练,中国是不是就不能做?其实不是的。
因为很多系统第一次做出来的时候特别难,但是很快就有特别多的优化,这个成本大幅度的降低,你就可以做出同样甚至更好的系统。
我们其实就在做这样一个事情。为什么要做一个通用的语言系统?因为我们的使命也是希望定义下一代的人机交互,最核心的产品就是语音助手。
我们的语音助手用在智能手表、智能的无线耳机、智能的车载,我们希望智能的语音助手更加通用。
他真的像你的助理一样可以帮你完成很多任务,所以我们是非常有动力,也有能力做一个通用的语音智能系统,我们现在做的这个系统 UCLAI 就是通用中文语言 AI 的系统。
这里有一个例子,就是我们这个系统产生的例子,你给他输入一个文章,写一首诗,比如说你让他写情书,你前面输入了“当你老了,头白了,睡意昏沉,在炉火旁打盹,请取下这部诗歌。”这是我们输入进去的,这个时候我们的系统就会生成后面这一段话,“在你耳边轻轻诵读,请你记起你微笑的模样,尽管岁月远去,声音尤在,日子总会在和平中流淌”。
大家可以看到,首先这个诗不是原诗,不是只是简单的从互联网上 copy 一下。
第二,这个生成的部分跟上文前后是非常有对应的关系的,而且这个文字非常的优美,反正我作为一个工程师是很难写出这么优美的诗。
我们系统除了产生这种简单的诗以外,也可以产生非常长的诗,比如我们这个后面有一个例子。
我们前面输入博尔赫斯的一首诗的前段部分,后面就生成很长的部分,同样的他非常有创意,而且这个逻辑也非常的自洽,而且也比较优美,但我们做这个 UCLAI,或者 OpenAI 做 GPT-3,不是仅仅写诗,其实他可以干很多事情。
比如通用的语音助手,比如医疗、教育、金融里面的很多应用,我们希望未来在这里能发挥重大的价值。
未来的 GPT 会更通用,人类别怕
刚才前面讲的主要就是 GPT-3 在语言方面的一些能力,未来 GPT-3 还能干什么?其实我觉得特别重要的一种能力就是多模态,因为语言只是一种模态,图象、声音、视觉又是另外一种模态,我们怎么在一个系统里面做多模态的事情。
最近 OpenAI 展现出了一个例子,就是你跟 GPT-3 说“帮我生成一个牛油果咖啡桌”,可能很多人听到“牛油果咖啡桌”脑海中没有任何感觉,但是大家可以看到后面这个屏幕上 GPT-3 就生成出来了一个牛油果咖啡桌,非常有创意,非常有想象力。
除了生成图片,它也可以跳舞。比如 Google 最近做了一个系统,你给他一段音乐,给他前面起始动作,这个 AI 系统就可以自动生成一段舞蹈,而且这个舞蹈非常的有创意,而且非常的优美。
所以大家看到未来的 GPT、类 GPT 这种模型他会怎么进化?他可能会从一个单一模态,语言的模态进入到语言、视觉、图象、动作这种多模态,非常的通用。
如果大家看这个技术发展,如果以 5 年为周期,比如 2016 年 AlphaGo 出来以后 AI 火了,其实这个过去 5 年我们有很多进展。
未来 5 年可能又是同样的事情,我们可以认为 2020 年可能是通用 AI 的元年。
大家可能会担心 AI 进化得这么快,人类怎么办?我们需不需要非常担心?这确实是一个问题,首先我想表达一下一方面 AI 的进化确实是非常惊人,如果我们把 AI 的进化跟人类社会的进化比较一下,他有几个特点:
第一,AI 非常勤奋,他可以不吃饭,可以 24 小时,只要还有电他就可以不停地算。
第二,AI 系统可以大规模地协作,比如刚才说一万个 GPU 可以训练一个模型,你再给他加成十万个 GPU 他还可以做非常好的协作。这个在人类社会,协作可能没有那么容易,因为每一个人都有自己的想法,最后不一定能够通力协作。
第三,AI 的进化具有连续性。什么意思?比如这个人类我们好不容易出了一个天才爱因斯坦,但是到了一定的年龄可能爱因斯坦就去世了,这个时候我们要等很多年才能再出一个爱因斯坦,没有连续性,但是 AI 的进化他有连续性。
比如这个机器没电了,或者这个机器的模型在一台机器上算完了,你可以把它 copy 到另外一台机器上,就可以接着算。
这个也是非常厉害的,总体来说我们一方面确实要看到 AI 的进化是非常惊人的,而且非常快的,但是另外一方面我觉得我们也没有必要有太多的担心。
你担心也不一定有用,我觉得作为一个社会,作为一个个体可以做的事情,比如政府他应该立法保护隐私、保护数据,不要 AI 为敌人所用。
作为个人要理解这个 AI 能干什么,不能干什么,让 AI 成为你的朋友,帮助你解决问题。
前面是我对通用 AI 的一些简单介绍,以及以 GPT-3 作为一个例子,当然 GPT-3 只是其中的一个相对通用的 AI 模型,虽然前面我讲他非常厉害可以干各种事情,但是其实他还有很多不完善的地方。
所以我们真正要通往通用的人工智能还有非常长的一条路要走,最后用一句话来总结一下,就是“路漫漫其修远兮,AI 上下而求索”。
谢谢大家。
————————————————
版权声明:本文为CSDN博主「六木三彡」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_40193824/article/details/113587234