(本文阅读时间:5 分钟)
导
语
READ
本文是一篇讲述AI如何学习语言的文章,但它的作者并非人工智能专家,而是一位拥有心理学学位的资深英语教学专家。本文是他在自学了AI知识和阅读了大量AI咨询后的思考与感悟。
Harry 英语教学专家
毕业于美国麻省州立大学,获心理学学士及工商管理硕士学位。
拥有10年海外学习和工作经历,持有美国TESOL学会国际英语教学专家资格及国家高级中学英语教师资格。
担任国内一线企业家和明星英文私教。
在我们今天生活的这个时代里,人工智能是一个绕不过去的话题。尤其是对于很多外语学习 者而言,大家似乎都在讨论:人工智能技术这么发达了,机器人的语言输出几乎已经达到了以假乱真的地步,加上各种翻译工具又做得那么先进,我们还费这么大劲儿学外语值得吗?以后用工具翻译不就得了。英语老师们更是惊呼,很多教学岗位很快就要被人工智能所取代了!
我们就来简单了解一下像ChatGPT这样的人工智能工具到底是如何学习语言,它和我们人类学习的语言有什么不同。在这个过程中,相信每个人对于“人工智能时代是否 还需要学外语”以及“人工只能是否会取代英语老师”这类问题都会有自己的判断。
01
人工智能(AI)是怎么学习语言的
我们在讨论赫布模型的时候提到过现在最火的人工智能工具ChatGPT,但实际上赫布模型作为神经科学的一个概念,解释的是不同的思维活动如何增强了神经元之间的联结。后来的很多神经网络结构和学习算法都是受到了赫布模型的启发而来,但其本身依然是神经科学发展早期一种简化的学习模型。今天像ChatGPT这类人工智能工具并非直接建立在赫布的神经学习理论之上。
除此之外,机器学习的方式也并非只有神经网络一种模型,还有很多其他模型。那神经网络模型和其他模型相比有什么不同呢?最大的不同就是其他大多数模型是直接从数学演变而来的,比如线性回归模型就直接来源于统计学中的线性回归,而逻辑回归模型其起源于人口统计。而神经网络模型是由生物界提出的,是通过模仿生物的神经网络来进行计算和学习的一种模式。正因如此,我们了解神经网络模型对于自身学习过程的认知有着特别的意义。
现在的深度神经网络学习在人工智能中的应用主要集中在语音处理、自然语言处理和图像处 理方面。就拿自然语言处理来说,ChatGPT使用的技术包括Transformer模型、大规模语料集和自注意机制。在这里我们不去管这些专业词汇是什么意思,只要大致了解它是如何生成语言的。
我们在进行英文阅读的时候都有过这样的经历:短句子能读懂,但句子一长读着读着就迷失 了。因为句子太长,读到后面,前面出现过哪些单词以及它们之间的关系就忘记了。这就是我们前面说过的,它已经超过了你的短时记忆力的极限。不光人有这个问题,机器也有这个问题。早期的机器问答碰到稍长一些的句子,给出来的回复往往令人啼笑皆非。
那ChatGPT是怎么解决了这个问题的呢?就是它的Transformer模型的自注意力机制在起作用。我们阅读是从左到右,一个词一个词去读去理解词与词之间的关系,最后读懂一句话的内容。而自注意力的机制让ChatGPT可以同时读取所有单词并决定给每个单词分配多少注意力。重要的单词给的权重就高,不太相关的单词给的权重就低,同时对词与词之间的关系进行判断,由此来帮助机器理解一段话的含义。
这样,机器理解了你的提问,然后就会根据在庞大的语料集中学习来的信息生成回复。这种回复也是通过“自注意力”在语料库中“习得”了语言的结构特征以及词与词之间的搭配频率而生成的。比如它回复了第一个词,然后它就根据语料的统计算出下一个词最有可能是什么。所以你看ChatGPT给回复的时候都是一个词一个词出的, 它在计算下一个词最应该是什么。
而用来训练的这个语料库是极其庞大的。比方说,如果你输入这个文本:The best thing about AI is its ability to _____.要求ChatGPT填空。那么它就会在数十亿个网页中去查 找类似的句子,然后对最后出现的这个单词进行概率统计,并进行排名。它统计出来的可能 是这样一个结果:
那么它再去填空,就会把learn填进去。
02
AI 给我们什么启发?
根据上面这个描述,我们在英语学习方面能得到什么样的启发呢?我们在回顾一下 ChatGPT 学习语言的模式:对一段话里的每一个单词分配不同程度的注意力,分析词与词之间的关系,然后根据概率统计计算出每一个单词后面最有可能出现什么单词,从而输出一句话。
人工智能模型可以基于概率生出输出,我们人类显然不可能记住每个单词在无数句子之后出现的概率。我们要做到同样的事情,至少需要有两个条件:
要掌握英语的语法结构。只有掌握了语法结构,才能准确地分析词与词之间的关系,哪个是修饰词哪个是被修饰的等等;
要在短时间内迅速给出一句话中的每一个单词。不能给了第一个词,然后花五分钟去计算下一个词应该是什么,这就没法用了。
在算法中,ChatGPT对语言的学习方式叫“自监督学习”,就是说在海量语料中,通过不断的接触和计算找出语言的隐藏结构或模式。
你看,综合这些内容,ChatGPT对语言的学习过程像不像小孩学习母语的过程?一个小孩从出生起就开始浸泡在母语环境中,以听的方式接收大量的语料输入,在三岁前就掌握了母语中基本的语法规则。
同时,词汇间最常见的搭配关系也逐渐在大脑中形成网络联结。进行表达的时候,当一个词说出口,后面一个最符合正确说法的单词神经单元也瞬间被激活,于是第二个单词脱口而出。整个这个过程完全是自动化发生的,孩子根本意识不到也没有时间 去思考所谓的语法规则,因为这套规则已经作为隐形的知识体系内化在了他的语言系统中。
不管是机器还是小孩,大量的语料输入是这个学习的过程中的第一步,也是必不可少的一步。只不过对于小孩而言,要牢牢把握住先听后看和可理解这两个输入原则。
当我们了解了ChatGPT的学习原理之后,我想就可以回答这两个问题了:学英语到底还有没有必要?英语老师会不会被人工智能所取代?
回答这个问题的核心在于两个字:理解。
我与ChatGPT讨论了这个问题,下面是它的回答:
“需要注意的是,虽然自注意机制能帮助Transformer模型以复杂的方式处理语言,但这并不意味 着模型能真正地像人类一样 ‘理解’ 语言。模型的知识是从训练数据中的模式学习而来, 它的回应是基于单词之间的统计关联,而不是真正的理解。在使用像 ChatGPT 这样的语 言模型时,要牢记这一区别是至关重要的。”
从这个回答中可以看出,像ChatGPT这类人工智能工具的模型,本质上只是通过概率最大 化不断生成数据,而不是通过逻辑推理进行回复。它可以帮助人们更好的完成某些任务,也可以像现在这样,给我们学习语言一些启发。但学习的乐趣和教育的意义,并不在于是否能 够计算出下一个单词该说什么。
欢迎关注微软 ATP 官方账号
微软 ATP 一手资讯抢先了解
点击“阅读原文” | 了解更多 AI 赋能案例