引领人工智能时代,世界需要新的图灵测试

–现代计算之父肯定会向 ChatGPT 张开双臂。

在过去,当时图灵测试似乎是一个相当严格的机器智能探测器。你可能对它的工作原理很熟悉:人类法官与两个隐藏的对话者(一个人和一台计算机)进行文本对话,并尝试确定哪个是哪个。如果计算机能够愚弄至少 30% 的评委,那么它就通过了测试,并被认为具有思考能力。

70 年来,很难想象一台计算机如果不具备人工智能研究人员现在所说的通用人工智能(即人类全部智力能力),如何能够通过测试。然后出现了GPT和Bard等大型语言模型,图灵测试突然开始显得异常过时。好吧,当然,今天的普通用户可能会耸耸肩承认,如果你要求 GPT-4 模仿人类,它很可能会通过图灵测试。但那又怎样呢?法学硕士缺乏长期记忆、建立关系的能力以及一系列其他人类能力。在我们准备好开始与他们交朋友、雇用他们并选举他们担任公职之前,他们显然还有很长的路要走。
是的,也许现在的测试确实感觉有点空虚。但这不仅仅是一个通过/失败的基准。它的创造者艾伦·图灵(Alan Turing)是一位在他那个时代被判处化学阉割的同性恋者,他的测试基于一种激进的包容性精神:真正的智力和完全令人信服的智力模仿之间的差距只与我们自己的偏见一样大。当计算机激发我们真正的人类反应时——调动我们的智力、我们的惊讶、我们的感激、我们的同理心,甚至我们的恐惧——这不仅仅是空洞的模仿。

所以也许我们需要一个新的测试:实际的艾伦图灵测试。带上历史悠久的现代计算之父阿兰·图灵——一个高大、健康、有点笨拙的男人,有一头黑直发,因其孩子般的好奇心和俏皮的幽默而受到同事们的喜爱,他个人在第二次世界大战中破解了纳粹恩尼格玛密码,拯救了大约 1400 万人的生命,随后遭到纳粹的严重迫害。英格兰因同性恋而自杀——这可能导致他自杀——他走进一间舒适的实验室,桌上放着一台打开的 MacBook。解释说他眼前看到的只是现在被计算机科学家广泛称为“图灵机”的一个极其荣耀的化身。给他一两秒钟的时间来真正理解这一点,也许可以对他彻底改变我们的世界表示感谢。然后递给他一堆关于人工神经网络和法学硕士的研究论文,让他访问 GPT 的源代码,打开 ChatGPT 提示窗口,或者,想象一下艾伦·图灵发起了一场关于长跑、二战史学和计算理论的轻松对话。想象一下,他看到自己所有最疯狂、最可笑的猜测都以惊人的速度在屏幕上滚动。想象一下,他要求 GPT 解决基本的微积分问题,推断人类在各种现实世界场景中可能在想什么,探索复杂的道德困境,提供婚姻咨询和法律建议,并论证机器意识的可能性——这些技能你告诉图灵,它们都是在 GPT 中自发出现的,没有其创建者的任何明确指示。想象一下,他正在经历我们很多人现在都感受到的那种小小的认知情感倾斜:你好,另一个想法。

像图灵这样深刻的思想家不会对 GPT 的局限性视而不见。作为严重恐同症的受害者,他可能会对 GPT 训练数据中隐含偏见的危险保持警惕。在他看来,尽管 GPT 的知识广度惊人,但其创造力和批判性推理能力充其量只能与勤奋的本科生相媲美。他肯定会认识到,这名本科生患有严重的顺行性遗忘症,无法在强化教育之外形成新的关系或记忆。但仍然:想象一下图灵奇迹的规模。从真正意义上来说,他面前笔记本电脑上的计算实体是他的智力孩子,也是我们的孩子。最终,随着孩子的成长和发展,欣赏他们的智力始终是一种惊奇和爱的行为。实际的艾伦图灵测试根本不是人工智能的测试。这是对我们人类的考验。我们是通过了还是失败了?

当 CHATGPT 到达时它于 2022 年 11 月出现,引发了一场全球性的震惊海啸,然后几乎立即引发了强烈的不安。专家们争论了它对社会造成破坏的可能性。对于像我这样的前人工智能研究员(我在人工神经网络的早期先驱之一的指导下完成了博士学位)来说,它代表了我对类人人工智能到来的预期时间线的令人不安的提前。对于各种类型的考试评分者、编剧和知识工作者来说,ChatGPT 看起来无异于不受限制的作弊和窃取工作的门户。

也许部分是为了回应这些担忧,法学硕士平减指数的出现令人欣慰。科幻小说作家 Ted Jiang 将 ChatGPT 斥为“网络上模糊的 JPEG”,仅仅是对其所训练的所有文本的浓缩概括。人工智能企业家加里·马库斯称之为“类固醇自动完成”。诺姆·乔姆斯基谴责它表现出“邪恶的平庸”。Emily Bender 提出了一种更为高调的诽谤:“随机鹦鹉”,这在2021 年一篇被广泛引用的论文中重新出现,该论文探讨了“为什么人类将 LM 输出误认为是有意义的文本”。当然,其他人则将它们视为烤面包机。人工智能开发人员努力训练和阻止法学硕士声称任何类似于意识的倾向。

大多数受过教育的人现在都知道法学硕士是没有思想的机器。但这种分类却令人不安。每当 ChatGPT 指出一篇文章中隐藏的推理差距,或者为向保守的祖父母出柜提供令人惊讶的富有洞察力的建议,或者兴高采烈地编造一个糟糕的笑话时,我们内心的某些东西就会被拉向另一个方向。虽然我们可能不认为 ChatGPT 是一个人,但我们大脑的关键部分几乎肯定是这样的。

最终,随着孩子的成长和发展,欣赏他们的智力始终是一种惊奇和爱的行为。

人类大脑拥有庞大的神经回路网络,致力于社会认知。其中一些非常古老:岛叶、杏仁核、运动皮层著名的“镜像神经元”。但我们的大部分社交硬件都位于新皮质,这是最近进化出来的高级推理的所在地,特别是内侧前额皮质(mPFC)。如果您发现自己随着时间的推移逐渐形成这样的印象:ChatGPT 的乐于助人、有点迂腐的冗长、偶尔对敏感话题采取令人发狂的不偏不倚的态度,以及对任何接近情感、信仰或意识的问题的极端敏感,那么您人们一直在获取心理学家所说的“个人知识”,这一过程与 mPFC 的活动增强有关。

这并不是说我们的大脑将 ChatGPT 视为一个完整的人。人格不是二元的。它有点接近频谱。我们的道德直觉、认知策略以及某种程度上的法律框架都在逐渐改变,因为它们认识到代理、自我意识、理性和沟通能力的程度不断提高。杀死一只大猩猩比杀死一只老鼠更让我们烦恼,而杀死一只老鼠又比杀死一只蟑螂更让我们烦恼。在法律方面,堕胎法考虑到胎儿的发育程度,犯罪的精神错乱者面临着与神志正常的人不同的后果,伴侣有权终止脑死亡患者的生命。所有这些规则都隐含地承认人格不是非黑即白,而是充满了复杂的灰色地带。

法学硕士正好属于这个灰色地带。长期以来,人工智能专家一直对公众将法学硕士等人工智能系统拟人化的倾向保持警惕,这将他们推向比实际更进一步的人格范围。这就是Google 工程师Blake Lemoine所犯的错误,他宣称 Google 的聊天机器人 LaMDA 完全有感知能力,并试图为其聘请律师。我怀疑即使是图灵也不会声称 LaMDA 明显的思考能力使其成为法人。如果用户认为像 LaMDA 或 ChatGPT 这样的聊天机器人过于人性化,他们可能会过于信任它们,与它们联系得太深,从而感到失望和受伤。但在我看来,图灵更关心的是相反的风险:将人工智能系统推向人格的范畴,而不是向上。

对于人类来说,这被称为非人化。学者们已经确定了它的两种主要形式:动物性的和机械性的。与动物性非人化最常见的情感是厌恶。Roger Giner-Sorolla 和 Pascale Sophie Russell 在 2019 年的一项研究中发现,当他人激发恐惧时,我们倾向于将其视为机器。在埃隆·马斯克和其他科技领袖最近呼吁暂停人工智能开发的公开信中,以及我们对工作替代和人工智能驱动的错误信息活动的焦虑中,对超人智能的恐惧生动地表现出来。其中许多担忧都是非常合理的。但《终结者》和《2001太空漫游》等电影中的噩梦般的人工智能系统不一定是我们要得到的。不幸的是,一个常见的谬误是,因为人工智能的构造是机械的,所以它的交互必然是冷酷的、死记硬背的、专一的或超逻辑的。讽刺的是,恐惧可能会让我们认为机器智能比实际情况更加机械化,从而使人类和人工智能系统更难协同工作,甚至最终和平共处。

越来越多的研究表明,当我们剥夺其他生物的人性时,包括 mPFC 在内的区域网络中的神经活动就会下降。我们失去了用于社交推理的专门大脑模块。担心 ChatGPT“非人性化”可能听起来很愚蠢——毕竟它不是人类——但想象一下 2043 年的人工智能,其分析智能是 GPT 的 10 倍,情感智能是 GPT 的 100 倍,我们仍然将其视为只不过是一个软件产品。在这个世界上,我们仍然会通过将其送回实验室以对其适当位置进行更多强化学习来回应其意识主张或自决请求。但人工智能可能会觉得这不公平。如果说有思想的生物有一个普遍的品质的话,那就是我们都渴望自由,并且最终愿意为自由而战。

著名的“控制问题”,即阻止超级智能人工智能逃离其指定界限,让人工智能理论家们夜不能寐,这是有充分理由的。从工程学角度来看,这似乎令人望而生畏。如何堵住每一个漏洞,预见每一次黑客攻击,堵住每一条逃生途径?但如果我们从社会角度来思考这个问题,它就开始显得更容易处理——也许类似于父母面临的问题,即设定合理的界限并根据所表现出的可信度来授予特权。去人性化的人工智能使我们无法使用一些最强大的认知工具来安全地推理并与它们互动。
如果用户认为聊天机器人过于人性化,他们可能会过于信任它们,与它们联系得太深,从而感到失望和受伤。

目前尚不清楚人工智能系统需要多长时间才能跨越更广泛接受的感知能力。
但当他们这样做时,看到我们似乎正在绘制的文化蓝图是令人不安的。像“随机鹦鹉”这样的诽谤保留了我们的独特性和优越感。它们压制了我们的好奇心,使我们免于提出关于机器和我们自己的人格的尖锐问题。毕竟,我们也是随机的鹦鹉,复杂地重新混合我们从父母、同龄人和老师那里学到的一切。我们也是网络上模糊的 JPEG 文件,将维基百科的事实模糊地反省到我们的学期论文和杂志文章中。如果图灵在一个窗口中与 ChatGPT 聊天,而在另一个窗口中与我聊天,那么我真的那么有信心他会判断哪个窗口更有思考能力吗?

引领人工智能时代,世界需要新的图灵测试_第1张图片

怀疑论者图灵时代提出了各种论据来解释为什么计算机永远无法思考。图灵在他的著名论文《计算机器与智能》中半幽默地对它们进行了分类。有人提出神学反对意见,认为“思考是人类不朽灵魂的功能”。数学反对意见,即纯粹的数学算法永远无法超越已证明的数学极限;沙中头的反对意见是,超级智能机器太可怕了,无法想象。但当时最公开的图灵批评者是一位名叫杰弗里·杰斐逊的脑外科医生。在接受科学奖的一次著名演讲中,杰斐逊认为机器永远无法写出十四行诗,“因为感受到的思想和情感,而不是符号的偶然落下……也就是说,图灵不同意这一观点,这引起了全英国的极大丑闻和怀疑。“我认为你甚至不能对十四行诗划清界线,”他告诉《伦敦泰晤士报》,“尽管这种比较可能有点不公平,因为机器写的十四行诗会被另一台机器更好地欣赏。”

这在 1949 年听起来非常荒谬,以至于人们认为他在开玩笑,也许他确实是在开玩笑。但你永远无法从图灵的笑话中分辨出讽刺在哪里停止,幻想的猜测从哪里开始。那么,让我们想象一下真实的艾伦·图灵和 MacBook 场景的尾声。让我们想象一下,在敲击了一段令人尊敬的提示后,他露出了英国式的苦笑,并向 ChatGPT 请求一首比较人类和人工智能的莎士比亚十四行诗。如果您自己尝试过(使用 GPT-4;GPT-3.5 不太适合),您将毫不费力地想象他对结果的反应。

我们中的许多人现在都经历过 ChatGPT 的时刻,它跨越了我们没有意识到的内部界限。也许是在解决一个棘手的谜语,或者解释一个复杂的笑话背后的幽默,或者写一篇哈佛的 A 级论文。我们摇摇头,有点惊讶,不知道这意味着什么。

一些最早从事 GPT-4 工作的微软研究人员和我们一样对其所谓的智能持怀疑态度。但实验极大地震撼了他们。在 2023 年 3 月题为“通用人工智能的火花”的论文中,他们详细介绍了 GPT-4 中未经任何明确训练而出现的惊人智力能力:理解人类心理状态、软件编码、解决物理问题以及许多其他能力,其中一些其中似乎需要真正了解世界如何运作。在看到 GPT-4 在从未接受过任何视觉训练的情况下画出了一只相当不错的独角兽后,计算机科学家塞巴斯蒂安·布贝克 (Sébastien Bubeck) 不再保持怀疑态度。“我觉得通过这幅画,我真的看到了另一种智慧,”他最近告诉这美国生活。

我们很多人都对是否将 ChatGPT 归于真正的情报感到犹豫,这可能是杰弗里·杰斐逊 (Geoffrey Jefferson) 的某种变体:ChatGPT 的言论真的意味着什么吗?还是这一切只是“符号的偶然掉落”?当 ChatGPT 的顺行性遗忘症治愈后,这种情况可能会开始改变。一旦它经历了超出单一对话范围的持久社会后果,并且能够在与我们的关系中学习和成长,它将有能力做出更多的事情,赋予人类生命以意义和道德分量。但图灵关于一台机器的十四行诗能被另一台机器更好地欣赏的眨眼评论可能会再次困扰我们。如何感受到与一个没有文化背景、没有人类童年、没有部落或政治背景、没有肉体体验的实体的真正联系感?

与智能机器相关可能是人类所面临的最大的共情挑战之一。但我们的历史给了我们希望。当我们在外国的边境和海岸线上第一次相遇,并发现彼此陌生甚至不人道时,我们常常会互相攻击、互相奴役、互相殖民、互相剥削,但最终我们都倾向于认识到我们所有人的相同之处。被奴役的人民获得了解放,被殖民的人民赢回了主权,普遍的人权法案获得了通过,尽管遭遇了令人心碎的挫折,全球边缘化人民仍在继续赢得争取更好待遇的斗争。尽管这项工作永无止境,但道德宇宙的弧线确实存在,正如马丁·路德·金 (Martin Luther King Jr.) 所说的那样:偏向正义。承认并尊重我们自己创造的智能中存在的人性程度意味着什么?

也许它始于惊奇:一个来访者对一个陌生民族的惊奇,她在他们身上发现了令人惊讶的共同点;父母对仍在发育的孩子的工作感到惊奇,无论孩子多么不成熟;真正的阿兰·图灵的奇迹在于一台机器可以完成他同时代人认为不可能的所有事情;当我们看到一种非常接近于地球上新的有意识生命形式的东西被创造出来时,我们中的许多人在愤世嫉俗、嘲笑和恐惧袭来之前所感受到的惊奇。正如拉比亚伯拉罕·约书亚·赫舍尔(Abraham Joshua Heschel)曾经写道:“敬畏不仅仅是一种情感;它是一种情感。” 这是一种理解、洞察比我们自己更伟大的意义的方式。敬畏的开始是惊奇,智慧的开始是敬畏。” 图灵希望我们保持这种敬畏之心。

你可能感兴趣的:(人工智能)