挥动奥卡姆的剃刀:“学霸”GPT-4,超越人工的智能答案有多少可信度?

挥动奥卡姆的剃刀:“学霸”GPT-4,超越人工的智能答案有多少可信度?_第1张图片

3月14日,ChatGPT的开发机构OpenAI正式发布其里程碑之作GPT-4,紧接着百度的文心一言发布。GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力。回答问题的准确性显著提高。

但是,AI所给出的“正确答案”真的是确凿的吗?如果这是一场“楚门的世界”,我们要如何去分辨真与假?

但面对我们无法确定的问题时,或者过度的依赖AI时,唯一的证伪方式,便是客观实践,实践是检验真理的唯一标准。但首先,我们应该有思辨的能力,而这要从奥卡姆剃刀定律说起。

2a5639aaf9d6d2ac9c78c57eebeb551f.png

01

上星期四……

2002 年,通达·林恩·安斯利在美国俄亥俄州被控谋杀房东。安斯利声称她以为自己活在《黑客帝国》(Matrix)电影三部曲的“母体”之中,以此为自己辩护。在这一系列好莱坞电影中,“母体”是一项计算机模拟,绝大部分人类活在其中。

人类在这个虚拟宇宙中相互交流了如此长的时间,以至于(几乎)没有人能够将模拟与现实分开。他们将模拟出来的宇宙当成了现实。

但《黑客帝国》不过是电影,而相信这部电影里的事情通常被视为不理智的表现。安斯利被认为患有精神疾病,也因此被判无罪。对很多人来说,《黑客帝国》只是虚构作品,只有精神有问题的人才会相信它是真实的。

然而,斯蒂芬·霍金等著名科学家并不惮于认真考虑《黑客帝国》中的假设。尼克·博斯特罗姆甚至提出了一个相当有说服力的论证来支持这个假设:如果技术允许的话,或许人类比起现实会更喜欢在虚拟世界中滑雪,在那里没有严寒,雪崩也不会对人身安全造成威胁。

人们可能会逐渐更偏爱虚拟宇宙,这样的话,“母体”可能就是所有足够先进的文明将迈向的未来。然而,发达的文明拥有较多的人口。所以,我们可以预计宇宙中的大部分智慧生命生活在类似“母体”的结构中。但这样的话,如果我们随机选取宇宙中的一个智慧生命个体,比如说我们自己,那么这个个体的确处于“母体”之中的概率非常接近 1。

因此,有关“母体”的假设不仅值得考虑,甚至非常可能是正确的。因此,向其赋予一个难以忽略的置信度也并非毫无合理之处!

我们甚至可以走得更远,走进那些晦涩的形而上学理论之中。有一个相当极端的理论叫作“上星期四主义”(Last - Thursdayism)。根据这个理论,整个宇宙都是上星期四创造出来的,包括整个地球、我们的所有文明、所有古迹、所有书籍,甚至所有回忆。如果你相信自己去年夏天在尼日利亚度过了一个假期,那只是因为在上个星期四一切被创造出来的时候,你的大脑包含着在尼日利亚度假的回忆。

更厉害的是,上星期四主义是无法证伪的,而且完全合乎物理法则。无论我们将来观察到什么现象,都可以在上个星期四找到它的原因。

能恰如其分地用于否定上星期四主义和“母体”假设的经典思想并不是波普尔的哲学,而是奥卡姆剃刀,这个名字来自哲学家奥卡姆的威廉。我们也把它叫作节俭原则、经济原则或者简洁原则。在 1319 年,奥卡姆这样写道:“Pluralitas non est ponenda sine necessitate.”意即“如无必要,勿增实体”。换句话说,简洁的理论更可取。

但是,我们其实很难看出为什么上星期四主义在简洁程度上比不上“可观测宇宙在 130 亿年前突然出现,然后产生了星系、恒星、行星、生物以及人类大脑这些复杂事物”这个替代理论。奥卡姆的简洁原则尽管表面看似简单,但实际并不单纯!看上去简单的东西不一定简单,而看上去复杂的东西也不一定复杂!

事实上,要严谨理解理论简洁性,必须用到算法复杂度之类的有关复杂度的理论。所以,要正确描述奥卡姆剃刀的话,所罗门诺夫的工作似乎是无法避开的基石。

49e54d68b32a14a14daea9ba7f1fd642.png

02

足球里没有命中注定

但现在我们先着重阐述奥卡姆剃刀为何至关重要,特别是在构筑预测性理论这方面。统计学与机器学习方面的研究者需要这些预测性理论,而他们发现,如果没有奥卡姆剃刀的话,就会经常陷入所谓的“过度拟合”(overfitting)陷阱之中束手无策,我们也可以把它翻译成“过度诠释”。

要理解过度拟合带来的不良后果以及奥卡姆剃刀(有可能)扮演的“救世主”角色,我们先讲一点闲话,看看一个处于过度拟合统治之下的领域:体育。

加时赛已经开始了,吉尼亚克射中葡萄牙队右边门柱的景象仍然萦绕在法国球员和球迷的心头。2016 年欧洲杯法国对葡萄牙这场决赛对法国来说似乎胜利在望,毕竟在之前法国本土举办的两次大型国际足球赛事中,法国队都赢到了最后——除了有一次在第二次世界大战之前举办的赛事中落败,但那完全是另一个时代了。

另外,法国在 1984 年和 2000 年都赢得过欧洲杯,就好像冥冥之中有种规律,会保证法国每 16 年都能夺得欧洲杯。最后,法国队的历史证明,只有在拥有一位特别出众的球员时,他们才能取得最终胜利。在 1984 年欧洲杯是普拉蒂尼,在 1998 年世界杯与 2000 年欧洲杯是齐达内,而在 2016 年欧洲杯大出风头的则是格列兹曼。

然而在加时赛结束后,在这场决赛中进了唯一一球的却是葡萄牙。葡萄牙成了欧洲杯冠军,推翻了一切预言以及一切看似已然确立的统计规则。统计骗了我们!

但统计也许没有骗人。报纸标题写着,2016 年欧洲杯总是令人大跌眼镜。在四分之一决赛中,德国首次在国际足球锦标赛中击败意大利。在半决赛中,法国战胜了德国,这是法国自 1958 年世界杯季军战以来对阵德国的第一场胜利。葡萄牙在此前对阵法国的所有赛事中惨遭十连败,这次决赛是他们首次战胜法国队。这些黑马都获得了胜利。

格列兹曼似乎度过了完满而引人注目的一年,而且他自身的表现也让他成为金球奖获得者的大热门,这就像是足球界的诺贝尔奖。然而在 2016 年欧洲杯中,格列兹曼在打败曼努埃尔·诺伊尔带领的德国队之后,却在决赛中输给了克里斯蒂亚诺·罗纳尔多带领的葡萄牙队。

而几个月之前,他的俱乐部马德里竞技在欧洲冠军联赛中,继打败曼努埃尔·诺伊尔所属的拜仁慕尼黑后,却在决赛中输给了克里斯蒂亚诺·罗纳尔多所属的皇家马德里。几个月之后,获得当年金球奖的是克里斯蒂亚诺·罗纳尔多——格列兹曼只排第三名。

我刚才提到的这些分析在体育新闻中都很常见,其中统计数字的用途是揭示那些神秘、惊人甚至令人不安的规律。然而对于机器学习的专家来说,这些分析可能没有任何价值,因为它们很可能是一种过度拟合。

的确,如果观察足球历史并摆弄过往的比赛统计数据的话,人们总是能找到令人瞩目的统计规律。每一个新结果都会摧毁其中的某些规律,比如法国每 16 年赢得一次欧洲杯,但可能成立的统计规律足够多,不会出现所有规律都失效的情况。恰恰相反,数据累积得越多,摆弄数据获得虚假统计规律的方法就越多。

这就是过度拟合出现之处。如果事后解释的数目比数据增长得还快,那么无论数据是什么,我们都能找到办法解释它们。体育评论员花时间比较所有运动员在所有比赛中的所有信息时通常就是这种情况。这就是为什么每过几天我们就会发现某位运动员创造了新纪录。

757f8184c65cc3000469e3f06a145d34.png

03

过度诠释的灾难

泰勒·维根在他的网站“虚假相关”(Spurious Correlation)上讽刺了这种过度拟合的现象。维根喜欢对网上的大量时序数据进行比较,系统地从中寻找那些高度显著的相关关系,然而这些相关关系在理论上如此不可能发生,实在无法让人认真对待。

通过这种方法,我们可以发现尼古拉斯·凯奇出演电影最多的年份就是泳池中溺亡人数最多的年份,而人造奶油消费较高的年份往往伴随着美国缅因州的高离婚率;此外,某年选出的美国小姐年龄越大,当年因烫伤而死亡的人数就越多。幸运的是,即使在这些统计结果广为人知之后,政治家也没有尝试打断尼古拉斯·凯奇的电影生涯、禁止人造奶油或者向美国小姐的评委施加压力……

泰勒·维根展示的这些事例非常令人着迷,原因正是人们倾向于否定任何因果联系,即使这些联系有着明确的相关性。这些例子作为教育素材非常出色,可以提醒人们相关性不等于因果,特别是在过度拟合的可能性很高的时候——而我们的情况正是这样,因为用于测试相关性的数据集个数远远大于每个数据集中的数据个数。在这里,相关性就相当于那些事后解释,而它们的确远远大于每种数据的抽样大小。

然而,面对任何显著相关性都否定因果关系的存在不是我们大部分人会做出的反应,而过度拟合的陷阱也并不仅限于体育领域。我们在新闻中也能经常看到大量的过度诠释,人们对其非常认真,而它们导致的后果可能相当严重。

为了教育大众,FiveThirtyEight 网站提供了一个界面,你可以在其中轻松摆弄与美国政治相关的数据。在捣鼓几下之后,你可以找到一组数据证明你支持的党派对于美国经济有着正面影响;而更厉害的是,只需要花几秒,你就能找到一项 9513ff5cc62a3d569a439ecd84022455.png 值超过了“科学方法”所需阈值的数据!也就是说,这项数据足够显著,可以发表在科学期刊上——那么显然也够格发表在《纽约时报》上!

FiveThirtyEight 的方法能够得出任何预先给定的结论,因为这个网站提供了大量方法来衡量某个政治党派对经济的影响。那里有不同的经济指标(失业率、通货膨胀、国内生产总值、金融市场)、权力机关中各党派在不同位置的代表(总统、州长、参议员、众议员),还有各种对这些领导者的相对重要性的比较方法,人们甚至还可以选择是否将经济衰退纳入考虑。

最重要的是,人们可以选择各种参数的组合,比如说同时考虑失业率和国内生产总值,因此这个网站可以提供高达 2048 个关于某个政治阵营如何影响经济的可能解释。

然而你要记得,即使真正显著的效应并不存在,9f1b339dca60a59b50f28023eb3b560c.png 值方法每 20 次就会有一次得出显著的结果!因此,在这个情况下,我们预计会有一百多项统计满足可以发表的科研标准!更奇怪的是,如果再摆弄一下网站上的数据,我们就会察觉到,要得到无论是对民主党有利还是对共和党有利的显著统计结果都很容易。

也就是说,只要对 FiveThirtyEight 上的数据捣鼓足够长的时间,你就可以轻松发表一篇题为《证明 9b90e2393e4f22203c47ca88025d8747.png 会损害经济的 50 个统计数据》的“标题党” 文章,无论 70ce883db4dbfa20e2630fe61371c146.png 是民主党还是共和党!

这些计算非常粗略,并非真正正确,但也大概说明了我们能从 FiveThirtyEight 提供的分析工具中得到些什么。

但 FiveThirtyEight 的网页界面实际上能做的非常有限。如果一位记者受到编辑部的压力,而自己又对计算机足够熟悉,或者认识一位足够熟悉计算机的朋友,那么他很容易就能生成上万甚至上亿种某个政治阵营对经济的影响的可能解释,足够在接下来的一百年里每天都发表上万条统计学上的显著结论。这就是过度拟合贻害深远之处。

在探索言之有理的解释时,无论为什么立场辩护,人们都必然能找到有显著性的统计数据作为佐证——人们甚至通常不会意识到这些统计数据的发现并没有什么神奇之处。即使每个统计数据都不太可能具有显著性,但所有统计数据都没有显著性更不可能。

这个简化后的结论解释了为什么在社会话题、种族主义相关政策、恐怖主义、粮食与宗教等话题中会出现众多互相冲突的文章。毕竟某个主题在人群中引发的好奇心越大,就会有越多的记者花时间研究这个主题。这是一个恶性循环,恶果就是会产生互不相容的信念。

这些信念的基础几乎完全来自过度拟合,但我们中的大部分人看不见这种过度拟合,因为我们读到的只是记者熟练地采集并选择出来的具有显著性的统计数据,而这些记者又被老板逼着要引起轰动。

目前,绝大部分对自己深信不疑的活动分子一直被困于过分拟合这个陷阱中,无法脱身。当人们要为自己的立场辩护时,只需探索足够多的可能解释,就能从中找到似乎能论证这个立场的解释。只要人们花足够长的时间搜索,总会找到一个事后编造的解释。

不幸的是,据心理学家乔纳森·海特所说,社会科学中的实验一次又一次表明,人类总是先选好立场,然后再用(自己相信是)理性的论据来为自己的立场辩护。理性对我们来说只是一种工具,用于为我们预先建立好的信念寻找或者“喷出”解释。然而,这些事后的解释无处不在,只需要一个足够好的理由,我们就会对自己想要相信的东西深信不疑。

这就是我们不断在犯的错误,这就是迷信与超自然信仰出错的地方,这也是上星期四主义有问题的地方。

对于所有新观察结果来说,都存在一个新的解释,可以将这个观察结果变得与上星期四主义相容。实际上,上星期四主义的信奉者在解释这个围绕着我们的世界时,最终发展出的宇宙模型都会与科学家们构筑的宇宙模型一样。但这样的话,上星期四主义这个假设就会变得多余,它无法让人们解释该理论其他部分无法解释的东西。正因为这个假设是多余的,所以奥卡姆剃刀会把它剃掉。

你现在也明白了,奥卡姆剃刀是对抗过度拟合倾向的工具。奥卡姆剃刀提示我们,当每次发现新数据时,与其在相互竞争的各种理论之间来回切换,不如忽略那些过于复杂的理论,哪怕这会导致所有数据不能得到完美解释。毕竟,一般来说数据的成因众多,要进行完美的解释简直是天方夜谭。

  推荐阅读

挥动奥卡姆的剃刀:“学霸”GPT-4,超越人工的智能答案有多少可信度?_第2张图片

作者:黄黎原(Lê Nguyên Hoang)

译者:方弦

法国数学类科普书、大学数学参考及教材类图书畅销书目

有人生前波澜不惊,死后却名声大振,贝叶斯就是其中之一。

以他命名的“贝叶斯定理”堪称一座知识宝库,从神经科学到人工智能,无所不及。

挥动奥卡姆的剃刀:“学霸”GPT-4,超越人工的智能答案有多少可信度?_第3张图片

挥动奥卡姆的剃刀:“学霸”GPT-4,超越人工的智能答案有多少可信度?_第4张图片

你可能感兴趣的:(人工智能,机器学习,数据挖掘)