阅读 | 从《数学之美》中学习思维模型

吴军博士所著《数学之美》是一本介绍“数学原理在自然语言处理中的应用”的科普书,它更多关注“道”,而非“术”或“器”,因此,尽管技术发展日新月异,文章中的思维方法仍能带给我非常大的启发。

现将启发逐一整理出来,稍后再做分类与提炼。(待删)

1. 跨学科类比的能力

将「文字和语言」与「数字和信息」对应起来的突破性思路,是近代自然语言处理技术得以突飞猛进的源头,把文字和语言所要传递的信息转变成数字并传递出去,这是跨学科类比、纵横联系的强大思考武器。

2. 从知识的历史源头去理解其本质

随着文明发展,人类靠大脑已经记不住所有事件,文字和数字就应运而生,作为高效记录信息的工具。因此,文字和数字其实从本质上看都是承载信息的介质。

追溯某一事物的历史,可以发现它在人类认知中的典型样貌,它本质 比如数学,是为了记录物理测量而诞生的,它的许多重要发展是为了解决生活中的实际问题。(数学有时超前于生活需要,钟摆一般,有时会滞后)

3. 聚类会带来歧义

不论在汉语还是古埃及语中,象形文字的数量增长到 5000 个左右就不再继续增加了,因为人脑记不住那么多象形文字,但人类文明产生的新概念依旧在增加,于是多个概念聚类于同一符号(即字词),文字表示哪个含义便需要借助上下文来理解了。歧义可以通过语境消解,我们在做聚类的时候也要注意,提供消解歧义的手段。

4. 钥匙:未知事物与已知事物的相同成分

猜测未知事物与已知事物相同的成分,从中可以找到规律,让人借助规律理解未知事物的全部。

不同文明进行交流时,或许会用不同的文字记载同一件事,着就可能为我们破解无人能懂的语言提供一把钥匙。电影中,图灵破解德军密码好像就是通过德国空军飞行员总是在电台中问候早安,因此就算每天都改换加密方案,还是能通过“早安”一词来找到密码的钥匙。

5. 简洁才能够长久和广泛

相比十进制的 9x9 乘法表,玛雅文明的二十进制 19x19 乘法表太难记️了,玛雅文字也非常复杂,每个部落都没几个人能掌握计数和文字的技能,这也许就是玛雅文明发展极为缓慢的重要原因。选用什么样的计数法,其实是数字编码的问题,一个编码方法要兼顾简洁和普适性,实在是很难的。比如,Roman languages 所代表的西方拼音文字,能够通过几十个字母就表示语言中的全部字词,即是一种历史筛选出的简洁且普适的编码方法。

你可能感兴趣的:(阅读 | 从《数学之美》中学习思维模型)