“这是最好的时代,也是最坏的时代。”
吴军老师引用英国文豪狄更斯,在《双城记》开篇的这句家喻户晓的话,来形容智能革命定义下的未来社会。
两年之前读过吴军老师的《智能时代》。
这两年多的时间,跟读了吴军老师在得到上的专栏《硅谷来信》和《谷歌方法论》,包括现在正在连载的《科技史纲60讲》,获益匪浅。
借着春节假期的机会,又重新读过一遍《智能时代》,对书中内容有了不少新的收获和体会,也顺带整理了一下读书笔记。
吴军老师是我从大学时期就一直喜欢的作家,在之前另一本书《态度》的笔记分享中,有做过介绍。
在大数据和机器智能逐步深入生活的今天,吴军老师作为一位在大数据和机器智能领域颇有建树的科技从业者,系统地为读者详述了大数据和机器智能的发展,其对思维的革命、对商业的变革、在技术上的挑战,分析了未来的智能化产业和未来的社会问题。
本书的副标题是《大数据与智能革命重新定义未来》,大数据大家可能比较熟悉,“智能革命”作者认为是第四次技术革命。
前两次技术革命,大家很熟悉,又叫“工业革命”,
第一次工业革命,发生在18世纪60年代,以瓦特改良蒸汽机并被广泛使用为标志,人类社会进入“蒸汽时代”。
第二次工业革命,发生在19世纪60年代后期,以电力的发明并广泛应用为标志,人类社会进入“电力时代”。
第三次技术革命,是以计算机、互联网的发明和广泛使用为标志的“信息革命”,人类社会进入“信息时代”。
很多人认为,在信息革命和第二次工业革命之间,还有一次技术革命,实际上是把计算机的发明应用和互联网的发明应用分开来看。我更赞成作者的观点,“计算机+互联网”才是对人类社会影响重大的革新。
作者认为,智能革命,是已经来临的、对人类社会产生重大影响的第四次技术革命。此后,人类社会将步入“智能时代”。
作者认为本书发表的2016年,可以算是智能时代的元年。
2016年距离麦卡锡、香农等人,提出“人工智能”的概念正好60年,而当年提出此概念的10位科学家的最后一位,也于2016年离世。两个月后,AlphaGo击败围棋世界冠军李世石,成为机器智能意义重大的标志性事件。
由此来看,2016年可谓是承上启下的一年,具有浓浓的标志性味道。
一、数据——人类建造文明的基石
要想了解什么是大数据,首先要了解什么是数据。第一章详细介绍了数据到今天大数据的演化。
数据的范畴随着文明的进程不断扩大,得到数据和使用数据的能力,通常是衡量文明发展水平的标准之一。
人们经常把数据和信息的概念混同起来,其实两者稍有不同,信息是描述,比数据要抽象。数据最大的作用在于承载信息,但数据可以承载有意义的信息,同样也可以被随意制造或伪造。
如果要排个序的话,现象>数据>信息>知识。知识最抽象,具有系统性的特征。
比如说,观察星球运动发现现象,测量星球的位置和时间得到数据,通过这些数据得到星球的运动轨迹,就是信息,通过信息总结出开普勒第三定律,就是知识。
在数据的处理和使用中,相关性是使用数据的钥匙,统计学是真正点石成金的魔棒。其中,数据模型是今天数据驱动方法的基础。
在复杂应用中,需要通过数据建立起一个数学模型,以便在实际应用中使用。这里面涉及两个问题,首先是采用什么模型,其次参数是多少。
过去,无论在理论上还是在工程上,大家都把主要精力放在寻找模型上。而完美的模型未必存在,即使在也很难找,而且费时间。因此有人考虑,通过多个简单不完美的模型凑在一起,起到完美模型的效果。
所谓数据驱动,是先有大量的数据,而不是预设模型,然后用很多简单的模型去契合数据。
数据驱动方法要成功,需要具有统计学上的要求:第一数据量要足够大,第二样本要具有代表性。
数据驱动方法最大的优势在于,可以在最大程度上得益于计算机技术的进步。
二、大数据和机器智能
大数据的使用,最大的意义在于它能让计算机完成一些过去只有人类才能做到的事情,也就是机器具有了智能。
机器能通过图灵测试,就算是具备了智能。
最早关于机器智能的研究,作者称其为“鸟飞派”。这个名字其实很好理解,发明飞机之前,人们想要研究飞行器,最早都是模仿鸟类的飞翔,无一例外都失败了。现在我们知道,飞机的发明靠的是空气动力学,靠的是物理知识,而不是模仿鸟类的仿生。
“鸟飞派”对机器智能的研究,目的是让机器按照人类的思维方式去运作。现在我们知道这条路是错的。
后来,科学家门利用“统计+数据”的方式另辟蹊径,这才首先在自然语言处理方面取得了突破。
关于自然语言处理,以及贾里尼克在自然语言处理方面的突破,在吴军老师的著作《数学之美》的第二章有详细介绍,介绍了基于语法和语义等规则的的自然语言处理,和基于统计的自然语言处理,两者的历史。
找到数学模型之后,通过统计的方法“训练出”模型的参数,就是机器学习。机器学习需要两点:大量的数据,和足够的计算能力。
2005年,之前在机器翻译领域从来没有技术积累、不为人所知的Google,机器翻译的测评结果领先第二名5%。其原因是,虽然Google用了两年前的算法,但用了比其他团队多上万倍的数据。足可见大数据的重要性。
大数据的特征包括三点:体量大,多维度,完备性。
很多人把“时效性”也归为大数据的特征之一,其实“时效性”并不是必须的,但有时时效性可以做到很多过去做不到的事情,比如城市的智能交通管理。
所以,在解决很多看似智能的问题时,我们通常是变智能问题为数据问题。
三、思维的革命
智能革命将带来人们思维模式的革命。
欧洲之所以能在科学上领先于世界其他地方,很大程度上是依靠古希腊建立起来的,思辨的思想和逻辑推理的能力,其中最有代表性的,是欧几里得的几何学和托勒密的地心说。
欧几里得最大的成就不是发现了那些几何定理,而是创立了基于公理化体系的几何学。这种基于逻辑推理的公理化系统对西方人的思维方法影响极大。罗马法也是建立在类似欧几里得公理系统的基础上。
托勒密将欧几里得的方法论应用到天文学上,建立了一套完整、严格而且相当精准的理论体系,即地心说。此后哥白尼、伽利略的天文研究,都是基于托勒密的方法论。
古希腊、罗马之后,人类对自然界认识缓慢,西方进入了中世纪的黑暗时代。之后出现了笛卡尔,和“对近代社会思想贡献最大的”牛顿。
笛卡尔的贡献在于提出了科学的方法论,即“大胆假设、小心求证”。
牛顿之所为如此伟大,在于它是人类历史上最重要的思想家之一,开启了科学的时代,开启了西方近代社会。
后来,人们将牛顿的方法论概括为“机械思维”:
第一,世界变化的规律是确定的;
第二,规律可以被认识,且可以用简单的工作或者语言描述清楚;
第三,规律可以应用到未知领域指导实践。
工业革命,实际上是机械思维的带来的结果。
因为瓦特是通过机械思维、科学原理,直接改进了蒸汽机,并不是靠长期经验的积累。
后人评价,“牛顿找到了开启工业革命大门的钥匙,而瓦特拿着这把钥匙开启了工业革命的大门。”
至于后面的爱因斯坦,他的思维方式和牛顿是一致的。
到了现代,机械思维的局限性得以显现。机械思维的局限性在于,它否认不确定性和不可知性。
世界的不确定性来自两方面。首先是影响世界的变量非常多,无法通过简单的办法或者公式算出结果;第二个因素是,不确定性是宇宙的一个特性,比如量子力学的测不准原理。
通常,我们用“概率论”模型来描述不确定性,比如用“电子云”来描述电子在某一位置出现的概率。在概率论基础上,香农博士建立起信息论。它不仅是通信理论,也是一种看待世界和处理问题的新思路。
香农提出“信息熵”的概念,用熵来描述一个信息系统的不确定性。信息的度量就等于不确定性的多少,想要消除系统内的不确定性,就要引入信息。
信息论的作用不止在科学上和工程上,它是全新的方法论。
机械思维是建立在一种确定性基础上,信息论是建立在不确定性基础上。
回过头看大数据解决智能问题,其实就是不断把各种智能问题转化成消除不确定性问题,然后再找到能够消除相应不确定性的信息。比如人脸识别,就是在很多张脸中选择一张,是一个信息论问题。
香农给出了信息的度量,还给出了信息之间相关性的量化度量——互信息。
除此之外,香农还给出了两个相关信息处理和通信的最基本定律,即香农第一定律和香农第二定律。这两个定律对于信息时代的作用,堪比牛顿力学定律对机械思维的作用。
香农第一定律,也称为香农信源编码定律。对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵。同时,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。这种编码方法具有通用性,又称霍夫曼编码,可以被认为是对香农第一定律的补充。
经济学上的吉尔德定律,即尽量多地采用便宜的资源,尽可能节省贵的资源,与信息论中的霍夫曼编码从本质上讲是相同的。
香农第二定律,信息的传播速率不可能超过信道的容量。香农第二定律不仅描述了通信领域最根本的规律,而且是自然界本身所固有的规律,能够解释很多商业行为。
关于信息论,还有一个很重要的原理,最大熵原理。大意是说,当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。它被广泛地应用于机器学习。
最大熵原理实际上已经不同于我们使用了几百年的“大胆假设、小心求证”的方法论。
很多智能问题从根本上来讲,无非是消除不确定性的问题。
前文提到过,大数据的特征包括三点:体量大,多维度,完备性。
体量大自不必说。
多维度的信息论解读,第一个视角是“互信息”,第二个视角是“交叉验证”。
完备性的信息论解读,这里涉及一个信息论的重要概念——交叉熵,它可以反映两个信息源之间的一致性,或者两种概率模型之间的一致性。完全一致时,交叉熵为零。
所有数据驱动的方法,建立模型所使用的数据和使用模型的数据之间需要有一致性。大数据的完备性,使得交叉熵为零,不会出现“黑天鹅事件”。
大数据的科学基础是信息论,本质是利用信息消除不确定性。
作者举例青霉素的发明过程,介绍利用因果关系解决问题的典型案例。但新药的研制需要很长的周期、很高的成本。而强关联关系,先有结果再反推原因,会快很多。
人们的思维方式慢慢从接受因果关系,转到接受强相关性上来了。作者举例美国20世纪90年代的世纪烟草大诉讼,以往和烟草公司诉讼之所以不能成功,是因为很难证明吸烟是导致肺癌的直接证据。而那次诉讼之所以成功,是因为统计上的强相关性的证据,让法官和陪审团信服。
强相关关系在广告等商业领域的应用,更为直接。对于这一点,互联网行业的我深有体会。