《吴军:智能时代》读书笔记

前言 人类的胜利

alphago战胜李世石,宣告了机器智能时代的到来。

机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和智能算法。

未来的社会,属于那些具有创意的人,而不属于掌握某种技能做重复性工作的人。

第一章 数据——人类建造文明的基石

如果我们把资本和机械动能作为近代化的推动力的话,那么数据将成为下一次技术革命和社会变革的核心动力。

现象、数据、信息、知识

《吴军:智能时代》读书笔记_第1张图片
数据和知识的关系

数据的作用——文明的基石

《吴军:智能时代》读书笔记_第2张图片
人们使用数据的方式


数据的作用自古有之,但过去常常被忽视,其原因是:数据量不足;数据和信息之间的关系通常是相关性(而非因果),在缺乏大数据的时代,相关性很难习得。

相关性:使用数据的钥匙

统计学:点石成金的魔棒

样本的数量和质量,对推测总体极其重要。在具备大数据能力之前,通过有限样本去推测总体总是存在偏差。(切比雪夫不等式对偏差做了量化)

数学模型:数据驱动方法的基础

数据驱动方法的含义:完美的模型很难寻找,但只要数据量足够,就可以用若干个简单的模型去趋近。

分段函数的思想:假设完美模型是y=sin x,但人们并不知道。但是如果已知的点足够多,人们可以观察到,当x在(0,π)之间时,y和-(x-π/2)²+1有点像,当x在(π,2π)之间时,y和(x-3π/2)²-1有点像,可能就可以大致推测出将来的趋势。(这两个函数误差还是非常大的,但如果数据极大丰富,可以继续把区间分割小一点,归纳出来的各段函数的解释力就越强,各段拼凑起来有可能接近真相。)


《吴军:智能时代》读书笔记_第3张图片
y=sin x

数据驱动方法最大的优势在于,它可以在最大程度上得益于计算机技术的进步。相比之下,其他方法的改进需要理论的突破,周期非常长。(暴力拆解)

数据驱动方法是大数据的基础,也是智能革命的核心,更是一种新的思维方式。

人类应对不确定性的方法是“培养随机应变的能力”,而机器的方法是穷举所有可能的情形。

第二章 大数据和机器智能

在有大数据之前,计算机并不擅长解决智能问题,但今天可以变智能问题为数据问题。由此,全世界开始了新一轮的技术革命——智能革命。

1956年,香农、明斯基等人提出人工智能概念。

什么是机器智能?

图灵测试:让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器拥有了智能。

人工智能的探索路径

鸟飞派:人工智能1.0

仿生学的思想:首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。1968年明斯基指出,鸟飞派研究方法无法让计算机获得智能。(比如语言翻译,给计算机定义一堆的语法规则)


《吴军:智能时代》读书笔记_第4张图片
明斯基:人工智能奠基人

另辟蹊径:数据驱动方法

到了20世纪70年代,人们开始探索机器智能的另一条道路,即采用数据和超级计算的方法:机器不擅长逻辑推理,但是在死记硬背方面比人强,只要有价值的数据足够多,它就能找到其中的对应关系。而且随着数据的增加,系统会越来越好用。

在八九十年代,数据驱动方法得到缓慢在稳定的发展。

数据创造奇迹:量变到质变

2005年是大数据元年,因为之前在机器翻译领域从来没有技术积累的google,以巨大优势打败了全世界所有机器翻译研究团队。google的方法其实没有创新,但是使用的数据量远超其他团队。

进入21世纪后,由于互联网的出现,使可用的数据量剧增,数据驱动方法的优势越来越明显,成为主流。

大数据的特征:体量大+多维度+完备性

大数据使穷举法这样的“笨方法”,有了用武之地。

大数据可以克服传统统计方法的缺点:设计问卷可能有主管偏差、选取样本可能不随机、受众因为知道在测试可能说谎、半人工统计数据。

大数据的科学基础是信息论,其本质是利用信息消除不确定性。

第三章 思维的革命

大数据思维的核心:在不确定性剧增的今天,寻找因果关系越来越难;但是借助于爆发的数据,我们通过相关关系,同样可以得到问题的答案。这是一种全新的思维方式,被机械思维统治四百多年人类正在适应它的到来。

机械思维的核心:世界规律是确定的,可以通过逻辑推理和因果关系认识世界。代表人物是欧几里得、托勒密和牛顿。

1、世界变化的规律是确定的;(爱因斯坦说,上帝不掷骰子。)

2、世界是可认识的,而且可以用简单的公式和语言描述清楚;

3、认识到的规律,应该是通用的,放之四海而皆准的。

机械思维开启了工业革命,人类的财富、寿命、认知边界都因此极大提升。但是今天其局限性越来越明显,一方面因果关系越来越难寻找,另一方面世界其实充满了不确定性,上帝也掷骰子(量子测不准原理、股票走向、经济学预测等)。

香农的信息论:熵,一种新的世界观和方法论

1948年,香农在信息论中借用了热力学里熵的概念,提出了“信息熵”,用来描述一个信息系统的不确定性。即,如果我们对一个事物一无所知,就需要引入大量的信息;而如果我们对某件事情已经很了解了,就只需要引入少量的信息即可。这就首次回答了“如何度量信息的大小”问题,并将信息和世界的不确定性联系起来。(承认世界是不确定的,信息可以消除不确定性)

(在此之前,鲁道夫·克劳修斯提出了“熵”的概念,用以描述一个系统中趋向于恒温的程度。当系统达到恒温时,系统越无序,熵最大,就无法做功了。后来波斯曼尔等发现,一个封闭系统的熵永远是不断递增的)

在工业时代,谁掌握了资本谁就能获得财富;在信息时代,谁掌握了信息谁就能获取财富。

大数据思维、人工智能,其实就是通过数据去消除不确定性。

香农第一定律:

也称香农信源编码定律。假定有一个信息源,里面有N种信息,我们要对其编码,那么编码的平均长度一定大于该信源的信息熵。此外,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。(比如对汉字进行编码,只要把最短的编码分配给最常见的汉字即可)

香农第二定律:

信息的传播速率不可能超过信道的容量。

这个定律在信息时代的作用,堪比牛顿力学定律对机械时代的作用。

最大熵原理:

当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。(区别于我们使用了几百年的“大胆假设,小心求证”方法论)最大熵原理是信息时代的方法论,广泛用于机器学习。

熵,成为了信息论和不确定性的代名词,代表了人类对世界认知度的最高境界。


大数据可以直接找到强相关关系,即使不知道原因。先有结果再找原因,成为人们继因果关系之后的又一把武器。

大数据思维和机械思维并非完全对立,它更多是对后者的补充。如果我们能找到确定的因果关系,那依然是最好的结果。

第四章 大数据和商业

未来,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。

案例一:数据本来就存在,现在通过分析产生新价值

警察局:通过用电数据的监测分析,找出在家里种植大麻的人。

税务部门:通过同类餐馆历史纳税数据的分析,找出偷税漏税的餐馆。

塔吉特超市:通过客户历史采购记录,找出怀孕的客户进行针对性营销。

亚马逊:通过用户的购买行为,进行个性化推荐。

netflix:邮寄DVD做的不温不火,改在线观影之后,通过用户的观影行为进行个性化推荐,发展非常快。

google:通过用户的搜索记录,进行关键词推荐;即使用户不输入关键词,也会有自动下拉条

案例二:通过传感器和RFID收集新数据,再进行分析

酒吧:之前,酒吧有1/4的酒被酒保偷偷喝掉,但是老板无能为力。现在,在酒架安装测重量的传感器,每个酒瓶贴上RFID芯片,就可以知道哪一瓶酒在何时被倒了多少酒,和交易记录联系起来。在此基础上,可以延伸出BI、预警、行业报告等业务。

PRADA:对奢侈品而言,购物过程和设计、材质一样重要。但之前管理者无法知道某件产品卖得不好,是设计、材质问题,还是购物体验不好。给每件衣服加上RFID芯片,给试衣间安上阅读器。

金风科技:过去是一锤子买卖,现在管理者可以知道每台设备的运转情况(时间、地点、发电量、是否运转)。同样可以往BI、预警、行业报告延伸。

google无人驾驶车:装有十多个传感器,每秒进行几十次扫描,并将数据传输到google中心处理。(但是只能去google扫过街的地方,收集所有的建筑物信息、街道信息、人流密度等等,事先模拟每一种情形。)

从历史经验看大数据的作用

原有产业+蒸汽机=新产业

原有产业+电力=新产业

原有产业+摩尔定律=新产业


现有产业+大数据=新产业

现有产业+机器智能=新产业

第五章 大数据和智能革命的技术挑战

技术的拐点

科学的发展并非是匀速的,历史上有几次大爆发:1、1666年牛顿发明了微积分、力学三定律和万有引力定律,完成了光学分析;2、1905年爱因斯坦完成了分子说、光电效应,提出了狭义相对论。

今天,我们可能再次站在历史的拐点:机器智能超过人类。数据呈爆炸式积累、存储读取技术、传输技术、云计算等技术在十年前逐渐成熟,但机器智能仍面临几点挑战:

数据收集:看似简单的难题

数据的所有者不愿意把数据共享出来,创业者只能自己找数据;

刻意收集的数据往往不具有代表性,有价值的数据往往是不经意间收集的,或者兜了一个大圈收集的;

数据存储:可能重新成为问题

当人们意识到大数据的价值,数据增长可能超过存储读取技术的发展;

不同数据的格式化问题;(强调数据收集的无目的性,加剧了格式化问题)

并行计算和实时处理:并非增加机器那么简单

有很多任务无法100%的拆分,能拆分的部分也无法做到100%的平均;

实时问题:大数据运算通常需要几十分钟;

数据挖掘:机器智能的关键

使用大数据的第一步:对数据过滤和整理(考验自然语言理解技术);

SNR:信号与噪声比(signal noise ratio),描述信号的质量。(降噪处理:损失部分数据,提高信噪比)

第二步:机器学习

相关算法在40年前就已成熟:人工神经网络算法、最大熵模型、逻辑自回归等;

过去数据量和计算能力不够,机器学习的应用范围较窄;但是即使目前数据量大了之后,机器学习也面临许多难点。数据量的增加,会导致计算时间的剧增。

google的突破,在于把一个很大的模型上百万参数同时训练问题,简化为能够分布到上万台服务器上的小问题,这样使得大型的人工神经网络训练成为可能。(工程上的突破)

几十年前的算法是否会影响机器学习效果?从总体来看,大部分机器学习算法是等效的,只有量的差别,没有质的差别;而量的差别可以通过数据量来弥补。对于特定的问题,确实会有一个机器算法比其他算法好的情况。

未来,会出现专门做机器学习软件的公司,为需要使用大数据和机器智能的公司提供服务。

数据安全的技术

1、保证用户的数据不损坏、不丢失;

2、保证数据不会被非法查看或者盗用;

机器学习可以利用大数据(日志信息),学习公司的正常业务流程;非法闯入者由于不熟悉流程,将被禁止访问。

日本有个发明家将其用于汽车防盗:能够根据主人平时的身材、坐姿、动作,判断是否为陌生人驾驶。

保护隐私:靠大数据长期挣钱的必要条件

大数据可以从很多支离破碎的信息中,完全复原一个人或者一个组织的信息。

人往往更在意便利性,而非安全或者隐私。

在淘宝,许多人总是买到假货,而许多人可以买到真货。原因是商家了解这个客户是否难搞。

航空公司:了解到某人近期准备出游,而且过去对价格不太敏感,就给出较高的报价。

1、简单的屏蔽部分个人信息:在大数据之下并没有用,多维度信息可以相互复原;

2、对数据做加密处理:只能让经手的数据工程师无法窥探隐私,但是掌握数据的公司还是可以;

3、双向监视:当使用者看计算机时,计算机也在看使用者。窥探他人的人,其窥探行为本身也会暴露。

第六章 未来智能化产业

传统产业升级+新产业的诞生。

未来的农业

以色列的滴灌技术:将水和肥料直接送达植物根系;传感器采集植物状况和湿度,决定剂量。

Droplet:家庭院落自动喷水机器人,测试各地的湿度和植物高度,决定喷水角度和喷水量。不漏掉任何一片植物,也不重复喷水。如果明后天会下雨,就停止浇灌。

未来的体育:

勇士队:垃圾球队利用大数据,在2015年获得NBA总冠军。把明星球员卖掉,不再强调扣篮和中锋,而是追求投3分球。因为从数据来看,投3分更节省体力,更有效率。此外,利用数据及时调整比赛中的战术。

女排:中国女排靠水平和拼搏,美国女排靠高速摄像机和统计。

大数据对体育的价值,还在于分析和总结优秀选手的动作姿势,用于纠正其他运动员。

未来的制造业:

特斯拉:尽可能的用机器人替代工人:降低成本、实现个性化定制。

从设计开始,就和消费者建立联系,从而砍掉了中间批发商。

未来的医疗:

医疗影像分析系统:诊断能力胜过专科医生。没有哪个医生能学习几百万份的病例,但计算机能。

达·芬奇手术系统:利用机器人做手术,机械臂的的灵活性远超过人,带有摄像头进入人体内手术,医生可以远程干预。目前全世界共装配了3000多台,完成了300万例手术。

IBM沃特森(Watson),可以分析各种数据和医学影像,帮助疾病诊断和医疗信息的管理。在肿瘤领域,已经可以达到中等医生水平。

癌症:如果针对每一个人基因的最新变化,快速研制新药,快过癌细胞的变化,是可以遏制癌症的。这样成本太高,但是所有的基因错误不过万级,所有的癌症不过百级,其组合不过千万,在IT上是不算大的。如果能利用大数据技术,给每一种可能的组合编号,找到对应相应的药物,个性化用药就不是难事了。(穷尽的思路)

长寿问题:利用临床数据找出衰老基因,再利用基因编辑技术进行修复。

未来,同一种疾病会用不同的药品治疗,同一个病人今天用的药和昨天不一样。

未来的律师业:(阅读能力)

机器智能可以阅读和分析法律文献,使律师的效率提高500倍,打官司的成本降低99%。今天,美国法学院的毕业生,比之前更难找到正式工作了。

未来的记者和编辑:(写作能力)

学习过往所有的财经类文章,提取最新的数据,就可以写出不错的文章。

第七章 智能革命和未来社会

1、积极影响:

大数据可以避免拥堵和踩踏

对路线提前规划,对上班族的出门时间做出建议,可以节省上班族20%的通勤时间;

目前的红路灯都是孤岛,每个红灯的时间是固定的,没有根据车流量大小进行实时调整;

反恐;

医药行业的个性化:避免小病找专家,或者找错专家;

2、负面影响:

无隐私的社会:对每个人清晰的画像;如果让保险公司知道每个人未来得病的几率,那就会拒绝这些人投保或者缴纳更高的保费;

机器人抢掉人的饭碗:历次革命,在初期能获益的总是少数人,大部分人受损害,比如机械化干掉的农民,被流水线干掉的手工作坊,被自动化干掉的生产工人;长远来看,大部分都能获益,但这个过程往往需要50年以上的时间。下岗的这些人,往往很难再就业,只能寄希望于他们的儿子,学习新社会的新技能,以两代人的时间去完成转变。当前,信息革命还没有完全消化,新一代的智能革命的冲击又开始了。

积极拥抱新时代,争当2%的人。

你可能感兴趣的:(《吴军:智能时代》读书笔记)