智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘

智能时代-大数据与智能革命重新定义未来(吴军)-核心书摘

 

本文主要摘录于全书正文,部分解释是博主根据自己生活体验增加的理解,欢迎大家共同讨论更正~

机器学习爱好者交流QQ群:1023 119 142

为新手提供机器学习资料,也欢迎大佬来分享知识。

 

 

本书目录

第一章:数据—人类创造文明的基石

        现象、数据、信息、知识

                   数据的作用:文明的基石

                   相关性:使用数据的钥匙

                   数学模型:数据驱动方法的基础

 

第二章:大数据和机器智能

                   什么是机器智能

                   鸟飞派:人工智能1.0

                   另辟蹊径:统计+数据

                   数据创造奇迹:量变到质变

                   大数据的特征

                   变智能问题为数据问题

 

第三章:思维的革命

                   思维方式决定科学成就:从欧几里得、托勒密到牛顿

                   工业革命,机械思维的结果

                   世界的不确定性

                   熵—一种新的世界观

                   大数据的本质

                   从因果关系到强相关关系

                   数据公司Google

 

第四章:大数据和商业

                   从大数据中找规律

                   巨大的商业利好:相关性、时效性和个性化的重要性

                   大数据商业的共同点—尽在数据流

                   把控每一个细节

                   重新认识穷举法—完备性带来的结果

                   从历史经验看大数据的作用

                   技术改变商业模式

                   加(+)大数据缔造新产业

 

第五章:大数据和智能革命的技术挑战

                   技术的拐点

                   数据收集:看似简单的难题

                   数据存储的压力和数据表示的难题

                   并行计算和实时处理:并非增加机器那么简单

                   数据挖掘:机器智能的关键

                   数据安全的技术

                   保护隐私:靠大数据长期挣钱的必要条件

第六章:未来智能化产业

                   未来的农业

                   未来的体育

                   未来的制造业

                   未来的医疗

                   未来的律师业

                   未来的记者和编辑

 

第七章:智能革命和未来社会

                   智能化社会

                   精细化社会

                   无隐私社会

                   机器抢调人的饭碗

争当2%的人

                  

 

 

 

第一章:数据—人类创造文明的基石

数据>信息>知识   一步一步提炼升华的结果

 

数据的相关性—发掘信息价值的钥匙

结论D,可以通过数据A,经过B  ,C的关联性找到D.这种关联性,有的是常识性的有的是非常识性的。

 

传统统计学,大的数据量+有代表性的样本得出的结果才有意义。

但获取大量数据和建立代表性数据样本很难

 

大量数据+多个简单模型组合  可以代替一个复杂的模型。

Eg: 德国直接用高制造技术制造高水平镜头,但不能量产。

日本通过过镜头组合可以实现参不多效果,但是可量产,价格更便宜。

 

模型选择~模型调参  对于问题拟合两个比较重要的要素。

 

切比雪夫不等式(正态分布)

概率论上:当观察到足够多的数据时,随机性和噪声可以忽略不计

 

 

 

 

第二章:大数据和机器智能

图灵测试,一种对人工智能的定义。

 

人工智能1.0 鸟飞派 主要以模仿人类来设计人工智能进行特征提取

是一个专家的时代,并且某些特征覆盖并不是很全。

与之对应的是现代的方法,数据驱动。

 

机器智能最重要的是能够理解人脑解决的问题,而不在于是否采用和人一样的方法。

 

贾里尼克区别于传统特征提取方法,把语音识别作为一个通信问题

人脑发声—信息源     声波空气传播—信道    耳朵接受—解码

使用马尔科夫模型描述信源和信道,使用数据驱动,而不是传统的语言学家根据经验进行特征提取,随着数据量加大,系统就会更好。

数据驱动,数据的重要性就相当大。

 

现在深度学习的 感觉其实也是一种结合,神经网络也有一定的仿生意味,加上了大量的数据训练,得到的结果远远好于传统方式。数据驱动激活了神经网络。

 

在CV ,NLP领域,通过技术进步,每年大约能改进0.5%

 

大数据特征

多样性-多维度  是数据有效的,有信息量,有价值的关键

(大数据驱动区别于传统问卷调查更具有真实性,因为人们是在没有压力情况下主动提供的数据)

 

大量-完备性   大数据可以做到样本即是全集,通过覆盖面,让数据更精准

(预测美国大选,有个最无脑的方法,就是知道每个州每个人在想什么。可以通过互联网爬取相关信息,进行统计,只要知道了大概比例(抽样的思想,但比问卷更真实),就可以推断结果)

 

及时性        不是必须,但在特定领域(智能交通)等方便很重要

 

NLP领域,难回答的问题是 WHY,HOW. 容易的是WHAT WHERE WHEN WHICH WHO

 

 

 

 

第三章:思维的革命

信息论的角度,数据中的信息可以消除不确定性,数据之间的相关性可以取代原来的因果性。

 

机械思维,逻辑推理,让人们感到确定性的放心,一种自信。

 

托勒密方法论:

找到一个数学元模型,这个模型要和历史数据吻合。

缺陷,整体模型复杂,因为用了基础的圆来拼接模型

确定性假设,一旦模型确定,即认为真理。

 

笛卡尔方法论,大胆假设,小心求证。(很科学)

这个也是目前科学还在沿用的。

 

牛顿的机械思维

1世界变化规律是确定的

2可以用简单的公式和语言描述

3这种规律应该是通用的

也就是科学是一层一层推理出来的。

 

获取数据信息知识,这个过程需要很多代人的积累。

机械思维取得巨大成就,第一次工业革命,蒸汽。第二次工业革命,电力。极大的推动了人类社会的进步。

 

看问题要看本质,瓦特改良蒸汽机的动机不仅仅是设计一个机器,而是要通用的为工业提供动力。

 

机械思维的核心:确定性和因果性。

 

 

因果性:

医学药理上,找到真正的致病原因,然后针对这个原因找到解决方案。

分析找到原因,根据原因找到结果。

 

 

问题出现:

并不是所有的事情都是可以用简单的原来描述。

在目前信息时代,简单的因果规律都已经被发现了,想要和以前一样找到简单的因果关系,很难。

 

不确定性的时代:

 

不确定性原因:

  1. 确定世界里相关因素过多,无法全部考虑进来,也变成不确定
  2. 客观世界自己的不确定性,例如微观世界

 

信息论:信息熵

信息的度量就等于不确定性的多少。

把智能问题转化为消除不确定性的问题。数据的关联性,提供信息,帮助消除不确定性。

 

交叉熵常用来度量一致性

 

从因果关系到强相关关系

医药行业,由于研发周期长,投入大,但有效的专利保护期相对较短,导致特效药很贵。

 

强相关思维,现有处方药和现有疾病进行一一匹配,如果A药对B病有效,再进入验证期,如果通过验证期,时间3年左右,开发成本只是传统的1/10.只要保证验证合格就行。

例如以前治心脏的药,反而能治疗男性疾病。

 

大胆假设,小心求证的思想。

这种思维,前提是需要有足够多的数据支持。

 

数据发掘出 强相关性 ≈ 因果性

           非确定世界  确定世界

 

辩证看因果和强相关的关系

能找到直接因果当然更好,不是否定因果。只是有时发现因果需要一定的灵感和运气(比如牛顿,爱因斯坦发现的物理学公理,又有多少人可以发掘)

能通过机械思维直接发现 确定性和因果性当然是最好的,只是数据驱动提供一种补充。

数据驱动的强相关关系,相当于一种捷径,让我们不会因为运气而被问题难倒。

 

 

第四章:大数据和商业

关注原来无法关注的细节,主要原因是原理人工关注成本太高,然后从数据中发现异常

(具体用电细节监控,帮助美国发现室内种植大麻的房子。帮助发现偷税漏税)

 

数据也能够帮助发现特殊行为,比如商家通过数据分析,精准向孕妇群体推送不同时段所需的商品。

 

通过牺牲现在有的计算资源,重新认识穷举法的意义,也是大数据完备性的意义。

谷歌无人汽车有个细节,就是在街景收集过的地方表现得会更好,前往一段未知的路,就会表现差。因为在通过已有街景数据的道路时,大部分数据已经提前处理过。实时只需要处理少部分信息即可。如果全部靠实时采集数据再处理,计算量过大,实时性可能无法保障。

这种方式就是通过事前提供完备性来解决一些难题。虽然只能走在走过的路很傻,但现在的技术水平以及道路水平,是支持收录所有道路数据的,这也就是穷举法的一个应用吧。这就是机械思维下暂时找不到完美解,但通过数据可以弥补这个不足。

 

现有产业 + NEW = 新产业

现有产业 + 大数据 = 新产业

现有产业 + 机器智能 = 新产业

大数据现在其实分两部分,一部分是在大量数据下,通过传统方法进行数据分析,发掘数据价值。另一部分是,只是把大数据整理成养料,来投喂给机器智能,训练发掘出新的能力。

 

安迪-比尔定律:比尔要拿走安迪所给的。软件功能的增加和改进要不断吃掉硬件性能的提升,整个行业才能平稳发展下去。

 

+大数据 等于很多新产业

小米前期卖手机给自己的定位就不是制造企业而是互联网企业。小米卖手机并不是只满足于挣卖手机的钱,而是吸纳用户,从用户身上获取长久的收益。

 

第五章:大数据和智能革命的技术挑战

每一次技术革命除了生产力的发展,还需要很多技术准备,只有这些技术都成熟了,技术革命才可能成功。

 

目前的现状

1数据的产生:目前数据增量很大

1电脑本身

2传感器

3现存的数据,包括非数字化数据。

 

2信息的存储

一个是容量问题,一个是读写速度(数据量大了后的检索速度问题)

SSD的出现暂时满足了需求。

 

3传输的技术

数据从采集端到收集端的通信问题。

目前5G已经有很好的解决

 

4信息的处理

大数据情况下,计算量将相当庞大。相对于莫尔定律的硬件速度增加,简单的检索NLOGN会随着数据大量增加,让计算能力远远跟不上。

目前解决方案,分布式计算。分布式存储与任务分解运算。

 

各阶段的技术难题:

数据收集:

大数据的优点在于避免了统计学的采样之苦。

看似简单,但收集到具有多样性和完备性的数据需要很大代价,目前都是大公司通过智能设备收集。

好多廉价的智能设备其实并不廉价,他们都有一个隐藏任务,收集用户使用数据。

 

数据存储和表示:

目前数据量的增加还是对存储带来很大压力,由于数据安全性考虑,每份数据还不能只留一份,因此数量量尽管通过压缩,但还是要多留4倍,以考虑物理安全性。(没办法,只能硬存)

 

区别于传统的数据,大数据的多维度让关系型数据库已经不再适合,各种不同的数据结构,失去了数据格式的统一性,给后续调用使用带来很大问题。(开发非关系型数据库,提倡统一的大数据表示格式,例如GOOGLE的 protocol Buffer)

 

 

 

并行计算和实时处理:

并行计算并不是简单机器叠加,有些计算并不具备并行处理特性。

并行比例占95%,通过增加处理器的 数量,最多只能加速20倍。

并行比例占50%,最多只能加到2倍。

 

计算任务成功拆分,由于子任务计算难度也不一样,最后并行计算时间会取决于最后完成的子任务时间。

因此,目前分布式计算主要是解决了规模问题,至少让大模型跑起来,但在时间上,加速有限。

 

由于分布式计算时间并不是想象中那么短,实际上反而很长,因此事实上对大数据实时处理是几乎做不到的。

 

数据挖掘:机器智能的关键

从传统网页上的数据,结构不一样,分析起来很难,需要很好的NLP要不根本处理不了。

 

大数据在使用前含有噪声,通常要进行降噪处理,损失一部分数据,提高信噪比。

 

由于机器学习都是不断迭代的过程(期望值最大化),不断迭代加上大量数据,导致计算复杂度过高。

在计算能力有限的时候,采用大数据+浅层模型,小数据+复杂模型,这样才能平衡计算量

从理论上讲,使用大数据加上深度模型,效果一定会很好,但现实计算有限。

 

在某些特定的问题上,某些机器学习模型确实表现比其他的好,但总体上来讲,大部分机器学习算法是等效的,只有量的差别,没有质的差别,而量的差别可以通过规模计算和数据来弥补。

 

由于目前机器学习特性,为了机器学习服务将由特定公司提供。这种数据聚集,牵扯出安全问题。

 

数据安全问题:

好多数据安全事件,制度设计和系统上没有问题,就是人员在实际操作为了方便没有执行

可以通过异常业务流程和行为习惯发现系统是否被他人使用。

 

保护隐私:

大数据最尖锐的问题之一。

 

大数据时代,由于大数据的多维度和全面性的特点,简单屏蔽掉很多信息是可以从其他维度利用全面性恢复的。因此需要很多新技术。

  1. 搜集信息时对数据进行预处理,达到可以处理数据却看不懂数据。
  2. 双向监视

保护隐私最好的方法就是要让侵犯隐私的人拿自己的隐私来换(数据标识使用人信息)

总体上来讲,还是很难的呀,仅仅只能通过协议限制,不能完全技术手段规避。

 

第六章:未来智能化产业

未来农业:精准用水,精细化管理(只是部分地区会用,毕竟水有些地方不缺,虽然只需要用几十分之一的水,但管理成本可能更高)

 

未来体育:大数据战略分析,动作分析,协助日常训练

勇士队通过大数据分析,发现进攻型得分效率很低,3分球是最好的得分手段,主力培养神射手库里等)

 

未来制造业:大量机器人取代人工。

 

未来医疗:降级医疗成本,包括医生和药物的资源。

医生上,通过人工智能辅助,帮助提高效率。合理分配医生资源,让最紧急的病人得到最需要的医生,而不是医疗资源(专家号)被小病患者占据。有限制的医疗诊断机器人也能在一定程度上解决偏远地区,医疗资源少地区的医疗问题。机器人医疗机器人—达芬奇手术台,有些操作比人类还精细,能大大提高顶级外科医生的数量。

药物上,特别是目前绝症的治疗上,通过大数据穷举,降低个性化医疗的成本。

对于癌症,关键是杀死癌细胞。但癌细胞是因为基因错误复制产生,有第一次就有可能第二次,这种针对性药物可能就突然失效。

理论上,只有新药的研制速度快于癌细胞的变异速度,人就可以和癌细胞长期共存。但事实上在传统医药行业,新药开发时间长,成本高,世界上没有几个人能享受这样的资源。

 

利用大数据的无穷理解。所有可能的恶性基因复制错误和癌症的组合,不过几百万到上千万的可能,这个数量级在IT领域是很小的,但在医学上几乎无穷大。如果能为每种组合找到一种对应的药物编上号,以后只有检测出病变方向,就可以很简单的使用药物治疗。

 

药物上可以摆脱以前大众药才能审批通过的思想,就算药只对部分人有用,能够找到具体的受用人群,他也是有价值的。

 

未来律师,记者,编辑都会受到挑战。

 

第七章:智能革命和未来社会

智能化社会,智能交通等

(有些明显改善用户体验的方向可以研究,比如出现早出发5分钟,可以早到半小时;晚出发半小时,也只会晚到5分钟)

借助RFID识别出校园外来人员,用在更大区域可以用来反恐。

 

区块链用来追踪每一次交易,用来防伪。

 

从标准化到个性化服务,更好的利用资源。

 

隐私的重要性:

可能简单的数据使用就是推荐产品,有的人可能说我又不做坏事,数据拿去没用。

公司拿数据进行大数据杀熟还能接受的话,涉及到自己的医疗和健康就会让很多人失去公平的医疗资源。比如保险公司用数据分析觉得你未来得重病几率接近100,他就会给你拒保。但这样的话,医疗保险存在就没有任何意义了,只是保险公司挣钱的工具。

 

人们为什么会忽略大数据对个人隐私的威胁:

1不知道大数据的威力

2 把隐私的保护寄托给公司的善意

大数据可能会产生一个老大哥,即超级权利体。

 

工业革命受益人

第一:企业,精英阶级

第二:中心区域

第三:全球

工业革命会带来很大的副作用,需要半个世纪消化。

 

信息时代在美国普通家庭收入增加并不大,大的是TOP5%的人。

工业革命造成的剩余劳动力,只能慢慢等待他们退出劳动力市场,一般能加入新行业的比例极低。为了国家稳定,一般就是国家出钱养着这些人。有些国家不肯淘汰过剩产能,就是为了消化这些无所事事的人,根本解决路径就是耗。耗上两代,社会问题就解决啦。

 

信息时代更难受,不像前两次工业革命,可以开拓新的市场。如今的全球化,很少有市场可以开拓(非洲?)。

 

虽然现在的人工智能很傻,不能达到人的那种状态,但在某些领域甚至能达到专家水平,这就不仅仅是取代一些体力劳动者,部分脑力劳动者也会有危险(为了社会稳定,估计也是和专家辅助配合,消化劳动力)

 

当社会不去创造财富而只考虑分配财富,经济就开始衰退。社会公平只能体现在机会平等,而不是结果的平等,只要还有上升途径,就要努力加入他们而不是天天抱怨。

你可能感兴趣的:(大数据,人工智能)