序一 大数据与机器智能催生智能时代
(邬贺铨,中国工程院院士)
数据 :指所有输入计算机并被计算机程序处理的符号介质的总称,是用于输入电子计算机进行处理的具有一定意义的数字字母符号和模拟量等的通称。广义上的数据,则是以适于更好使用或处理的方式来表示或编码的信息或知识,它可以被测量,收集和报告及分析,能够使用图形或图像来显示。
Q:为什么现在才出现大数据热?
A:《智能时代》给出了答案。
科学发展的四个范式:
- 描述自然现象的科学实验
- 以牛顿定律和麦克斯韦方程等为代表的理论科学
- 模拟复杂现象的计算科学
- 如今数据密集型科学
数据密集型科学产生的背景
面对更加复杂的自然和社会环境,多维度和多变量导致很大的不确定性,虽然不能用解析式来说明因果关系,但如果从足够多的数据中发现相关性也能把我事物发展的轨迹。
大数据热的技术发展背景
- 互联网的带宽化
- 移动互联网和物联网技术与应用源源不断产生数据
- 摩尔定律所支撑的计算力的增长
- 云计算的集约化运用模式降低了成本
- 机器智能的发展
智能时代
从感知到认知并智能决策的升华,
这是一个计算无所不在、软件定义一切、数据驱动发展的新时代。
第四次产业革命,智能革命。
启示
抓住智能时代的机遇并认真对待挑战,力争在新一轮产业变革浪潮中占领先机。
序二 智能时代,未来已来
李善友,混沌大学创始人
大数据时解决不确定性的良药
不确定来自两个方面
- 影响世界的变量太多以至于无法用数学模型描述
- 不确定来自客观世界本身
香农,用信息论将世界的不确定性与信息联系在一起。
基于不确定的理论,是如今大数据和人工智能研究的基石
现有产业 + 新技术 = 新产业
- 第一次工业革命:蒸汽机
- 第二次工业革命:电力
- 第三次信息革命:计算机与半导体
- 第四次智能革命:大数据和机器智能
智能革命带来前所未有的不连续挑战
机器智能革命的发生来自于大数据量的积累达到质变的奇点
什么是连续性:几千年来,人类的认知建立在归纳法上,即未来将继续和过去一样,也叫连续性假设
然而如今面临的智能时代,是不连续的。我们需要跨越思维的不连续性。
前言
人类的胜利
计算机战胜人类的原因
大数据和智能算法
AlphaGo的关键技术
- 把棋盘上当前的状态编程一个获胜概率的数学模型,又数据训练出来
- 启发式搜索算法---蒙特卡洛树搜索算法
AlphaGo开发目的
让计算机能够解决问题
Google的工作
让几十年前的机器学习和博弈树搜索算法在上万台甚至百万台服务器上并行运行。
本书内容和结构
介绍大数据的本质、作用,大数据和机器智能的关系,机器智能的原理和发展历程,以及对未来产业和社会的影响。
第一章 数据 ——人类创建文明的基石
如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力话,那么数据将成为下一次技术革命和社会变革的核心动力。
现象、数据、信息和知识
信息是关于世界、人和事的描述,它比数据来得抽象。
数据的作用在于承载信息,然而并非所有数据都承载了有意义的信息。
对数据和信息进行处理后,可以获得知识。
数据中隐藏的信息和知识是客观存在的,但很难挖掘出来。
数据的作用:文明的基石
人类文明过程
获取数据 -> 分析数据 -> 建立模型 -> 预测未知
过去数据被忽视的原因
- 过去数据量不足,积累大量数据所花费时间太长
- 数据与想获取的信息之间的联系通常是间接的。
相关性是让数据发挥作用的魔法棒
相关性:使用数据的钥匙
阿米特·帕特尔博士(Amit Patel),谷歌趋势:气候,疾病。
很多时候,我们无法直接获得信息,但是我们可以将相关联的信息量化,然后透过数学模型,间接地得到所想要的信息。
统计学:点石成金的魔棒
准确的统计结果需要:
- 统计数量庞大
- 采样数据具有代表性
数学模型: 数据驱动方法的基础
切比雪夫不等式:当忘本足够多时,一个随机变量和它的数学期望值之间的误差值可以任意小。
解决问题:——机器学习
- 找模型
- 找模型参数
(思路)完美模型难以找到,用简单模型叠加实现复杂模型的功能
这种方法被称为:数据驱动的方法(先有大量数据,然后用简单模型去契合数据)
前提:数据量大;数据具有代表性
数据驱动方法的优势:最大化利用计算机的优势
小结
数据的范畴远比我们想到要广。
人类认识自然的过程,科学实践的过程,以及在经济,社会领域的行为,总是伴随着数据的产生。
从某种程度上说,获得和利用数据的水平反映出文明的水平。数据将带来全球化智能革命。
第二章 大数据与机器智能
在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但是今天这些个问题换个思路就解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新一轮的技术革命——智能革命
什么是机器智能
图灵测试:让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说这台机器有了和人同等的智能。
飞鸟派:人工智能1.0
传统的人工智能:首先了解人类的智能是如何产生,然后让计算机按照人的思维去做。这时人们直觉中,最容易想到的方法。正如怀特兄弟的飞机是靠空气动力学而不是仿生学,现代人工智能也不再坚持机器按照人的思维工作。
另辟蹊径:统计+数据
贾里尼克与语音识别系统
人的大脑是信息源,从思考到找到合适的语句,再到说出来,是一个编码的过程,经过媒介传播到耳朵,到最后理解内容,是解码的过程。这是一个典型的通信问题:可以用解决通信的方法解决。
因此,两个数学模型分别描述信源和信道,从语音中提取特征。
李开复的博士论文:连续语音识别系统 sphinx。
机器翻译
传统:人力编写机器翻译所需要使用的语法规则
奥科博士:采用死记硬背的方式,通过数据学习不同语言之间很长句子成分的对应,然后直接把一种语言翻译成另一种语言。
数据驱动的方法:利用统计数据训练模型
数据创造奇迹:量变到质变
2005年,谷歌打败全世界机器翻译研究团队。得益与谷歌大数据。
数据驱动方法出现于70年代,八十九十年代缓慢发展,21世纪后,随着互联网的发展,优势愈加明显,完成了量变到质变的飞跃。
大数据的特征
- 体量大(Vast)
- 多样性(Variety)
- 及时性(Velocity)
大数据最重要的是传达了一种思维方式的变化
变智能问题为数据问题
例子:国际象棋,围棋,
谷歌回答复杂问题
- 把目标设定在只回答那些在网页中存在答案的问题
- 把问题和网页中的每一句话进行匹配,挑出可能是答案的片段,至于怎么挑,依靠机器学习
- 利用自然语言处理技术,将答案合并。
小结
我们对大数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策支持上,而是应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。
而机器一旦产生和人类类似的智能,就将对人类社会产生重大影响。
毫不夸张的说,决定今后20年经济发展的是大数据和由之而来的智能革命。
第三章 思维革命
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这边是大数据思维的核心。
机械思维是现代文明的基石。
思维方式决定科学成就:从欧几里得、托勒密到牛顿
机械思维可以追溯到古希腊,即思辨的思想和逻辑推理的能力,依靠实现中总结的最基本公理,然后通过因果逻辑构建起整个科学大厦。
托勒密的方法论:通过观察获得数学模型的雏形,然后利用数据来细化模型。
核心思想:
- 有一个简单的模型
- 模型和历史数据契合
这样的思想如今还在动态规划管理上呗广泛应用。
思维方式和方法远不如方法论对科学的发展 有作用。
笛卡尔的贡献在于提出了科学的方法论:大胆假设,小心求证。
牛顿:总结出全新的方法论。用简单优雅的数学公式破解了自然之谜。牛顿让世人相信,万物的运动规律是可以被认识的。
核心:
- 第一:世界变化的规律是确定的
- 第二:因为有确定性作保障,一次规律不仅可以被认识,而却可以同简单的公式或者语言描述清楚。
- 第三:这些规律放之四海而皆准,可以运用到各种未知领域。
机械思维的本质
工业革命,机械思维的结果
瓦特是通过科学原理直接改进蒸汽机,而不是靠长期经验的累积。
机械思维的重要特征:所有的问题有一个通用的解决方法。
机械思维导致了工业革命,工业革命带来的不仅是财富,也大大延长了人类的寿命。
机械思维更广泛的影响力是作为一种准则指导人们的行为,其核心思想可以概括成确定性(或者预测性)和因果关系。
爱伊斯坦发现广义相对论的例子表明,人类找到真正的因果关系时一件很难的事情,里面运气的成分很大,机械思维在认识世界时,还是有很多局限性的。
局限性更多的是来自于他否认不确定性和不可知性。
随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。
世界的不确定性
世界的不确定性来源:
我们对世界的方方面面了解得越来越细致,发现影响世界的变量非常多,已经无法通过简单的办法或者公式算出结果,因此,我们宁愿采用一些针对随机事件的方法来处理它们。
客观世界本身不确定,宇宙的特性。
在概率论的基础上,香农博士建立的信息论,将世界地不确定性和信息联系起来。给了人们看待世界和处理问题的新思路。
墒——一种新的世界观
如何度量信息?
信息熵,量化地给出了信息的作用。
玻尔兹曼等人发现,在一个封闭的系统中,熵永远是朝着不断增加的方向发展的。
香农指出,信息量与不确定性有关。
信息论完全是建立在不确定性基础上的,而要消除这种不确定性,就要引入信息。
也就是说,谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获得财富一样。
从贾里尼克等人的工作开始,人类在机器智能领域的成就,其实就是不断地把各种智能问题转化成消除不确定性的问题,然后在找到能够消除不确定性的信息。
互信息,mutual information 实现了对相关性的量化度量。
香农第一定律:信号源发出所有信息设计编码,那么编码的平均长度一定大于该信号源的信息熵。
延伸:经济学上的吉尔德定律(Gilder's Law),尽可能多地采用便宜的资源,尽可能节省宝贝的资源。
香农第二定律:信息的传播速率不可能超过信道的容量。
最大熵定律:当我们对未知事件寻找一个概率模型时,这个模型应当满足我们已知所有看到的数据,但是对未知的情况不要做任何主观假设。
大数据的本质
大数据量的重要性:数量多可以尽可能的消除不确定性
大数据维度的重要性:1. 为了获得相关系需要多个维度的信息
- 为了交叉验证
大数据完备性的重要性:减少交叉熵,减少黑天鹅效应。
交叉熵,反映两个信息源之间的一致性,完全一致时,交叉熵为0,。
黑天鹅效应:极为罕见,在通常预期之外的时间,他们发生之前没有前例可以证明,但一旦发生就会产生极端的影响。
大数据的科学基础是信息论,它的本质是利用信息消除不确定性。
从因果关系到强相关关系
在大数据时代,我们得益与一种新的思维方式——从大量数据好着呢个直接找到答案,即使不知道原因。
数据公司谷歌
搜索行业,在数据层的竞争。
谷歌广告系统不是由规则决定的,而完全是利用数据、碗蕨相关性的结果。
谷歌采用了大数据的思维,通过从大量数据中挖掘相关性,直接用于产品,一次给人一种产品更新非常快的感觉。
小结
很多时候,落后和先进的差距,不是购买一些机器或者引进一些技术就能够弥补的,落后最可怕的是思维方式的落后。
大数据思维是对互联网思维的补充。
在新时代,一定需要新的方法论,也一定会产生新的方法论。
第四章 大数据与商业
在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。
大数据思维不是抽象的,而是要一整套方法让人们能通过数据寻找相关性,最后解决各种各样的难题。
从大数据中找规律
案例
- 通过用电分析,抓住在家种大麻的人
- 税务局
- 塔吉特利用大数据做生意(怀孕女儿的故事)
大数据思维的三个亮点:
- 用统计规律和个案对比,做到精准定位
- 社会其实默认了在取证是利用相关性来代替直接证据
- 执法成本,运营成本大幅度下降
巨大的商业利好:相关性、时效性和个性化的重要性
案例
- 沃尔玛和亚马逊
- Netfix 电影推荐系统
- 谷歌的相关搜索
技术的进步可以改变人们的思维方式,从而让产品呈现出新的形态
大数据商业的共同点——尽在数据流中
数据收集时,数据的流向从枝末流的局部到整体。我们利用大数据得到的规律知道商业行为和其他行为时,数据的流向是从整体到局部。
把控每一个细节
(to C)
- 硅谷酒吧的故事
- Prada的销售变化,在每件商品上添加RFID,智能试衣间
(to B) - 中国金风公司,风能发电机,利用IBM的机制,转型提供服务。
金风公司的成果对很多行业具有借鉴意义。
重新认识穷举法——完备性带来的结果
案例
- 谷歌对固有关键词的穷举法搜索整理
- 谷歌自动驾驶汽车,利用数据获得智能
从历史经验看大数据的作用
新技术+原有产业=新产业
案例
- 蒸汽机
- 纺织业
- 运输业
- 电,第二次工业革命
- 人口高密度的大城市
- 公共交通
- 电话电报为核心的通信产业
- 冶金工业
- 信息革命 ->摩尔定律
- 金融业,银行ATM机,证券交易
- 农业,孟山都公司
技术改变商业模式
安迪比尔定律
- 首先,技术革命导致商业模式变化
- 其次,生产越来越过剩,单纯制造业利润越来越低,大型公司转向提供软件和服务
- 最后,商业模式的变化具有继承性,又有创新性
IT软件和服务也依然会是IT领域最好的行业,而且这个趋势将更加明显。
加大数据缔造新产业
- 金风公司
- GE电器公司
- 小米和格力赌约(大数据时代和摩尔时代不同思维方式的冲突)
如今公司的选择,加入时代的潮流,自己研发或者使用别的公司提供的技术;固守自我,逐渐消亡。
为全世界提供技术的公司站在了浪潮之巅,成为了相应时代的伟大公司。
小结
从工业革命开始,几次主要的技术革命都遵循相似的规律。
首先,大部分现有产业加上新技术等于新产业
其次,并非每一家公司都要从事新技术产品本身的制作,更多的是利用新技术改造原有产业。
每次技术革命都会诞生新的思维方式和商业模式,企业只有在思维上跟上新的时代,才能在未来的商业中立于不败之地。
第五章 大数据和智能革命的技术挑战
大数据的数据量大、维度多、数据完备等特点,是得它从搜集开始,到存储和处理,再到应用,都与过去的数据方法与很大的不同。因此,使用好大数据也需要在技术和工程上采用与过去不同的方法。
技术的拐点
科学技术的发展并非是匀速的。科技短时间单点突破后,新科技全面迸发,这便是拐点。
大数据的拐点在过去的十年和未来的一二十年,
所有和数据相关的准备条件在这个时间点开始成熟,从四个芳年分析大数据形成的技术条件。
数据的产生
- 电脑
- 传感器 RFID
- 过去已经存在的,以非数字化形式存在的信息数字化
- 互联网时代,用户产生的数据
信息的存储
摩尔定律导致的存储器容量的增长和价格的降低,读写速度的提升
传输的技术
移动互联网时代,第四代LTE通用移动通信技术的有效数据传输速率的提升,WIFI的全覆盖
信息的处理
云计算的兴起。通过互联网,廉价服务器,比较成熟的并行计算工具,实现了大规模的并行计算,大数据的处理成为可能。
数据收集:看似简单的难题
数据收集的难题:间接的收集数据,然后利用数据的相关性导出自己所要知道的信息。
数据存储的压力和数据表示的难题
目前节约存储的技术表现在两方面:
- 存储同样的信息占用的空间小,数据的压缩,去除冗余的信息
- 数据涉及数据安全,数据不丢失,不损坏。
如何节俭和如何存储才能便于使用。
大数据面临的另一个技术难题:如何标准话数据格式,以便共享。
并行计算和实时处理:并非增加机器这么简单
mapreduce和Hadoop
- 首先,任何一个问题总有一部分计算式无法并行的,这类计算占的比例越大,并行处理效率越低
- 影响并行计算的效率的因素在于无法保证每个小任务的计算量是相同的。
要解决事实处理大叔的问题,需要从根本上改变系统设计与算法,而不是增加机器。
Dremel 基于内存,以数据列优先的方式存储
数据挖掘:机器智能的关键
谷歌大脑:把过去的人工神经网络并行的实现了。
各个IT公司在大数据的挖掘和处理上进行战略性布局。
数据安全技术
- 在文件系统和操作系统设计上加以改进
- 利用大数据本身的特点来保护大数据的信息安全,利用大数据分析和机器学习了解公司的业务流程,发现并防止异常操作。
保护隐私:靠大数据长期挣钱的必要条件
- 一类是从数据手机端对数据进行预处理
- 另一类是双向监视
小结
大数据在今天这个时间点爆发,是各种技术条件具备的结果。但是,要让大数据真正发挥巨大的作用,让计算机变得更聪明,还是有很多技术挑战要应对。
使用好大数据需要在技术和工程上采用和过去不同的方法,要改变思维定式,迎接技术上的难题,比如对数据安全的考虑,对隐私保护的考虑。
在今后,任何一个能提供某些大数据关键技术的公司和个人,在未来的智能革命中,都将有大展宏图的机会。
第六章 未来智能化产业
现有产业+机器智能=新产业
未来的农业、制造业、体育、医疗等将迎来崭新形态,新产业讲取代旧产业满足人类的个性化需求,大数据将导致我们整个社会的升级和变迁。
未来农业
以色列
未来体育
硅谷地区的金州勇士,斯蒂芬库里
未来的制造业
特斯拉不招生产线上的工人
戴尔公司采用智能化管理降低企业成本。
未来医疗
- 降低医疗成本
- 解决医疗资源短缺问题
- 制药业的革命(个性化制药)
未来律师业
计算机阅读和分析法律文件
未来的记者和编辑
熟读唐诗三百首
小结
大数据将导致我们社会的产业升级和变迁。不过,如果对比每一次产业革命前后的变化,你会发现其实人类很多基本的需求没有变,只是采用了新技术后,新产业会取代旧产业满足人类的需求。在技术革命时,旧产业是没有出路的。
机器智能会给人类带来一个终极问题:既然什么事情都可以让机器来做,而却还比人做的好,那么人类怎么办?
智能革命和未来社会
在历次技术革命中,一个人,一家企业,甚至一个国家,可以选择的道路只有两条:要么加入浪潮,成为前2%的人,要么徘徊观望,被淘汰。
智能化社会
* 2014年跨年夜上海踩踏事件
- 大数据管理交通
- 大数据反恐
精细化社会
区块链
- 追踪每一次交易——比特币
- 从标准化到个性化的服务
当今工业化时代的一个特征是,一切标准化,标准化在很多情况下对顾客不是最优的。智能时代,机器的智能水平将为我们提供个性化的服务。
无隐私的社会
- 首先是人们对这个问题缺乏认识
- 其次是低估了机器智能的力量
- 最后,一厢情愿的吧个人隐私寄托在数据拥有者的善意上。
大数据对隐私带来的威胁在于,无形中造就一个big brother。
隐私就像自由,只有人们逝去它的时候,才会知道它的可贵。
机器抢掉人的饭碗
历届工业革命的影响
依然没有消化完的信息革命
解决问题的方法只有靠时间
智能革命的冲击
- 首先,信息革命本身带来的影响还没有消化完,全球信息化带来的效率已经使很多人无事可做,很少人制造出来的东西就可以足够全球人口消费。
- 其次,全球化使得消化掉技术革命的邮箱要比工业革命难得多。
- 最后,智能革命所要代替的是人类最值得骄傲的部分,大脑。
大量劳动力被淘汰,没有良好的解决方法。
如何让自己收益:争当2%的人,不被抛弃。
争当2%的人
接受新的思维方式,利用好大数据和机器智能,勇敢投身到技术革命大潮中。
小结
大数据导致机器革命的到来,这对未来社会的影响不仅仅存在于经济领域,而是全方位的。尽管整体上这些影响是正面的,从长远看会使我们未来社会便得更好;不过,和以往的技术革命一样,智能革命也会带来负面影响,在发展之初,影响深远。
任何一次技术革命,最初的受益者都是发展它、使用它的人,而远离它、拒绝它的人,在很长时间内都将是迷茫的一代。
我们需要在这样的环境中学会生存。
这将是一个让我们振奋的时代,也是一个给我们带来空前挑战的时代。