吴军-智能时代 笔记

数据

现象 -> 数据 -> 信息 -> 知识

通过数据建立模型,有2个问题:

  • 采用什么样的模型:完美的模型未必存在,取而代之的方法是用很多简单的模型的组合(如多圆嵌套的地心说模型)
  • 模型的参数:机器学习

数据驱动方法:先有大量数据,而不是预设的模型,然后用很多简单的模型去契合数据(fit data),用计算量和数据量换取研究的时间

大数据与机器智能

有了大数据后,将智能问题转换成数据问题,进而交由计算机解决。

大数据的特征:

  • 数据量大
  • 多维度(百度知道,饮食习惯的问题)
  • 完备性

大数据的重要性在于,它导致了机器智能的产生。

机器智能=通过任意一项图灵测试:

  • 翻译
  • 象棋
  • 语音识别

思维革命

机械思维:

  • 世界变化的规律是确定的
  • 规律不仅可以被认识,而且可以用简单的公式或语言来描述
  • 这些规律是放之四海皆准的,可以放到各种未知领域指导实践

核心思想是确定性和因果关系

从欧几里得到托勒密,再到牛顿,该思维取得了巨大的成功,并带来工业文明

热力学熵:封闭系统中,熵永远向不断增加的方向发张。系统达到恒温后,熵最大,此时也将无法对外做功。从微观上看,这个系统越来越无序。

信息学熵:信息量的度量就等于不确定性的大小。要消除这种不确定性,就要引入信息。

香农第一定律:对一个信源,它的信息编码的平均长度,一定大于信息的熵
香农第二定律:信息传播速率不可能超过信道的容量

最大熵原理:在给未知事件寻找概率模型时,应当满足已经有的数据,不要对未知情况做任何假设

大数据本质:信息论
  • 数据量大:信息消除不确定性
  • 多维度:交叉熵
  • 完备性:避免“黑天鹅”

从因果关系到强相关关系

技术挑战

技术拐点:

问题 方式 难点 方案
信息的收集 各类传感器,摄像头,移动设备 数据隔离,隐私问题 绕一大圈
信息存储 SSD 数据量过大 去除数据冗余,数据安全
信息传输 4G 多维度 protocol buffer
信息处理 分布式,流式处理 mapredue, hadoop

数据挖掘:降噪,机器学习(人工神经网络,最大熵模型等)。那么随着数据量变大,机器学习的实现将成为一个工程上的难题。需要把算法搬到成千上万台机器上实现。

隐私问题:

  • 数据收集时预处理
  • 数据采集和使用都需要双向知情(把偷窥者暴露出去)

未来社会

必然涉及财富再分配,低端岗位淘汰,下岗工人靠救济生活。

争当2%的人

你可能感兴趣的:(吴军-智能时代 笔记)