1 数据——人类建造文明的基石
如果把资本和机械动能作为全球近现代化的动力,那么数据将成为下一次技术革命和社会变革的核心动力。
数据本身是客观存在的,但是它的范畴是随着文明的里程不断变化和扩大的。数据最大的作用在于承载信息。相关性是使用数据的钥匙。
信息是关于世界、人和事的描述,它比数据来得抽象。
人类认识自然的过程,科学实践的过程,以及在经济、社会领域的行为,总是伴随着数据的使用。进入信息时代后,数据驱动的方式开始被普遍采用。
2 大数据和机器智能
验证机器是否智能:图灵测试。
鸟飞派:首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。
数据驱动和超级计算:寻找数学模型,用统计的方法训练出模型的参数(机器学习),随着数据量的积累,系统会变得越来越好。
大数据特征:大量、多维度和完备性。
大数据时代的核心是变智能问题为数据问题,开启智能革命时代。
3 思维的革命
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到想要的答案,这就是大数据思维的核心。
机械思维:世界变化的规律是确定的;规律可以被认识且可以用简单的公式或语言描述清楚;规律四海皆准。机械思维作为一种准则指导人们的行为,其核心思想为确定性(可预测性)和因果关系。机械思维的局限性源于否认不确定性和不可知性。
在信息时代机械思维的局限属于越来越明显,首先并非所有规律都可以用简单的原理描述,其次像过去那样找因果关系变得非常困难。
世界的不确定性来自两方面,首先影响世界的变量非常多,其次来自客观世界本身,我们测量活动本身影响了被测量的结果。
信息论建立在不确定性基础上,想要消除不确定性就要引入信息。引入信息量大小,则看系统的不确定性大小。只有获取的信息和系统有关联才能消除不确定性,对相关性的度量,称之为互信息。
香农第一定律:对信源发出的所有信息设计一种编码,编码平均长度一定大于该信源的信息熵。一定存在一种编码方式,使得编码的平均长度无限接近它的信息熵。
香农第二定律:信息的传播速率不可能超过信道的容量。
最大熵原理:对未知事件寻找一个概率模型时,该模型应当满足我们所有已看到的数据,但对未知的情况不要做任何主观假设。最大熵原理不同于“大胆假设,小心求证”的方法论,因为它要求不引入主观的假设。
当我们了解到信息或者说数据能消除不确定性后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题无非是消除不确定性的问题。
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
4 大数据与商业
从大数据中找规律:美国警察通过智能电表圈定犯罪嫌疑人;国税局通过大数据圈定偷漏税企业;塔吉特百货通过大数据分析用户行为,推荐商品;
沃尔玛、Netflix、Google:相关性、时效性和个性化
历史上,一项技术带动整个社会变革,通常遵循一个模式:新技术+原有产业=新产业;
蒸汽机:现有产业+蒸汽机=新产业,如工业、运输业;
电力:现有产业+电=新产业,如通信、化工产业;
信息技术:现有产业+摩尔定律=新产业,如互联网;
5 大数据和智能革命的技术挑战
大数据形成的技术条件:产生、存储、传输和处理;
大数据的第一个来源是电脑本身,其次是传感器,然后是过去资料的信息数字化。在互联网时代,用户数据增长惊人。大数据常常以全集为样本集,但如何收集到全集是很有挑战性的事情。数据的收集是一个开放性的话题,不存在唯一的最佳的方法,但是好的方法一定能够保证数据的完备性和不变性。
常见的方法是间接地收集数据,然后利用数据的相关性,导出所要的信息。
信息的存储:磁带到磁盘到SSD。数据的增长的速度是高过存储设备发展速度的。目前节约存储设备的技术体现在两方面,第一类技术是存储同样的信息占用的空间小,第二类技术涉及数据安全(指数据不丢失、不损坏)。信息存储技术还需要研究怎样存储信息才能方便使用。
传输技术:移动通信技术、WiFi
信息处理:云计算,实现大规模并行计算。大数据的使用效率取决于并行计算的水平。
6 未来智能化产业
农业、体育、制造业、医疗、制药、记者和编辑
7 智能革命和未来社会
智能化社会:提升社会管理水平、优化城市资源、保障城市安全
精细化社会:提高资源利用率,让生活更便利、个性化定制服务