第一次信息化浪潮发生在1980年前后,具体标志是个人计算机的出现,PC开始普及,使得计算机走入企业和千家万户,大大提高了社会生产力,个人计算机的出险,解决了信息处理的问题;随后在1995年前后,随着第二次信息化浪潮人类全面进入互联网时代,就是在这个时期缔造了Yahoo,Google,Alibaba,Baidu,Tencent等互联网巨头。互联网的出现解决了信息传输的问题;在2010年前后,云计算、大数据物联网的快速发展,拉开了第三次信息化浪潮的大幕,大数据时代已经到来。大数据时代的来临,也意味着信息爆炸的问题的解决。
数据,就是我们通过观、实验或计算得出的结果。数据产生方式的变革,是促成大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了3个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段:
运营式系统阶段:
数据库的出现使数据管理的复杂度大大降低,数据往往伴随这一定的运营活动而产生并记录在数据库中,数据的产生方式是被动的
用户原创内容阶段:
数据爆发产生于web2.0时代,而web2.0的最重要标志就是用户原创内容。
智能手机等移动设备加速内容产生
数据产生方式是主动的
感知式系统阶段
感知式系统的广泛使用
人类社会数据量第三次大的飞跃最终导致了大数据的产生
人类社会最早大规模管理和使用数据,是从数据库的诞生开始的。数据库中保存了大量结构化的企业关键信息,用来满足企业各种业务需求。在这个阶 段,数据的产生方式是被动的,只有当实际企业业务发生时,才会产生新的记录并存入数据库。
互联网的出现,使得数据传播更加快捷,不需要借助于磁盘、磁带等物理介质传播数据,网页的出现进一步加速了大量网络内容的产生,从而使得人类社 会数据量开始呈现“井喷式”增长。但是,互联网真正的数据爆发产生于以“用户原创内容”为特征的Web2.0时代。Web2.0强调自服务,大量上网用户本身就是 内容的生成者,数据量开始急剧增加。
物联网的发展最终导致了人类社会数据量的第三次跃升。物联网的一些传感设备,每时每刻都在产生大量数据,与Web2.0时代的人工书产生方式相比, 物联网中的自动数据产生方式,将在短时间内生成更密集、更大量的数据,使得人类社会迅速步入“大数据时代”。
大数据的4个特点,包含4个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。
人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移。随着物联网和Web2.0移动互联网的快速发展,各种数据产生速度之快,产 生数量之大,与i经远远超出人类可以控制的范围。
大数据的数据类型丰富,包括结构化数据和非结构化数据,如此繁多的异构数据,对数据处理和分析技术提出了新的挑战,也带来了新的机遇。
大数据时代的数据产生速度非常迅速。大数据时代的很多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理 和分析的速度通常要达到秒级响应,这一点和传统的数据挖掘技术有着本质的不同,后者通常不要求给出实时分析结果。
大数据虽然看起来很美,但是价值密度远远低于传统关系数据库中已经有的那些数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。
随着Web2.0和移动互联网的快速发展,人们可以随时随地随心所欲发布各种信息,随着物联网的推广和普及,各种传感器和摄像头将遍布我们工作和生活的各个角落,这些设备每时每刻都在自动产生大量数据。
各种数据产生速度之快,产生数量之大,已经远远超出人类可以控制的范围,“数据爆炸”成为大数据时代的鲜明特征。人类每年的数据量都以50%的速度增长,这称为“大数据摩尔定律”。
人类自古以来在科学研究上先后经历了实验、理论、计算和数据四种范式。
在最初的科学研究阶段,人类采用实验来解决一些科学问题,著名的比萨斜塔实验就是典型实例。
实验科学的研究会受到当时实验条件的限制,难以完成对自然现象更精确的理解。随着科学的进步,人类开始采用各种数学、几何、物理等理论,构建问 题模型和解决方案。
随着1946年人类历史上第一台计算机ENIAC的诞生,人类社会开始步入计算机时代,科学研究也进入了一个以“计算”为中心的全新时期。在实际应用中, 计算机科学主要用于对各个科学问题进行计算机模拟和其他形式的计算。通过涉及算法并编写相应程序输入计算机运行,人类可以借助于计算机的高速运算能 力去解决各种问题。
随着数据的不断积累,其宝贵价值日益得到体现,物联网和云计算的出现,更是促进了事物发展从量变到质变的转变,使人类社会开启了全新的大数据时 代。在大数据环境下,一切以数据为中心,从数据中发现问题、解决问题,真正体现数据的价值。大数据将成为科学工作者的宝藏,从数据中可以挖掘未知模 式和有价值的信息,服务于生产和生活,推动科技创新和社会进步。相对第三范式来说,第四种研究范式是先有了大量已知的数据,然后通过计算得出之前位 置的理论。
大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果。
过去, 由于数据存储和处理能力的限制,在科学分析中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析来推断全 集数据的总体特征。通常,样本数据规模要比全集数据小很多,因此,可以在可控的代价内实现数据分析的目的。现在,我们已经迎来大数据时代,大数据技 术的核心就是海量数据的存储和处理,分布式文件系统和分布式数据库技术提供了理论上近乎无限的数据存储能力,分布式并行编程框架MapReduce提供了 强大的海量数据并行处理能力。因此,有了大数据技术的支持,科学分析完全可以直接针对全集数据而不是抽样数据,并且可以在短时间内迅速得到分析结 果,速度之快,超乎我们的想象。
过去,我们在科学分析中采用抽样分析方法,就必须追求分析方法的精确性,因为抽样分析只是针对部分样本的分析,其分析结果被应用到全集数据以 后,误差会被放大,这就意味着,抽样分析的微小误差被放大到全集数据以后,可能会变成个很大的误差。因此,为了保证误差被放大到全集数据时仍然处于 可以接受的范围,就必要确保抽样分析结果的精确性。正是由于这个原因,传统的数据分析方法往往更加注重提高算法的精确性,其次才是提高算法效率。现 在,大数据时代采用全样分析而不是抽样分析,全样分析结果就不存在误差被放大的问题。因此,追求高精确性已经不是其首要目标;相反,大数据时代具 有“秒级响应”的特征,要求在几秒内就迅速给出针对海量数据的实时分析结果,否则就会丧失数据的价值,因此,数据分析的效率成为关注的核心。
过去,数据分析的目的,一方面是解释事物背后的发展机理;另一方面是用于预测未来可能发生的事件,不管是哪个目的,其实都反映了一种“因果关 系”。但是,在大数据时代,因果关系不再那么重要,人们转而追求“相关性”而非“因果性”。比如,我们去淘宝网购物时,当我们购买了一个汽车防盗锁以后, 淘宝网还会自动提示你,与你购买相同物品的其他客户还购买了汽车坐垫,也就是说,淘宝网只会告诉你“购买汽车防盗锁”和“购买汽车坐垫”之间存在相关 性,但是并不会告诉你为什么其他客户购买了汽车防盗锁以后还会购买汽车坐垫。
大数据将会对社会发展产生深远的影响,具体表现在以下几个方面:大数据决策成为一种新的决策方式,大数据应用促进信息技术与各行业的深度融合,大数据开发推动新技术和新应用的不断涌现。
大数据决策成为一种新的决策方式
根据数据制定决策,并非大数据时代所特有。从20世纪90年代开始,数据仓库和商务智能工具就开始大量用于企业决策。发展到今天,数据仓库已经是二个集成的信息存储仓库,既具备批量和周期性的数据加载能力,也具备数据变化的实时探测、传播和加载能力,并能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策(如宏观决策和长远规划等)和战术决策(如实时营销和个性化服务等)的双重支持。但是,数据仓库以关系数据库为基础,无论是数据类型还是数据量方面都存在较大的限制。现在,大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析,已经成为受到追捧的全新决策方式。比如,政府部门可以把大数据技术融入“舆情分析”,通过对论坛、微博、微信、社区等多种来源数据进行综合分析,弄清或测验信息中本质性的事实和趋势,揭示信息中含有的隐性情报内容,对事物发展做出情报预测,协助实现政府决策,有效应对各种突发事件。
书中提到了以下内容:
领域
|
大数据的应用
|
---|---|
制造业 | 利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺、优化生产过程能耗、工业供应链分析与优化、生产计划与排程 |
金融行业 | 大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领城发挥重要作用 |
汽车行业 | 利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走人我们的日常生活 |
互联网行业 | 借助于大数据技术,可以分析客户行为,进行商品推荐和有针对性广告投放 |
餐饮行业 | 利用大数据实现餐饮020模式,彻底改变传统餐饮经营方式 |
电信行业 | 利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施 |
能源行业 | 随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网进行,合理地设计电力需求响应系统,确保电网运行安全 |
物流行业 | 利用大数据优化物流网络,提高物流效率,降低物流成本 |
城市管理 | 可以利用大数据实现智能交通、环保监测、城市规划和智能安防 |
生物医学 | 大数据可以帮助我们实现流行病预测、智慧医疗,健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘 |
体育和娱乐 | 政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻 |
领域
|
大数据的应用
|
---|---|
安全领城 | 政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪 |
个人生活 | 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到地个性化服务 |
所谓大数据技术,是指伴随着大数据的采集、存储、分析和应用的相关技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。
大数据技术的不同层面及其功能
技术层面
|
功能
|
---|---|
数据采集与预处理 | 利用ETL工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础,也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析。 |
数据存储和管理 | 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化海量数据的存储和管理。 |
数据处理与分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好的理解数据,分析数据。 |
数据安全和隐私保护 | 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。 |
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。具体内容见下表。
产业链环节
|
包含内容 |
---|---|
IT基础设施层 | 包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、 Redhat等 |
数据源层 | 大数据生态圈里的数据提供者,是生物(生物信息学领域的各类研究机构)大数据、交通(交通主管部门)大数据、医疗(各大医院、体检机构)大数据、政务(政府部门)大数据、电商(淘宝、天猫、苏宁云商、京东等电商)大数据、社交网络(微博、微信、人人网等)大数据、搜索引擎(百度、谷歌等)大数据等各种数据的来源 |
产业链环节
|
包含内容 |
---|---|
数据管理层 | 包括数据抽取、转换、存储和管理等服务的各类企业或产品,如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具( Informatica、Datastage、 Kettle 等)、数据库和数据仓库( Oracle、MySQL、SQL Server、HBase、 GreenPlum等) |
数据分析层 | 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,如分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具( MicroStrategy、Cognos、 BO)等 |
数据平台层 | 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,如阿里巴巴、谷歌、中国电信、百度等 |
数据应用层 | 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,如交通主管部门、各大医疗机构、菜鸟网络、国家电网等 |
云计算是分布式计算的一种,指的是通过网络云将巨大的数据计算处理程序分解成无数个小程序,然后通过多部服务器组成的系统进行处理和分析这些小程序得到的结果并返回给用户。现阶段所说的云服务是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。
云计算是一种全新的网络应用概念,云计算的核心概念就是以互联网为中心,在网站上提供快速且安全的云计算服务与数据存储,让每一个使用互联网的人都可以使用网络上的庞大计算资源与数据中心。
物联网是指通过各种信息传感器、射频识别技术、全球定位系统、红外感应器、激光扫描器等各种装置与技术,实时采集任何需要监控、 连接、互动的物体或过程,采集其声、光、热、电、力学、化学、生物、位置等各种需要的信息,通过各类可能的网络接入,实现物与物、物与人的泛在连接,实现对物品和过程的智能化感知、识别和管理。物联网是一个基于互联网、传统电信网等的信息承载体,它让所有能够被独立寻址的普通物理对象形成互联互通的网络。
物联网是新一代信息技术的重要组成部分。第一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;第二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。因此,物联网的定义是通过射频识别、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现对物品的智能化识别、定位、跟踪、监控和管理的一种网络。
第一,大数据、云计算和物联网的区别。
大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。
第二,大数据、云计算和物联网的联系。
从整体上看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce提供了海量数据分析能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。反之,大数据为云计算提供了“用武之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。可以说,云计算、大数据和物联网三者已经彼此渗透、相互融合,在很多应用场合都可以同时看到三者的身影。在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。