在学习Hadoop之前,我们先来学习一下大数据的有关知识吧~
次序 | 时间 | 标志 | 解决问题 | 代表企业 | 大数据 |
---|---|---|---|---|---|
第一次信息化浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等 | 兴起 |
第二次信息化浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎,Google,Alibaba,百度,腾讯 | 普及 |
第三次信息化浪潮 | 2010年前后 | 物联网、云计算和大数据 | 信息爆炸 | 亚马逊、Google、IBM、VMWare、Palantir、Hortonworks、Cloudera、阿里云等 | 大数据时代 |
信息科技需要解决信息存储、信息传输 和 信息处理 3 个核心问题,人类社会在信息科技领域的不断进步为大数据时代的到来提供了技术支撑。
存储设备容量不断提升,价格不断下降
CPU性能大幅提升(摩尔定律)
网络带宽不断增加
数据产生方法的变革,是促进大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了 3 个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。
运营式系统阶段–所有运营活动都存储在数据库中
数据库的诞生是一重要标志。在这一阶段,数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库。
用户原创内容阶段–博客、微博,每个网民都能创作
互联网真正的数据爆发产生于以“用户原创内容”为特征的 Web 2.0 时代。Web 2.0 技术以 Wiki、博客、微博、微信等自服务模式为主,增强自服务,大量用户本身就是内容的生成者,尤其是随着移动互联网和智能手机终端的普及,人们更是可以随时随地使用手机发微博、上传照片,数据量急剧增加。
感知式系统阶段–物联网最底层包含很多设备(感知器、传感器、摄像头)源源不断产生信息
物联网的发展最终导致了人类社会数据量的第三次跃升。物联网包含大量传感器以及视频监控摄像头。这些设备,每时每刻都在自动产生大量数据,与 Web 2.0 时代的人工数据产生方式相比,物联网中的自动数据产生方式,将在段时间内生成更密集、更大量数据,是得人类社会迅速步入“大数据时代”。
大数据的发展历程总体上可以划分为 3 个重要阶段:
阶段 | 时间 | 内容 |
---|---|---|
萌芽期 | 20 世纪 90 年代至 21 世纪初 | 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等 |
成熟期 | 21 世纪前 10 年 | Web 2.0 应用迅猛发展,非结构化数据大量出现,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方法逐渐走向成熟,形成了并行计算 与 分布式系统 两大核心技术,谷歌的 GFS 和 MapReduce 等大数据技术受到追捧,Hadoop 平台大行其道。 |
大规模应用期 | 2010 年以后 | 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅度提高 |
4V:
大量化(Volume)、快速化(Velocity)、多样化(Variety)、价值密度比较低(Value)
大数据摩尔定律:数据每两年增长一倍
随着 Web 2.0 和移动互联网的快速发展,以及物联网的推广和普及,人类社会正经历着第二次“数据大爆炸”。各种数据产生速度之快,产生数量之大,已经远远超出人类可以控制的范围,“数据爆炸”成为大数据时代的鲜明特征。
大数据的数据类型丰富,包括结构化数据 和 非结构化数据。
10%结构化数据,存储在关系数据库中
90%非结构化数据,种类繁多,主要包括邮件、音频、视频、微信、微博等各种网络信息,与人类信息密切相关
数据生成到消耗时间窗口非常小,用于生成决策时间非常少
大数据时代的许多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理和分析的速度通常需要达到秒级响应。
1秒定律–和传统的数据挖掘技术有本质不同
为了数显快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。如谷歌公司的 Dremel。
在大数据时代,许多有用信息都是分散在海量数据中的。但商业价值高,如监控器,连续不间断的监控可能只有几秒有用
在科研上先后有实验、理论、计算和数据四种范式
比萨斜塔–各种定律(相对论)–计算机解决问题–数据分析
实验科学–理论科学–计算科学–数据密集型科学
虽然第三种范式和第四种范式都是利用计算机进行计算,但是二者还有有本质区别的。在第三种研究范式中,一般是先提出可能的理论,再搜集数据,然后通过计算来验证。而对于第四种研究范式,则是现有了大量已知的数据,然后通过计算得出之前未有的理论。
在思维方式方面,大数据完全颠覆了传统的思维方式:
全样而非抽样–之前无法对全样数据进行处理,计算能力存储能力不够
效率而非精确–之前看重算法的精度,而且是抽样;现在追求处理速度
相关而非因果–淘宝推荐其他人还买了啥,只考虑相关性但不研究因果
社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现
就业市场方面,大数据的兴起使得数据科学家成为热门职业
人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制
案例:
拍摄美剧(大数据分析找到最火的剧本、演员)
Google流感趋势(根据搜索数据判断流感情况)
所谓大数据技术,是指伴随着大数据的采集、存储、分析和应用的相关技术,是一系列使用非传统的工具对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。
大数据的基本处理流程,主要包括数据采集、存储、分析和结果呈现等环节。
技术层面 | 功能 |
---|---|
数据采集 | 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析 |
数据存储和管理 | 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理 |
数据处理和分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据 |
数据隐私和安全 | 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全 |
两大核心技术
分布式存储
分布式处理
计算模式 | 解决问题 | 代表产品 |
---|---|---|
批处理计算 | 针对大规模数据的批量处理(风险控制检测、如花呗借呗、考察借款风险) | MapReduce(无法高效迭代计算)、Spark等 |
流计算 | 针对流数据的实时计算(抖音、淘宝实时推送) | Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等 |
图计算 | 针对大规模图结构数据的处理 | Pregel、GraghX、Giraph、PowerGraph、Hama、GoldenOrb等 |
查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel、Hive、Cassandra、Impala等 |
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合
产业链环节 | 包含内容 |
---|---|
IT基础设施层 | 包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等 |
数据源层 | 大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源 |
数据管理层 | 包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等) |
数据分析层 | 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等 |
数据平台层 | 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等 |
数据应用层 | 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等 |
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别
云计算实现了了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源
云计算三种服务模式:
应用层:软件作为服务(SaaS)
平台层:平台作为服务(PaaS)
基础设施层:基础设施作为服务(IaaS)
云计算包括:
虚拟化、分布式存储、分布式计算、多租户等
云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构,产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施作为服务(IaaS)、平台作为服务(PaaS)、软件作为服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制
广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用
完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等六大环节