大数据技术与原理--大数据概述

                                 大数据技术与原理--大数据概述

一、大数据时代:

历史上的三次信息化浪潮:

信息化浪潮 发生时间 标志 解决问题 代表企业
第一次信息化浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔等
第二次信息化浪潮 1995年前后 互联网 信息传输 雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次信息化浪潮 2010年前后 物联网、云计算和大数据 信息爆炸 将涌现出新的标杆企业

第三次信息化浪潮的支撑:技术支撑(存储,计算,网络)

存储:硬盘的容量提升,价格下降。企业的存储水平:商用方面,1个DVD光盘再将来可以1pb

计算:cpu性能不断提升。有兴趣可以百度下摩尔定律。

网络:随着经济的发展,全球方面的带宽不断增加

第三次信息化浪潮的支撑:数据产生方式的变革

第一阶段、运营式系统阶段:数据由大型超市产生的数据

第二阶段、用户原创内容阶段:个人博客,微博的普及。

第三阶段、感知式系统阶段:物联网的大规模普及,摄像头,探测器,传感器,wifi的普及。

二、大数据的特点和影响:

特点:

1、数据量产出速度和数据总量大。

2、非结构化数据占比高:大量的数据都是非结构化数据照片,视频等占比到90%

3、处理速度快:Dremel:谷歌研发的交互式查询产品,调用成百上千台服务器做集群运算,一两秒钟处理查询出1pb的数据。

1ZB=1024EB    1EB=1024PB    1PB=1024TB    1TB=1024GB

4、价值密度低:数据量大,商业价值低。

对科研的影响:

全样而非抽样:因为存储能力和计算能力的提升,能够对较大的数据量进行计算,分析。

效率而非精确:全样分析的时候精确度准确,这时候就会追求效率,很多分析需要有实效性才有意义。

相关而非因果:不问数据之间的因果,注重数据之间的关联。比如淘宝购物。

三、大数据的应用(经典案例):

影视拍摄:拍摄英国同名小说--纸牌屋(大数据分析的结果)。

疾病预测:谷歌搜索--预测出爆发流感的数据曲线。

四、大数据的关键技术:

两大核心技术:分布式存储,分布式处理。

分布式存储:

利用集群进行存储(分布式存储)

分布式数据库:Hbase,DDB等。

分布式文件系统:HDFS等。

分布式处理:

批处理:MapReduce Spark(实时性更好,可以高效的迭代计算)可用于数据挖掘。

实时计算--流计算:比如用户点击的数据。(Storm,S4,Puma等)

实时计算--图计算:社交网络数据,地理信息系统。(Graph,Pregel,PowerGraph,Hama等)

交互式计算:海量数据再一两秒内得到结果(googl的Dremel,Hive,Cassandra,Impala等)

五、云计算:

由于一些公司没有足够的资金来搭建比较庞大的集群,也没有足够的能力开发这个平台。所以像一些巨头公司比如谷歌

给你搭建好分布式服务器平台,把平台作为服务给用户租用,用户在平台上开发,部署,然后卖给别人。代表有

国外Google的Google AppAngine

国内新浪的Sina  AppAngine,阿里巴巴,腾讯,百度也有对应的云服务。

六、物联网

掌上智能公交:公交车和你实时连接到一起,在公交车上有GPS定位。把公交车的位置信息实时通过移动的基站传送到

公交运营管理中心。然后我们通过物联网访问他的地理位置。

快递:快递上有二维码,存储了物品的想关信息。二维码扫除来的是一堆的01,然后存储的各种信息。

校园卡:里面有一个芯片,RFID。在要刷卡的地方有磁场。当刷卡的时候切割磁感线的动作,产生电流,完整信息交互。

智能工业,智能农业,智能家居等。

七、大数据,物联网,云计算的关系。(一张图来理解)

大数据技术与原理--大数据概述_第1张图片

注:有时间将会持续更新

你可能感兴趣的:(大数据)