历史上的三次信息化浪潮:
信息化浪潮 | 发生时间 | 标志 | 解决问题 | 代表企业 |
第一次信息化浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Intel、AMD、IBM、苹果、微软、联想、戴尔等 |
第二次信息化浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次信息化浪潮 | 2010年前后 | 物联网、云计算和大数据 | 信息爆炸 | 将涌现出新的标杆企业 |
第三次信息化浪潮的支撑:技术支撑(存储,计算,网络)
存储:硬盘的容量提升,价格下降。企业的存储水平:商用方面,1个DVD光盘再将来可以1pb
计算:cpu性能不断提升。有兴趣可以百度下摩尔定律。
网络:随着经济的发展,全球方面的带宽不断增加
第三次信息化浪潮的支撑:数据产生方式的变革
第一阶段、运营式系统阶段:数据由大型超市产生的数据
第二阶段、用户原创内容阶段:个人博客,微博的普及。
第三阶段、感知式系统阶段:物联网的大规模普及,摄像头,探测器,传感器,wifi的普及。
特点:
1、数据量产出速度和数据总量大。
2、非结构化数据占比高:大量的数据都是非结构化数据照片,视频等占比到90%
3、处理速度快:Dremel:谷歌研发的交互式查询产品,调用成百上千台服务器做集群运算,一两秒钟处理查询出1pb的数据。
1ZB=1024EB 1EB=1024PB 1PB=1024TB 1TB=1024GB
4、价值密度低:数据量大,商业价值低。
对科研的影响:
全样而非抽样:因为存储能力和计算能力的提升,能够对较大的数据量进行计算,分析。
效率而非精确:全样分析的时候精确度准确,这时候就会追求效率,很多分析需要有实效性才有意义。
相关而非因果:不问数据之间的因果,注重数据之间的关联。比如淘宝购物。
影视拍摄:拍摄英国同名小说--纸牌屋(大数据分析的结果)。
疾病预测:谷歌搜索--预测出爆发流感的数据曲线。
两大核心技术:分布式存储,分布式处理。
分布式存储:
利用集群进行存储(分布式存储)
分布式数据库:Hbase,DDB等。
分布式文件系统:HDFS等。
分布式处理:
批处理:MapReduce Spark(实时性更好,可以高效的迭代计算)可用于数据挖掘。
实时计算--流计算:比如用户点击的数据。(Storm,S4,Puma等)
实时计算--图计算:社交网络数据,地理信息系统。(Graph,Pregel,PowerGraph,Hama等)
交互式计算:海量数据再一两秒内得到结果(googl的Dremel,Hive,Cassandra,Impala等)
由于一些公司没有足够的资金来搭建比较庞大的集群,也没有足够的能力开发这个平台。所以像一些巨头公司比如谷歌
给你搭建好分布式服务器平台,把平台作为服务给用户租用,用户在平台上开发,部署,然后卖给别人。代表有
国外Google的Google AppAngine
国内新浪的Sina AppAngine,阿里巴巴,腾讯,百度也有对应的云服务。
掌上智能公交:公交车和你实时连接到一起,在公交车上有GPS定位。把公交车的位置信息实时通过移动的基站传送到
公交运营管理中心。然后我们通过物联网访问他的地理位置。
快递:快递上有二维码,存储了物品的想关信息。二维码扫除来的是一堆的01,然后存储的各种信息。
校园卡:里面有一个芯片,RFID。在要刷卡的地方有磁场。当刷卡的时候切割磁感线的动作,产生电流,完整信息交互。
智能工业,智能农业,智能家居等。
注:有时间将会持续更新