BigData 资料杂记

阅读更多

 

BigData 综述

Big Data作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互。

根据维基百科的定义,“大数据”在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据

技术人员纷纷研发和采用了一批新技术,主要包括分布式缓存基于MPP的分布式数据库分布式文件系统、各种NoSQL分布式存储方案等。

Eric Brewer提出著名的CAP定理,指出:一个分布式系统不可能满足一致性可用性分区容忍性这三个需求,最多只能同时满足两个。

 

BigData 处理方式

        为了处理如此大量的数据,处理数据的方式势必和过去有所不同。各家厂商对于Big Data潮流都提供了不同解决方案。像数据中心的储存方案会从过去的SAN(Storage Area Network)架构,渐渐转成分布式的储存架构,而各家储存服务商,也更加强了软硬件的可靠性和速度,以回应Big Data的需求,让使用者可以获得更快、更好、更安全而且更便宜的服务。

  而在数据处理的速度方面,Big Data时代的趋势是在收集数据的同时即开始分析运算,也加强软件优化,让原来需要2-3小时的运算,现在在2-3秒即可完成。而在档案的分类上,也从原来的数据库方式,变成了分布式文件格式。

 

BigData 资料杂记_第1张图片

 

分布式缓存:

memcached

 

分布式数据库:

Greenplum

BigData 资料杂记_第2张图片

 

分布式文件系统:

Google的GFS:

Hadoop: Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据存储和计算任务。

 

NoSQL:

HBase :是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建大规模结构化存储集群。Google运行MapReduce来处理BigTable中的海量数据,HBase同样利用MapReduce来处理HBase中的海量数据;

MapReduce:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。


 

2013年大数据趋势预测:http://www.199it.com/archives/86385.html

 

1、Bigdata & Spatial Data

 

2、Bigdata & Cloud Computing

 

3、Bigdata & NoSQL

 

4、Bigdata & MapReduce

 

5、Bigdata & Location Service

IBM:用大数据解决波士顿堵车难题:每秒钟都有数以百万计的数据点信息,包括GPS和手机,这些数据经过分析处理后可以提供交通智能信息,是一个大数据项目,与物联网等基础设施进行连接和整合。http://www.199it.com/archives/54725.html

大数据(Big data)在TomTom路况导航中的应用

TomTom利用实时监测超过八千万支匿名的移动电话,一百万台以上的TomTom Live卫星导航仪在路面上的移动速度,搭配RDS-TMC的道路交通资讯系统,建构一个完整而且即时的交通资料库。

http://www.lbsvision.com/archives/9767

 

 

网站:

http://www.infoq.com/cn/mapreduce

http://www.infoq.com/cn/news/2012/12/big-data-as-a-service

http://en.wikipedia.org/wiki/Big_data

http://www.ibm.com/developerworks/cn/bigdata/index.html

http://www.intel.cn/content/www/cn/zh/big-data/big-data-analytics-turning-big-data-into-intelligence.html?cid=prc:ggl|bigdata_cn_definition|cn212AC9|s

 

你可能感兴趣的:(mapreduce,nosql,bigdata)