大数据是一个热门词汇,而Hadoop可以说是目前大数据处理的基石。大数据并不是说一定要处理特别大规模的数据,而是在于可以在各种数据尺度上找到你要的答案,这些数据包括:用户数据,机器数据等等。我们可以从基础设施,算法和可视化等各个方面来理解大数据。
在基础设施方面,我们有Hadoop的HDFS作为文件系统,MapReduce来做批处理,此外有HBase,Cassandra,Riak等NoSQL数据库,还有Kafka,RabbitMQ等消息中间件。在算法方面,主要是对现有的机器学习算法的实现。在可视化方面,常见的有Matplotlib(python语言),R语言,D3(JavaScript语言)。
HDP是操作系统是CentOS 6,启动后除了可以用ssh登陆以外,还可以登陆网页界面(http://127.0.0.1:8888)。系统默认帮我们安装的软件主要包括:
HBase默认没有安装,启用HBase的话应该需要给虚拟机分配更多内存。
Hadoop是一个开源的数据分析平台,它与传统的数据分析平台相比当然有很多优点(开源,性价比,扩展性等),但是它们本质上并没有太大不同。一个完整的数据分析平台需要的组件Hadoop都有涉及:
通过HDP自带的教程学习了Hive和Pig的基本知识,HDP自带了基于Web的Hive和Pig的查询界面,使用起来比命令行要友好。
Pig首先实现了一种ETL语言(PigLatin),通过使用LOAD,GROUP等系统命令以及自定义命令,可以对数据进行复杂的处理。另一方面,Pig在执行命令时会把命令转化为MapReduce任务,也就是说对于很多MapReduce操作用户不再需要使用冗长的Java编程=》编译=》执行流程。最后,Pig也允许用户实现自定义方法(UDF)来扩展功能。
- //从文件中加载数据
- batting = load 'Batting.csv' using PigStorage(',');
- //读取文件中的若干列
- runs = FOREACH batting GENERATE $0 as playerID, $1 as year, $8 as runs;
- //按照年份划分数据
- grp_data = GROUP runs by (year);
- //对划分后的数据进行进一步处理
- max_runs = FOREACH grp_data GENERATE group as grp,MAX(runs.runs) as max_runs;
- //连接max_runs和runs,按照指定的两个列连接,连接的表包括两表的所有列
- join_max_run = JOIN max_runs by ($0, max_runs), runs by (year,runs);
- //重新选取部分列
- join_data = FOREACH join_max_run GENERATE $0 as year, $2 as playerID, $1 as runs;
- dump join_data;
如果说Pig在传统数据仓库的意义上是一种ETL语言(当然Pig的用处不止于此),那么Hive相当于传统数据仓库中的SQL语言。Hive则可以允许你创建表,在表中导入和处理数据,数据处理的结果可以再保存到表中。Hive和Pig的详细比较可以参照这篇文章。
下面这写Hive命令实现了与前面Pig脚本一样的功能。
- create table temp_batting (col_value STRING);
- LOAD DATA INPATH '/user/hue/Batting.csv' OVERWRITE INTO TABLE temp_batting;
- create table batting (player_id STRING, year INT, runs INT);
- insert overwrite table batting
- SELECT
- regexp_extract(col_value, '^(?:([^,]*)\,?){1}', 1) player_id,
- regexp_extract(col_value, '^(?:([^,]*)\,?){2}', 1) year,
- regexp_extract(col_value, '^(?:([^,]*)\,?){9}', 1) run
- from temp_batting;
- SELECT year, max(runs) FROM batting GROUP BY year;
- SELECT a.year, a.player_id, a.runs from batting a
- JOIN (SELECT year, max(runs) runs FROM batting GROUP BY year ) b
- ON (a.year = b.year AND a.runs = b.runs) ;
HBase是Google的BigTable的一种实现,即面向列的数据库。HBase相对于Hadoop比较独立,原因在于:1)HBase不依赖于MapReduce,它可以完全不在HDFS上部署,虽然在生产环境上会推荐部署到HDFS上;2)HBase的编程模型也不一定是MapReduce。
HBase和MapReduce编程可以参考Hadoop: The Definitive Guide。
Apache Tez, 新一代的准实时(near real-time)大数据处理。在Hadoop 2.0的环境下,MapReduce(也就是传统的Batch编程模式)仅仅是其一种实现,而Tez成为了新一代的任务执行引擎,反过来支持MapRecue,Pig,Hive等功能。
Apache Storm,实时数据处理
Apache Flume,流式数据(例如日志)的处理
Apache Mahout,机器学习算法库
Apache ZooKeeper 分布式系统协调服务