inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish )。
Pig是Yahoo!捐献给Apache的一个项目,眼下还在Apache孵化器(incubator)阶段,眼下版本号是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。本文介绍了Pig的安装及简单演示样例的执行,主要參考/翻译自官方文档的Pig Setup 。
前提条件:
Pig的安装
1.下载Pig
能够去Pig的官方主页下载最新的Pig,在写本篇文章时,最新版本号是Pig 0.5.0
2.解压缩
$ tar -xvf pig-0.5.0.tar.gz
我一般喜欢把pig装在/opt/hadoop/pig-0.5.0文件夹下
3.环境变量设置
为了便于Pig以后的升级,我创建了一个软链接,环境变量指向软链接的文件夹,而软链接指向最新的Pig版本号。
$ ln -s /opt/hadoop/pig-0.5.0 /opt/hadoop/pig
编辑/etc/enviroment,在PATH增加Pig的bin子文件夹路径(也能够改动~/.bashrc或~/.profile)。
4.验证安装完毕
又一次进入终端,键入env命令,应该能看到PATH已经生效。键入pig -help命令,则出现帮助信息,代表Pig已经正确安装完成。
Pig的执行模式
1.本地模式
Pig执行于本地模式,仅仅涉及到单独的一台计算机。
2.MapReduce模式
Pig执行于MapReduce模式,须要能訪问一个Hadoop集群,而且须要装上HDFS。
Pig的调用方式
Pig的演示样例代码
以下就分别介绍这三种不同的调用方式,首先,先展示一下演示样例须要用到的源码,这部分源码与官方文档中的一样,但有例如以下改动:
script文件:id.pig
local模式的java文件:Idlocal.java
mapreduce模式的java文件:Idmapreduce.java
两个java类须要进行编译,编译命令:
javac -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idlocal.java
javac -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idmapreduce.java
当中pig-0.5.0-core.jar如不在当前文件夹,则要指明其全路径。
1.Grunt shell方式
Grunt shell方式首先用pig命令启动,pig命令能够加參数“-x local”代表本地模式,或“-x mapreduce”代表mapreduce模式,默认mapreduce模式。
$ pig -x local
$ pig
$ pig -x mapreduce
按行输入命令:
grunt> A = load 'passwd' using PigStorage(':');
grunt> B = foreach A generate $0 as id;
grunt> dump B;
grunt> store B into 'out';
当中,“dump B”表示在屏幕中显示结果,“store B into 'out'”表示把结果输出到out文件/目录中。在local模式中,out文件写入到当前目录;mapreduce中,out目录则须要给出绝对路径。
2.Pig script方式
script方式中,用pig命令启动,后面带要执行的.pig文件就可以,如:
$ pig -x local id.pig
$ pig id.pig
$ pig -x mapreduce id.pig
3.嵌入式方式
嵌入式方式与执行于执行普通java类方式没有不论什么不同,如:
java -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idmapreduce
java -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idlocal