pig0.16.0安装

1下载解压安装至特定目录
2配置全局环境变量
vi ~/.bash_profile

export PIG_HOME=/home/hadoop/chadoop/pig/pig-0.16.0
export PATH=$PATH:$PIG_HOME/bin
export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop

Pig有两种执行模式,分别为:
1)本地模式(Local)
本地模式下,Pig运行在单一的JVM中,可访问本地文件。该模式适用于处理小规模数据或学习之用。
运行以下命名设置为本地模式:
pig –x local
2) MapReduce模式
在MapReduce模式下,Pig将查询转换为MapReduce作业提交给Hadoop(可以说群集,也可以说伪分布式)。
应该检查当前Pig版本是否支持你当前所用的Hadoop版本。某一版本的Pig仅支持特定版本的Hadoop,你可以通过访问Pig官网获取版本支持信息。
Pig会用到HADOOP_HOME环境变量。如果该变量没有设置,Pig也可以利用自带的Hadoop库,但是这样就无法保证其自带肯定库和你实际使用的HADOOP版本是否兼容,所以建议显式设置HADOOP_HOME变量。且还需要设置如下变量:
exportPIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
下一步,需要告诉Pig它所用Hadoop集群的Namenode和Jobtracker。一般情况下,正确安装配置Hadoop后,这些配置信息就已经可用了,不需要做额外的配置。
Pig默认模式是mapreduce,你也可以用以下命令进行设置:
pig –x mapreduce
运行Pig程序
Pig程序执行方式有三种:
1)脚本方式
直接运行包含Pig脚本的文件,比如以下命令将运行本地scripts.pig文件中的所有命令:
pig scripts.pig
2) Grunt方式
Grunt提供了交互式运行环境,可以在命令行编辑执行命令。
Grund同时支持命令的历史记录,通过上下方向键访问。
Grund支持命令的自动补全功能。比如当你输入a =foreach b g时,按下Tab键,则命令行自动变成a = foreach b generate。你甚至可以自定义命令自动补全功能的详细方式。具体请参阅相关文档。
3)嵌入式方式
可以在java中运行Pig程序,类似于使用JDBC运行SQL程序。
Pig Latin编辑器
PigPen是一个Ecliipse插件,它提供了在Eclipse中开发运行Pig程序的常用功能,比如脚本编辑、运行等。下载地址:http://wiki.apache.org/pig/PigPen
其他一些编辑器也提供了编辑Pig脚本的功能,比如vim等。

Pig同一时间只能工作在一种模式下,比如以MapReduce模式进入后,只能读取HDFS文件,如果此时你用load 读取本地文件,将会报错。
加载和存储(Load,Store)
records = load’hdfs://master:8020/input/student.txt’ using PigStorage(‘,’) as(classNo:chararray, studNo:chararray, score:int);
dump records;
store records into ’ hdfs://localhost:9000/input/student_out’ using PigStorage(‘:’);
筛选(Filter)
执行以下命令:
records_c01 = filter records byclassNo==’C01’;
dump records_c01;

Foreach Generate
Foreach对关系中的每一个记录循环,然后按指定模式生成一个新的关系。
执行以下命令:
score_c01 = foreach records_c01generate ‘Teacher’,$1,score;
dump score_c01;
分组(group)
执行以下命令:
grouped_records = group recordsby classNo parallel 2;
dump grouped_records;
详细的pig操作,自行百度

你可能感兴趣的:(hadoop集群配置)