Pig 安装和使用

pig 0.10.0 的下载地址 http://labs.mop.com/apache-mirror/pig/pig-0.10.0/
下载针对Ubuntu 的安装文件pig-0.10.0.tar.gz ,0.10.0 可以运行在Hadoop 0.20.x 的版本之上,
下载安装pig 的版本要和自己在安装的hadoop版本匹配。
把 pig-0.10.0 文件 放到Linux 系统的当前用户下,
解压 pig-0.10.0 文件 tar -vxf pig-0.10.0.tar.gz
配置环境变量 /etc/profile 可以使用vi 也可以使用 sudo gedit
 命令: sudo gedit /etc/profile
  #set pig
  export PIG_HOME=/home/liucheng/pig-0.10.0
 同时,要配置到path路径下
 使配置文件生效 source /etc/profile
 进入pig 的bin 目录下 启动pig

 命令 :./pig 或是 ./pig -x mapreduce


 命令:./pig -x local 运行本地模式
 这个时间,就可以使用jps 查看已经启动的线程,有两个 grunt 线程
 在grunt> 下打出Help 就可以查看 pig 可以使用的命令
 在pig 命令下可以直接操作HDFS
 以后的pig 命令 就会转成 mapreduce 运行。

 grunt> stu  = LOAD '/user/liucheng/pig/student.txt' AS (name,age);


 注 : = 的两边有空格。

 把HDFS pig 目录下的student.txt 转存为关系stu,默认每行数据是以"\t" 分割。

当调用DUMP stu; 可以查看存储到stu 关系中的数据。


注:当使用quit 退出此次会话时,那么这个关系stu 也会丢失的。

pig 调用 脚本文件。

第一步:我们在当前用户的file 目录下创建一个script.pig 文件。内容为 

ls

cat   pig/student.txt


第二步:查看一下HDFS 上有哪些文件,且pig/student.txt 文件的内容


 第三步:调用我们创建的 ~/file/script.pig 角本。pig ~/file/script.pig


分析:系统调用mapreduce 分析处理角本内容,第一个列表所有HDFS 文件,且,把pig/student.txt 内容读出来。

接下来的学习参考:http://www.cnblogs.com/uttu/archive/2013/02/19/2917438.html

转载于:https://www.cnblogs.com/java20130726/archive/2013/04/08/3218271.html

你可能感兴趣的:(Pig 安装和使用)