Pig Latin 常用指令

Pig Latin 常用命令和操作语句(摘自 PDF 书中)

1. 诊断操作语句

1.1 EXPLAIN

查看 Pig 为关系所创建的逻辑和物理计划!也会显示 MapReduce 计划,查看 MapReduce 作业的个数。

1.2 DESCRIBE

查看 关系的 scheme ,元数据的组织关系。

1.3 ILLUSTRATE

查看 Pig 推荐的用作测试的精简抽样,并按照逻辑计划后打印出试运行结果!


2. 关系操作语句

2.1 加载和存储

LOAD: 从文件系统或其他存储中加载数据,存入关系!

STORE:将一个关系存储到文件系统或其他存储中!跟 LOAD 操作相反!

DUMP: 将关系打印到控制台!


按照我的理解,”关系“ 指的就是变量。

2.2 过滤

FILTER:  从关系中删除不需要的行!
DISTINCT:  从关系中删除重复的行!
FOREACH..GENERATE: 从关系中增加或删除字段!
MAPREDUCE: 以一个关系作为输入运行某个 MapReduce 作业!
STREAM: 使用外部程序对一个关系进行变换!
SAMPLE:  对一个关系进行随机取样!

2.3 分组和连接

JOIN: 连接两个或多个关系!
COGROUP: 对两个或多个关系的数据进行分组!
GROUP: 在一个关系中,对数据进行分组!
CROSS: 创建两个或多个关系的乘积!

2.4 排序

ORDER: 根据一个或多个字段对关系进行排序!
LIMIT: 将一个关系的元组限制在某个数量内!

2.5 组合和切分

UNION: 合并两个或多个关系为一个关系!
SPLIT: 把某个关系拆分成两个或多个关系!与UNION相反!


3. 宏和UDF语句

REGISTER: Pig运行时环境注册一个 JAR 文件!

DEFINE: 为宏、UDF、stream 脚本或命令规范新建别名!

IMPORT: 导入另一个文件中定义的宏!

你可能感兴趣的:(大数据时代)