Pig系统分析(1)-概述

本系列文章分析Pig运行主线流程,目的是借鉴Pig Latin on Hadoop,探索(类)Pig Latin on Spark的可能性。

Pig概述

Apache Pig是Yahoo!为了让研究人员和工程师能够更简单处理、分析和挖掘大数据而发明的。从数据访问的角度来看,可以把YARN当成大数据的操作系统,那么Pig是各种不同类型的数据应用中不可或缺的一员。

Pig系统分析(1)-概述_第1张图片

尽管Pig的学习成本比Hive要高一些,但是Pig的优点是表达能力和灵活性更胜一筹。如果说用户使用声明式的Hive Hql表达的只是想要什么数据,那么用户使用过程式的Pig Lation,通过一连串的语句组合,能够充分控制数据分析的整个流程。

Pig整体流程

Pig系统分析(1)-概述_第2张图片


名词解释


名词

解释

备注

Pig Latin

Pig的数据流处理语言

 

Loader/Store

Pig用于加载和存储数据

 

Schema

加载数据时指定的数据格式

Pig的数据类型分为标量和复杂类型,标量基本和Java基本数据类型一致,复杂类型包括Tuple(元组)、Map和Bag(元组的无序集合)

Relation

Pig操作的数据集合

即元组的集合,或者说就是一个Bag(更精确来说外部Bag,因为存在嵌套的内部Bag)

Logical plan

逻辑执行计划

 

Physical plan

物理执行计划

 

Optimizer

优化器

基于规则的逻辑优化器

DAG

Directed Acyclic Graph有向无环图

 



你可能感兴趣的:(Distributed,Programming,~Pig,Pig系统分析,pig,大数据,hadoop,spark)