Hive SQL 优化

标题一、HIVE SQL执## 标题行顺序

了解hive sql的执行顺序,有助于写出更高质量的代码。

第一步:确定数据源,进行表的查询和加载

from

(left/right/inner/outner) join

on

第二步:过滤数据,进行条件筛选

where
group by
having

第三步:查询数据

select

第四步:显示数据

distinct
order by
limit
union/union all

Sql:select…from…where…group by…having…order by…

执行顺序:

From…where…select…group by…having…order by…

MR程序的执行顺序:

Map阶段:

执行from加载,进行表的查找与加载
执行where过滤,进行条件过滤与筛选
执行select查询:进行输出项的筛选
执行group by分组,描述了分组后需要计算的函数

Map端文件合并:map端本地溢出写文件的合并操作,每个map最终形成一个临时文件。然后按列映射到对应

你可能感兴趣的:(大数据,相关技术,文档总结,hive,sql,性能优化)