2016.11.16

Hive出现数据倾斜的原因:

1)、key分布不均匀

2)、业务数据本身的特性

3)、建表时考虑不周

4)、某些SQL语句本身就有数据倾斜

Hive出现数据倾斜的表现:

任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。

单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。最长时长远大于平均时长。

Hive:sort by和order by的区别:

Order by全局排序

sort by是分组有序,全局无序,一般用法是distribute + sort by



2016.11.16_第1张图片

删除目录下的所有类似名称数据:

drwxr-xr-x3 root root 4096 Nov 15 03:16 '2016-11-14'

drwxr-xr-x3 root root 4096 Nov 16 04:55 '2016-11-15'

drwxr-xr-x3 root root 4096 Nov 17 03:19 '2016-11-16'

drwxr-xr-x3 root root 4096 Nov 18 08:51 '2016-11-17'

drwxr-xr-x 19 root root 4096 Nov 18 08:56gdpv

drwxr-xr-x 19 root root 4096 Nov 18 08:54gdvod

drwxr-xr-x 19 root root 4096 Nov 18 08:40pvlog

[root@hive-m dataftp]# rm -rf \'2016-11-*

你可能感兴趣的:(2016.11.16)