hive排序和随机

6.排序

order by 全局排序
sort by 保证reduce中的数据有序 但不一定全局有序 asc正序 desc倒序
distribute by 从map段指定hash算法到reduce端按照指定字段分发数据
cluster by (不能指定舒徐规则,只能用正序) == disteribute by + sort by asc

7.随机

---随机抽样
select * from tablename distribute by rand() sort by rand() limit 3;

---桶表抽样
select * from tablename tablesample(bucket 4 out of 4 on id)
--把id分为四个桶角标分别是0,1,2,3 分别对应的桶号是1,2,3,4 由4来对id进行取模输出结果分别进入相对应的桶里

---抽样
select * from tablename tablesample(1k)

---百分比
select * from tablename tablesample(5 percent)

---返回多少行
select * from tablename tablesample(5 rows)

你可能感兴趣的:(Hive,hive,排序,随机)