HiveSql中limit10的坑——对大数据量的表查询加group by

一般查询hive表中某个字段是否存在某个值,会使用如下查询语句

select * from 表名 where dt=XXXX and 字段 like '%某个值%' limit 10;

这种比较适合hive表数据量较小的情况,出现limit10,hive会默认判断此表数据量不大,只开启一个map进行查询,

如果对于大表,比如好几百G上T的数据量,这么大的数据量只开一个map一方面查询慢,另一方面,因为数据量太大容易把机器跑崩。

采用以下方式即可,加上group by,然后就会依据hive表的文件数,开启对应个数的map端查询,这样查询更快也更健康

select 字段 from 表名 where dt=XXXX and 字段 like ‘%某个值%’  group by 字段 limit 10;

比如这边用到的例子,hive表分区数据950G,一共1001个文件,采取上面的方式group by后,一共生成1001个map端,查询速度快多了。

你可能感兴趣的:(Hive)