hive表格统计信息不准确

问题描述

有个hive分区表,orc存储格式,有个分区,查询 select count(1) from table where dt='yyyyMMdd' 结果是0, 但查询 select * from table where dt='yyyyMMdd'又能查到数据,去hdfs对应目录下查看,也能看到有数据文件

解决

执行如下sql

ANALYZE TABLE db.table1 PARTITION(dt='20240908') COMPUTE STATISTICS

然后,重新查询count(1),结果恢复正确

参考

https://blog.51cto.com/u_16213353/7719891
https://imperio-wxm.github.io/2019/02/21/Hive-Table-Statistics/

你可能感兴趣的:(hive,hive,hadoop,数据仓库)