【hive 面试题】聚合操作时null和‘‘对结果的影响

1、HiveSQL中  聚合操作时null和''对结果的影响

代码示例:

with temp as 
(select null as a
 union all
 select '111' as a 
 union all
 select '222' as a 
 union all
 select '333' as a
 union all
 select '' as a
)
 select sum(a), -- null 不会参与运算,'' 会转换成0
        avg(a), -- null 不会参与运算,'' 会转换成0
        min(a), 
        max(a),
        count(1), -- 统计整表记录数(包含null,'')
        count(a), -- 统计指定字段的行数(不包含null)
        count(*)  -- 统计整表记录数(包含null,'')
   from temp;

运行结果:

HiveSQL语义下,会自动将''转换为0,这种方式不推荐,建议在构建模型表时数值类型的数据还是用int来存储,避免歧义的发生

关于统计记录数:

count(1) = count(*)  都用来统计表的记录数(包含null)

count(id) = count(id) where id != null 用来统计指定字段不为null的行数

关于聚合函数:

sum() : null 不会参与运算,'' 会转换成0

avg(a), null 不会参与运算,'' 会转换成0,注意 ''行记录也会参与分母行数计算

min(id),null 不会参与运算,‘’ 空值会参与计算

max(id),null 不会参与运算,‘’ 空值会参与计算

你可能感兴趣的:(Hive,hive,hadoop,数据仓库)