hive表关联结果异常问题

sql:

select 
a.order_code,b.order_id
from 
(select 
order_code
from ods.ods_lsh_oms_order_head 
where dt = '2018-08-05'
group by order_code) a
join 
(select 
order_id
from default.mds_lsh_trade_order_goods
where dt = '2018-08-05'
group by order_id) b
on a.order_code = b.order_id
where a.order_code = '6431878663716741120'

结果

这里写图片描述
可以看出结果异常,6431878663716741121这条数据也被关联出来。

结果分析

  • 这两个表的关联键的数据类型不一致,order_code(bigint)、order_id(string);
  • Hive不同类型数字关联的时候,会统一转化为double类型;
  • order_id是19位整数,而double最多可以精确的表示14-15位整数,超出位数后就会出现不准确的情况,也就是说6431878663716741120,6431878663716741121两个订单号转成double类型后,会被认为是相等的;

解决办法

将两个表关联键的数据类型转成一致即可
cast(order_id as bigint)

你可能感兴趣的:(hadoop,hive)