同事遇到一个问题,无论从平台哪里提交Hive SQL,都没有进度,没有日志。
鉴于之前已有类似反馈,检查SQL涉及到的表的锁,
show locks xxx_table; // hive sql
发现有若干shared锁,对表进行解锁操作
unlock table xxx_table; // hive sql
但是重新执行sql依然有锁表现象,sql主干如下(查出分区表B中某天用户,且不在历史表A中存在,执行前已add partition)
insert into table A partition(dt='20190131')
SELECT DISTINCT user_id, date FROM B WHERE dt='20190131'
and a.user_id not in
(select user_id from A);
发现不仅是无法插入,其中select user_id from A语句也无法执行,因为是测试表,就重建了(事后估计是多个分区被锁了,而且有X锁,只解锁表并不能递归对各分区解锁)。重建后select disctinct...这整段语句会GC memory exceeded,便改写成如下框架(窗口函数去重替换distinct、外连接替换in):
insert overwrite table A partition(dt='20190131')
select tmpa.user_id from
(
select tmp.user_id as user_id, tmp.date as date from
(
select t.*, row_number() over(partition by t.user_id order by t.date desc) as rn
from (select * from B WHERE dt='20190131' ) t
) tmp where tmp.rn=1
) tmpB
left outer join
(
select user_id from A
) tmpA
on tmpA.user_id=tmpB.user_id
where tmpA.user_id is null; // 其实最好用left semi join
这样select语句可以跑了,但是整句sql依然锁表。
看了一下资料
Hive Lock 那些事儿
官方文档
https://www.cnblogs.com/barneywill/p/10185577.html
发现select .. T1 partition P1语句需要T1, T1.P1上的S锁,那么对整张分区表的select需要所有分区的S锁。
回到语句,join操作依赖A表的S锁,但最终要写入A表的一个新分区,又要加X锁,造成了死锁。所以需要让A表待写入的分区不加S锁:
insert overwrite table A partition(dt='20190131')
select tmpa.user_id from
(
select tmp.user_id as user_id, tmp.date as date from
(
select t.*, row_number() over(partition by t.user_id order by t.date desc) as rn
from (select * from B WHERE dt='20190131' ) t
) tmp where tmp.rn=1
) tmpB
left outer join
(
select user_id from A where dt!='20190131' // 添加分区排除条件
) tmpA
on tmpA.user_id=tmpB.user_id
where tmpA.user_id is null;
成功执行。
另外,在SQL执行前设置hive参数set hive.support.concurrency=false; 可强制忽略锁,但为了数据完整性,不建议常用此操作。