hive on spark问题总结

截取错误关键点 

ERROR : FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session b833a645-a100-4556-80fb-64ffd5e60aa7_0: java.util.concurrent.TimeoutException: Client 'b833a645-a100-4556-80fb-64ffd5e60aa7_0' timed out waiting for connection from the Remote Spark Driver
[INFO] 2021-09-13 18:00:11.339  - [taskAppId=TASK-1320-1255384-1296824]:[127] -  -> INFO  : Completed executing command(queryId=hive_20210913175959_cfd1e0d8-22c3-4fe5-bd44-21f84c3ebdce); Time taken: 10.049 seconds
    Error: Error while processing statement: FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session b833a645-a100-4556-80fb-64ffd5e60aa7_0: java.util.concurrent.TimeoutException: Client 'b833a645-a100-4556-80fb-64ffd5e60aa7_0' timed out waiting for connection from the Remote Spark Driver (state=42000,code=30041)

container详细日志 Client closed before SASL negotiation finished.

错误概况,同时启动多个hivesql任务报错,但是重试的时候发现又成功了。

备注:我们用的是beeline 连接方式

beeline -u "jdbc:hive2://node04.data.com:2181,node06.data.com:2181,node08.data.com:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2"    -f xxx.sql

当时发生问题后 采用hive -f xxx.sql的方式测试 并发执行无误(提供下思路)

hive on spark问题总结_第1张图片

 按照网上说的hive on spark 同时只能提交一个任务错误处理 - it610.com  解决

说下解决路上踩的坑。

背景:之前集群都是好好的 一般在提交十多个任务时候才会偶尔出现这个问题,后面加了3台128内存的机器,突然就崩了,调度任务超过5个直接就裂开了。

1.坑1 把新加的机器去掉yarn,一样报错

2.怀疑是通信问题,因为之间看日志rm与部门nm通信 unknown Host xxx ,这是由于新加了机器,但是rm所在机器的hosts没改,又鼓捣了半天。

3.网上千篇一律的说是这个参数问题,但是问题在于,之前我们没有加集群也很正常,为啥突然就崩了。无奈加了,这时发现不起作用!!!!!

第一次加的是在hive-site.xml 的服务配置上,这个是我后来配到客户端上了

hive on spark问题总结_第2张图片

完全不起作用,后来感觉也和这个参数没关系,就没多想。

搞了一整天 各种重启,都不起作用,想来想去还是回归本质,既然是timeout 而且还是concurrent

还是改下连接超时参数把,但是我加了怎么不起作用,结果发现在服务器上的 grep不到我加的两个配置!!!下图是我修改cm的client上hive-site才刷进去。这个server的hive-site真是坑,写了白写。各位注意了!!!!

hive on spark问题总结_第3张图片

        hive.spark.client.connect.timeout

        10000

        hive.spark.client.server.connect.timeout

        10000

你可能感兴趣的:(hive,hive,on,spark,concurrent,Timeout)