spark WebuI查看spark作业的执行情况

在这里插入代码片我们在集群上运行了spark作业怎么看执行情况,作业执行时间,用到的那些算子,job具体的阶段划分等等信息,其实官方就已经很好的给我提供了这些信息查看的方式web界面;

先来说一下实际中用到的这个解决的问题,工作中因为我要通过hive来进行数据分析,而用到的引擎就是spark,其中我用到了hive的自定义udf函数实现查到的数据发往kafka,但是因为不知道底层hive转换为spark的什么算子来执行,如果像collect算子,top等算子就会造成数据全部拉到driver端处理,就容易造成内存溢出,

所以最后我通过查看spark historyserver查看执行过的任务具体是怎么进行任务划分,又是用什么算子实现的,来确定有没有这个问题,最终看到的执行图就是这样的

spark WebuI查看spark作业的执行情况_第1张图片

可以看到使用的算子不会造成数据都到driver端这种问题。

那具体怎么使用这个web界面来查看spark job的执行情况,其实官方已经给了很好的说明,而且对于每个参数所表示的意义都进行了说明

spark WebuI查看spark作业的执行情况_第2张图片

上面就是官方的一点介绍图片,就不在这里详细介绍了,需要可以自己去官网查看一下。

链接地址:[http://spark.apache.org/docs/latest/web-ui.html#jobs-tab]

总结:

学习一个新的技术官方基本是最好的指导书,也是最全面和最准确的,当然直接看会有一些难度,可以参考一些博客文章,来进行学习,最后不一致的地方最好以官方文档为主;

你可能感兴趣的:(spark,spark)