记录两次sparkjob优化,性能提升几十倍不止

目前在做两个项目,一个搜索平台化一个排序服务化,在项目开发中两者都用到了spark开发数据处理,遇到问题多多,但解决后性能提升几十倍不止,下面记录下两次优化。

一、在特征处理中,需要读取hive的数据进行业务逻辑处理写入到kv系统中,为了减少shuffle,每次处理直接用mapPartitons以及foreachPartitons进行处理,整体都速度不错,但是就是有那么几个特征hive表处理就是非常慢,提高内存,修改参数还是非常慢,通过调试发现此hive表没有进行压缩,他的partition只有两个,导致处理的时候每个executor需要循环处理几百万数据导致非常缓慢,知道问题解决的方法就很简单了,在读取完数据后,进行一次repartition,将数据进行预切分,这样再来处理的时候每个executor都能充分发挥自己的性能,不用大部分空闲了,更改后分分钟处理完成。

二、在对特征进行处理的时候,我们为了做特征本地化需要根据某条特征所在的城市切分shard,并且很多其他信息要从多个hive表读取,一期为了做到通用化将多来源数据构造了DataFrame,注册成内存表然后通过循环执行SparkSql将结果写入到HDFS目录中,此方案可行灵活性不错,但是在shard非常多的情况下,执行时间甚至超过一个多小时,完全不能忍……

      后面调研各种信息及源码后,做了代码上的修改,将构造的DataFrame中的row构造成Pair,并重写

RDDMultipleTextOutputFormat,将结果根据key信息直接写入到多个文件中,而不再需要进行循环执行SparkSql,性能直接提升十几倍以上。

记录两次sparkjob优化,性能提升几十倍不止_第1张图片

 

你可能感兴趣的:(java,hadoop)