day50:性能优化6--Shufffle

一下内容整理来源于DT大数据梦工厂:

一:shuffle 性能优化

1、问题: Shuffle output file lost?  真正的原因是GC导致的!!

默认时间间隔5秒可以调大。

spark.shuffle.file.buffer
spark.shuffle.io.maxRetries
spark.shuffle.file.buffer

内存管理和二进制处理:借助应用的语义,显式管理内存,消除JVM对象模型和垃圾回收的开销
缓存感知计算:充分利用内存层级算法和数据结构
代码生成:使用代码生成,充分利用现代编译器和CPU

你可能感兴趣的:(day50:性能优化6--Shufffle)