Spark应用的GC调优

概要
Spark是时下非常热门的大数据计算框架,以其卓越的性能优势独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目等一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,常常需要在内存中存放大量数据,对于JVM垃圾回收机制(GC)的依赖更加突出。同时,它也兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求。因此,GC参数的调优在Spark应用实践中显得尤为重要。本次演讲主要讲述如何针对Spark应用程序配置JVM的垃圾回收器,并从实际案例出发,剖析如何进行GC调优,进一步提升Spark应用的性能。

个人简介

王道远,英特尔亚太研发有限公司大数据团队软件工程师,毕业于浙江大学计算机科学与技术学院,在大数据领域具有丰富的经验。他是Hive/Spark开源项目的资深贡献者,目前专注于Spark SQL模块开发,拓展Spark SQL的兼容性,同时根据性能测试的结果对Spark SQL进行性能优化。在进入Spark社区前,他主要负责为IDH(Intel Distribution of Apache Hadoop)中的Hive开发SQL92支持。同时他还是《Spark快速大数据分析》(人民邮电出版社)中文版的译者。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

你可能感兴趣的:(Spark应用的GC调优)