Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践

本次分享主要包括了Spark shuffle 基于Alluxio的优化,以及基于Alluxio对于临时表的性能改进:1.在搜狗大量的数据分析, 知识图谱的数据制作使用Spark/SparkSQL来进行并行计算,大部分由于Spark On Yarn存在各类问题导致业务SLA水平仅为96%,结合Alluxio内存文件系统,我们将Spark业务的稳定性水平SLA提升到99.22%,广泛应用于数据分析以及高优先级业务中;2.同时在搜狗存在部分任务使用Hive/Spark临时表作为中间计算,使用Alluxio性能提升22.2%。目前Alluxio部署1000+机器上,运行了半年时间。

肖邦,搜狗大数据平台高级开发工程师,主要负责致力于Spark/Hive计算引擎的开发与性能优化,结合Alluxio内存文件系统提升计算稳定性等工作

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第1张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第2张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第3张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第4张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第5张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第6张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第7张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第8张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第9张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第10张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第11张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第12张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第13张图片

Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践_第14张图片

原文 https://www.slidestalk.com/s/Alluxio_Spark_Shuffle_Practice_at_Sogou

你可能感兴趣的:(Alluxio文件系统在搜狗的实践Alluxio内存文件系统在搜狗的实践)