spark源码编译过程

 本文环境: Scala 2.11.8 、Maven 3.3.9 、 Spark 2.3.0

1.下载源码
spark源码编译过程_第1张图片
1.png

原因:
1.spark对应不同的hadoop版本有不同的支持
2.方便后期对源码的更改,并进行编译


需要注意

spark源码编译过程_第2张图片
2.png

spark文件夹中的pom文件需要修改maven的路径


spark源码编译过程_第3张图片
3.png

pom 文件修改, 默认的是Apache的源,建议改成cdh的源,避免很多坑


spark源码编译过程_第4张图片
WechatIMG5992.jpeg

特别注意 :需要有目录创建的权限!!!


最后是打包编译的命令:

./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

  • --name之后的custom-spark是编译好后生成的那个tgz文件的文件名,可以自定义
  • Phadoop要根据自己已经安装好了的hadoop版本写
  • 如果要运行R语言请加上-Psparkr,否则请省略以提高编译速度
  • 如果要使用mesos请加上-Pmesos,否则请省略以提高编译速度

结果

5.png
至此,就可以开心的开始玩耍了! 

日常吐槽: 今天从早上9点整到差不多4点,不停排错,最后发现原因只是因为没有创建目录的权限! 心累 - - ,以后出问题一定要仔细查看日志!!!!!

你可能感兴趣的:(spark源码编译过程)