Spark 源码阅读学习(一)

写本文的目标就是立下 flag :好好研读 Spark 源码,从 branch-0.7 这个分支开始。

如何通过阅读源码提高自己

  • 大家都说要多读优秀开源框架的源码,那么怎么读呢?像 Apache Spark 在 GitHub 上有两万多个 commit,将源码导入 IDEA 之后好多好多源码文件,看着很绝望。
  • 后来我去看知乎上的如何去阅读并学习一些优秀的开源框架的源码?,很多优秀的回答核心思想都是说要看开源框架早期的代码。其中有个回答是这样说的:从第一个commit读起来,而不是最后一个。 真的是一语中的。

选择 Spark 的早期版本进行阅读

  • 自从学习了从项目早期代码读起来后,我下意识以为越早期的越好,就去 GitHub 上看分支号。最早期的分支是 branch-0.5,也就是版本号为 0.5 的代码;然后就下载下来看了一下。嗯,我不是通过切分支看的,而是通过下载zip包。只有 800 多个 commit ,代码好少,真应了那句:“伟大的项目不是一开始就很伟大,而是越来越伟大”。但是有个非常大的问题,0.5 版本的代码没有 maven 管理依赖,同时代码之间的依赖也不能方便跳转(也有可能是在下的打开姿势不对)。
  • 然后为了找个更加方便阅读的,就去查了一下哪个版本开始有 maven 管理依赖,是 0.7 开始。于是从现在开始认真研读 0.7 的代码。(flag 已立)

Spark 的第一个 commit

  • 既然有人说要从第一个 commit 开始读起来,那 Spark 的第一个 commit 是什么呢?同时怎么才能从 GitHub 上翻到第一个 commit。
  • 在SF上有个提问:如何快速查看github上的第一次commit。然后我就根据指点成功翻到了 Spark 的第一个 commit。
https://github.com/apache/spark/commit/df29d0ea4c8b7137fdd1844219c7d489e3b0d9c9

结束语

这是一个开始!

你可能感兴趣的:(Spark的坑)