初学者如何阅读源码?

  • 原文:How to read code – a primer
  • 原文作者:technikhil
  • 译者:newbiewang
  • 校对者:陈元

初学者如何阅读源码?_第1张图片

我喜欢编程,它也是我的工作,而且我很高兴能够将大部分的时间都花在开发软件上。像许多程序员一样,我既着迷但又困惑的是,我写的代码到底怎么样,以及如何写得更好。

多年来,我已经阅读了许多有关软件开发的文章和书籍。其中不乏有许多墨宝(书上的或者网上的)告诉你如何提高编程,并成为一个像忍者一样的受过专业训练的编程高手!这些建议大多有一些共性,其中之一就是阅读源码。然而相比于其它建议,阅读源码通常也就是简单的一句话来概括:找一些很棒的开源软件,或是任何你喜欢的软件,打开它们(或打印出来)然后阅读它们。虽然总的来说,这确实是个很好的建议,但纸上得来终觉浅,实际去实践的时候才发现问题多多。在这篇文章中,我会尝试给出一些阅读源码的实用建议,但在这之前,首先让我们列举一下都有哪些问题。

对阅读源码的误解

别人一说阅读源码,给你的一般印象似乎他们就像编程大师一样,可以单纯地坐在椅子上,然后像看小说一样读着手上的代码。好吧,我敢肯定,确实有一些精湛的程序员,他们可以很享受地一边喝着咖啡、一边看着一堆类似英语句子的神秘符号,并且还能够在脑海里构建整个类的层次和体系结构。显然这篇文章并不是给他们看的,它的受众是像我一样的,觉得盯着一堆源码看就好比看一些无聊没有意义的练习题的人。当然,有人会争辩说,可以从一个完整项目里一点一点地看单个类或者单个函数来学习,但在我看来,除非是最简单的问题,大多数软件内部都是相互依赖的。在不了解系统其余部分的情况下,通常不可能理解一个特定函数或者类背后的设计思想和原理。

下一个问题是从哪里获得可以读的源码(当然,在此之前,你得能够鉴别哪些源码值得一读)。优秀的软件很多,既有开源软件可以免费获得,也有闭源软件需要授权。开源仓库有譬如 Sourceforge 和 GitHub 。如果你在软件开发公司工作,那么可以访问源代码库中的专有代码。第三种常见途径是软件开发书籍附带的程序,或者作为教育资源而提供的程序( Minix 是典型的例子)。确实,众多的选项使我们难以抉择,因此从茫茫代码世界中找出适合我们阅读的是一项艰巨而必不可少的任务。

另一个问题是程序所用的编程语言,读他人的代码已经足够困难了,如果同时还需要去熟悉一门夹杂着奇葩语法的新语言,它所带来的负担,在我看来简直就是个会带来极大挫败感的灾难。所以你需要找到用你熟悉的语言所编写的代码。但如果你要看的代码是来自书本上或作为教育资源所提供的,那懂不懂这门新语言并无关紧要,因为有导师可以解释上下文。倘若你明知山有虎偏向虎山行,在没有书或者导师指引下,去阅读一门并不熟悉的编程语言,那我建议你至少需要学习,并达到可以写出自己的程序的程度(Hello World 就不算了哈)。

前文有关上下文的问题使我想到了下一个问题,如果你不熟悉软件本身,弄清楚代码在做什么就困难得多。例如,如果你不是每天都在使用 Linux 并知晓 Linux 启动顺序,那么就很难在看一边 Linux 代码后弄清楚运行级别是什么。使用某个软件获得的经验、知识能够帮助我们更好地阅读它的源码,这包括常用的术语、软件的功能和特性,甚至包括你遇到的各种错误本身。

理解源码

对我而言,我意识到 “阅读源码” 并不能准确描述我所从事的活动,用 “理解源码” 来表述会更合适。对我来说,坐在笔记本屏幕前(或打印成纸),只是单纯地读满屏的代码是非常困难的。我需要代码之外其它的东西,比如我喜欢翻一翻文档,玩一玩这个软件,单步运行代码甚至写测试代码去跑一跑,然后才能真正欣赏它。因为我会为此投入非常大的时间和精力,所以我必须要精挑细选,寻找我要 “阅读”(理解)的软件。

我的第一层过滤是通过编程语言进行筛选,对我来说,我只阅读由 C#、VB.NET、Python 和 Javascript 编写而成的程序的代码(尽管我也熟悉 C++、Ruby 和 F#,但我并不认为自己有水平来理解其他人的代码)。接下来是寻找我使用过的软件,这会让我有种已经上车的感觉,因为我知道代码的意图,以及它不能做的事情还有它的局限性(如果我足够熟悉的话)。每天都在使用的开源软件正是优秀的候选项(比如,我使用用 C# 编写的开源工具 Cruise Control.NET、NANT 和 NUnit)

碰巧我在一家软件产品公司(一家微软的公司)工作,所以我阅读的源码选择项之一是我们公司在源代码库中的代码。如果碰巧你也在一家软件公司工作,你可以查看其他的项目,甚至你着手项目的较早期版本。这样,除了可以获得更深层次的代码理解之外,你还可以很好地了解之前和之后都曾尝试过哪些东西。不过有一些警告需要注意:

  • 首先,如果你没有权限访问其他项目,则需要征得许可,因为一些公司对其 “知识产权” 非常看重。
  • 其次,这些软件的质量可能没有你想像的那么高,因为通常情况下,专有代码没有经过像开源代码那样严格的代码走查。需要注意的是,如果缺乏常规的代码审查,那么代码的质量可能不佳。
  • 第三(这一点是从我的朋友提供的反馈中得到启发的),如果你的公司开发的是商业软件(HR、财务、ERP 等),则需要首先理解很多业务关系。而且,由于大多数代码受业务功能因素的影响,因此通常模块化程度不如应用程序或 API 高。

寻找文档齐全的项目(这适用于开源以及专有代码)。我的意思是说,这样的文档应该突出总体设计,并说明代码背后的原理。如果只是简单地自动生成的 Java Doc 类型文档,则不能视之为我所描述的文档 。其中一种寻找途径是利用为教育而创造的软件(例如 Minix)。由于它们的目的是通过软件进行教学,因此通常会有非常清晰的文档记录下来,并且有大量资料解释代码背后的设计原理。

总结

那么,现在你已经确定了要阅读源码的软件并下载了它的源代码和文档,让我们一步步阅读并理解它:

  • 浏览设计文档,并尝试了解代码的构建方式。好的软件项目遵循某些架构模式,这些决定了代码的组织。一旦掌握了这一点,理解代码就变得容易了很多。如果你还能画出类图,就能更好地了解整体布局。
  • 接下来要做的是编译并运行它。根据项目及其文档循序渐进,这可能很简单也可能很困难。
  • 现在是时候打开你喜欢的 IDE 并开始探索了。一个好的探索起点是,尝试一步步浏览你熟悉的功能的代码。这样一来,你可以遍历各个层和子系统,并了解它们之间的关联。例如,当我探索 NUnit 时,我首先编写了一个测试用例,然后查看涉及到的类。
  • 尝试确定代码中使用的设计模式。如果你还不知道什么是设计模式,那么立刻马上停止看本文,转去阅读设计模式的经典书籍。熟悉设计模式,它们是识别和理解优秀代码中所包含的设计的好方法。熟悉之后就可以更轻松地在阅读代码时将其牢记在心。它还可以帮助你更轻松地识别代码作者在原有设计模式上所做的细微调整和魔改。
  • 尝试为代码编写测试用例以完全理解它,这是理解代码不同部分之间的依赖关系的一种非常有用的方法。写测试用例之前,首先需要满足所有的依赖。接下来,了解代码的可能的入口点和返回值。这可以增进你对代码的理解,助你更上一层楼。
  • 最后,尝试重构代码。在这一步,你已经从单纯地理解代码迈向足够熟悉以能够对其进行修改。随着重构复杂程度的提高,你的理解也将随之增加。此时,如果需要,你可以为项目贡献自己的代码。

“源码阅读”在我看来,不仅仅是阅读,它是一组独特的活动,共同帮助人们理解代码。这似乎比简单的 “阅读代码” 更令人生畏,但它值得付出努力。

现在,你可以更加轻松,快乐地“阅读源码”了吗?

你可能感兴趣的:(初学者如何阅读源码?)