1.2 准备源代码阅读环境
在研究一个开源项目之前,都需要安装与配置基本的开发环境和源代码的阅读环境。这一系列内容包括:安装与配置JDK、安装开发调试IDE、安装与配置相关辅助工具等。
1.2.1 安装与配置JDK
在分析Hadoop的源代码前,需要做一些准备工作,其中搭建Java环境是必不可少的。Hadoop的运行环境要求Java 1.6以上的版本。打开http://www.oracle.com/technetwork/java/javase/downloads/index.html页面,可以下载最新的JDK安装程序,下载页面如图1-2所示。
安装完后,要检查JDK是否配置正确。
某些第三方的程序会把自己的JDK路径加到系统PATH环境变量中,这样,即便安装最新版本的JDK,系统还是会使用第三方程序所带的JDK。在Windows环境中,需要正确配置的Java运行时环境变量有JAVA_HOME、CLASSPATH和PATH等。
方便起见,我们往往为操作系统本身指定一个系统级别的环境变量。例如,Windows平台上的系统环境变量可以在“系统属性”的“高级”选项卡中找到,可在其中配置JAVA_HOME、PATH和CLASSPATH值。图1-3是Windows XP操作系统中为系统添加JAVA_HOME环境变量的例子。
安装并配置完成后,可以在命令行窗口中输入“java -version”命令检测当前的JDK运行版本。如果配置完全正确,会显示当前客户端的JRE运行版本,如图1-4所示。
1.2.2 安装Eclipse
在成功安装和配置JDK后,还需要安装进行Java开发调试的IDE(Integrated Development Environment,集成开发环境),因为一个好的开发环境和源代码阅读环境可以使工作效率事半功倍。目前比较常用的Java开发IDE主要有Eclipse和NetBeans等,读者可以任意选择自己习惯的IDE作为开发工具。本书以Eclipse集成开发环境为例,着重介绍在Eclipse中开发与调试源码的方法。读者也可以举一反三,在其他IDE中做相应的尝试。
Eclipse是一个界面友好的开源IDE,并支持成千上万种不同的插件,为代码分析和源码调试提供了极大的便利。可以在Eclipse官方网站(http://www.eclipse.org/downloads/)找到Eclipse的各个版本(对Hadoop源码进行分析,只需要下载Eclipse IDE for Java SE Developers)并下载安装。Eclipse下载页面如图1-5所示。Eclipse是基于Java的绿色软件,解压下载得到ZIP包后就能直接使用。关于Eclipse的基本使用已超出了本书的范围,因此下面仅向读者简要介绍如何使用Eclipse进行一些基本的源代码分析工作。
1. 定位某个类、方法和属性
在分析源代码的过程中,有时候需要快速定位光标位置的某个类、方法和属性,在Eclipse中可通过按F3键,方便地查看类、方法和变量的声明和定义的源代码。
有时候在查看一些在JDK库中声明/定义的类、方法和变量的源代码时,打开的却是相应的CLASS文件(字节码),为此Eclipse提供了一个功能,把字节码和源代码关联起来,这样,就可以查看(提供源代码)第三方库的实现了。
Eclipse打开字节码文件时,可以单击“Attach Source”按钮进行字节码和源代码关联,如图1-6所示。
在查看java.net.URL时,Eclipse提示代码关联,将JDK中附带的JDK源文件压缩包(在安装目录下可以找到,名字是“src.zip”)绑定到“rt.jar”,以后,只要访问该JAR包中的字节码文件,Eclipse就会自动显示相应的源代码文件。
其他第三方Java插件的源代码文件的载入方法类似。
2. 根据类名查找相应的类
如果知道希望在编辑器中打开的Java类的名称,则找到并打开它的最简单的方法是使用快捷键Ctrl+Shift+T(或者单击Navigate→Open Type)打开Open Type窗口,在该窗口中输入名称,Eclipse将显示可以找到的匹配类型列表。图1-7显示了Hadoop 1.0中名字包含“HDFS”的所有类。
注意 除了输入完整的类名之外,还可以使用“*”和“?”通配符来分别匹配“任何”或“单个”字符。
3. 查看类的继承结构
Java是面向对象的程序设计语言,继承是面向对象的三大特性之一,了解类、接口在继承关系上的位置,可以更好地了解代码的工作原理。选中某个类并使用Ctrl + T快捷键(或单击Navigate→Quick Type Hierarchy)可以显示类型层次结构。
层次结构将显示所选元素的子类型。如图1-8所示,该列表显示已知的所有org.apache.hadoop.fs.FileSystem子类。
4. 分析Java方法的调用关系
在Eclipse中可以分析Java方法的调用关系,具体做法如下:在代码区中选择相应的方法定义,然后用鼠标右键选取Open Call Hierarchy项或者使用快捷键Ctrl+Alt+H,则可以在Call Hierarchy视图中看到方法的调用关系,该视图还提供了一层一层的方法调用追溯功能,对查找方法的相互调用关系非常有用,如图1-9所示。
注意 快捷键是日常开发调试中最为便捷的技巧。Eclipse中的快捷键也可谓是博大精深,这里不一一列举。读者可以在实际开发中不断摸索并牢记这些快捷键,因为它们也是日常开发中必不可少的内容。读者也可参照Eclipse中的这些快捷键,在其他IDE中找到相应的快捷键设置。
1.2.3 安装辅助工具Ant
在安装和配置了JDK和Eclipse后,为了编译Hadoop,还需要安装辅助工具Ant。
对Hadoop这样复杂的项目进行构建,不是仅仅将Java源文件编译并打包这么简单,项目中使用到的各种资源都需要得到合理的安排,如有些文件需要拷贝到指定位置,有些类需要放入某个JAR归档文件,而另外一些类则需要放入另外一个JAR归档文件等,这些工作如果全部由手工执行,项目的构建部署将会变得非常困难,而且难免出错。Ant是针对这些问题推出的构建工具,在Java的项目中得到了最广泛的使用。
Ant跨平台、可扩展,而且运行高效,使用Ant,开发人员只需要编写一个基于XML的配置文件(文件名一般为build.xml),定义各种构建任务,如复制文件、编译Java源文件、打包JAR归档文件等,以及这些构建任务间的依赖关系,如构建任务“打包JAR归档文件”需要依赖另外一个构建任务“编译Java源文件”。Ant会根据这个文件中的依赖关系和构建任务,对项目进行构建、打包甚至部署。
和Hadoop一样,Ant也是Apache基金会支持的项目,可以在http://ant.apache.org/bindownload.cgi下载,下载页面如图1-10所示。
和Eclipse类似,Ant也是绿色软件,不需要安装,解压缩下载的文件后需要做一些配置,用户需要添加环境变量ANT_HOME(指向Ant的根目录),并修改环境变量PATH(在Windows环境下,添加%ANT_HOME%\bin到PATH中)。安装并配置完成后,可以在命令行窗口中输入“ant -version”命令来检测Ant是否被正确设置。
Hadoop的Ant还使用了一个工具:Apache Ivy,它是Ant的一个子项目,用于管理项目的外部构建依赖项。外部构建依赖项是指软件开发项目的构建需要依靠来自其他项目的源代码或JAR归档文件,例如,Hadoop项目就依靠log4j作为日志记录工具,这些外部依赖项使得构建软件变得复杂。对于小项目而言,一种简单可行的方法是将其依赖的全部项目(JAR文件)放入一个目录(一般是lib)中,但当项目变得庞大以后,这种方式就会显得很笨拙。Apache的另外一个构建工具Maven中,引入了JAR文件公共存储库的概念,通过外部依赖项声明和公开的公共存储库(通过HTTP协议)访问,自动查找外部依赖项并下载,以满足构建时的依赖需要。
Ivy提供了Ant环境下最一致、可重复、易于维护的方法,来管理项目的所有构建依赖项。和Ant类似,Ivy也需要开发人员编写一个XML形式的配置文件(一般文件名为ivy.xml),列举项目的所有依赖项;另外还要编写一个ivysettings.xml文件(可以随意为此文件命名),用于配置下载依赖关系的JAR文件的存储库。通过Ant的两个Ivy任务ivy:settings和ivy:retrieve,就可以自动查找依赖项并下载对应的JAR文件。
1.2.4 安装类UNIX Shell环境Cygwin
对于在Windows上工作的读者,还需要准备类UNIX Shell环境的Cygwin。
注意 在Linux等类UNIX系统中进行Hadoop代码分析、构建的读者可以略过这一节。
Cygwin是用于Windows的类UNIX Shell环境,由两个组件组成:UNIX API库(它模拟UNIX操作系统提供的许多特性),以及在此基础上的Bash Shell改写版本和许多UNIX实用程序,它们一起提供了大家熟悉的UNIX命令行界面。
Cygwin的安装程序setup.exe是一个标准的Windows程序,通过它可以安装或重新安装软件,以及添加、修改或升级Cygwin组件。其下载页面为http://cygwin.com/index.html,如图1-11所示。
执行安装程序setup.exe,并在安装程序的步骤4(Cygwin Setup – Select Package)中选择UNIX的在线编辑器sed,如图1-12所示(可以利用Search输入框快速找到sed)。
在安装sed时,setup.exe会自动安装它依赖的包。在Cygwin中,可用的包超过1000个,所以只需选择需要的类别和包,以后随时可以通过再次运行setup.exe,添加整个类别或单独的包。在Windows下构建Hadoop,只需要文本处理工具sed。
安装完成后,使用Start菜单或双击Cygwin图标启动Cygwin。可以在Shell环境中执行“ant -version | sed "s/version/Version/g"”命令验证Cygwin环境,如图1-13所示。
成功安装JDK、Eclipse、Ant和Cygwin之后,就可以开始准备Hadoop源代码分析的Eclipse环境了。