第二部分 Common的实现 第2章 Hadoop配置信息处理 2.1 配置文件简介

《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》第2章Hadoop配置信息处理,本章从Windows和基于Java Properties配置文件开始,分析了Hadoop使用的基于健–值对构成的、结构相对简单的XML配置文件,以及相应的处理类Configuration,特别是Configuration类中的资源加载、资源合并和属性扩展等比较重要的处理过程。本节为配置文件简介。

第二部分 Common的实现

本部分内容

Hadoop配置信息处理

序列化与压缩

Hadoop远程过程调用

Hadoop文件系统

第2章 Hadoop配置信息处理

任何一个复杂的软件系统,为了提高其适应性和扩展性,一般都会有一个配置模块或配置系统,作为其扩展、定制的手段和方式。Hadoop使用配置文件将系统中的重要属性以文件的形式进行持久化,使得这些属性可以被重启后的进程或者不同的进程使用。

2.1 配置文件简介

配置文件是一个灵活系统不可缺少的一部分,虽然配置文件非常重要,但却没有标准。本节我们来了解Windows操作系统和Java环境中的配置文件。

2.1.1 Windows操作系统的配置文件

Windows系统广泛使用一种特殊化的ASCII文件(以“ini”为文件扩展名)作为它的主要配置文件标准。下面是INI文件的片段:

  
  
  
  
  1. ;最后修改时间:2012.10.12  
  2. [owner]  
  3. name=John Doe  
  4. organization=Acme Widgets Inc.  
  5.  
  6. [database]  
  7. server=192.0.2.62 ;使用IP地址,在域名解析不能使用时还能正常工作  
  8. port=143 
  9. file="payroll.dat" 
  10.  
  11. [ftp]  

该文件也称为初始化文件(Initialization File,它的扩展名就是initialization的前三个字母)或概要文件(profile),应用程序可以拥有自己的配置文件,存储应用的设置信息,也可以访问Windows的基本系统配置文件win.ini中存储的配置信息。INI文件将配置信息分为“节”,节标题放在方括号中。如上面例子中的[database],就是database节的节标题。节用于对配置数据做一个归类,每一个节可以包含一些与之相关的“项”(ENTRY),并通过等号对其进行赋值(VALUE)。一般的形式如下:

  
  
  
  
  1. [SECTION]  
  2. ENTRY=VALUE 

其中VALUE值可以有两种类型:数型或字符串。上面给出的INI文件片段中,database节中包含3个项,分别是server、port和file。其中,配置项port可以以数型的形式读取。

INI文件中的注释以分号开始,到行尾结束。

Windows操作系统同时还提供了一些API,用来对配置文件进行读、写。如使用GetProfileString()函数可以从配置文件win.ini中获取字符串型配置,使用GetPrivateProfileInt()函数可以从私有的配置文件中读取一个配置整数型项。该函数的原型如下:

  
  
  
  
  1. UINT WINAPI GetPrivateProfileInt(  
  2.    __in  LPCTSTR lpAppName,  
  3.    __in  LPCTSTR lpKeyName,  
  4.    __in  INT nDefault,  
  5.    __in  LPCTSTR lpFileName  
  6. ); 

其中,参数LPCTSTR lpFileName是INI文件的文件名,LPCTSTR lpAppName和LPCTSTR lpKeyName分别是上述的“节”和“项”,INT nDefault是默认值,也就是说,如果在配置文件中找不到配置信息,就返回该默认值。

2.1.2 Java配置文件

JDK提供了java.util.Properties类,用于处理简单的配置文件。Properties很早就被引入到Java的类库中,并且一直没有什么变化。它继承自Hashtable,如图2-1所示,表示了一个持久的属性集,该集可保存在流中或从流中加载。属性列表中每个键及其对应值都是字符串类型。

第二部分 Common的实现 第2章 Hadoop配置信息处理 2.1 配置文件简介_第1张图片

相对于INI文件,Properties处理的配置文件格式非常简单,它只支持键–值对,等号“=”左边为键,右边为值。形式如下:

  
  
  
  
  1. ENTRY=VALUE 

由于Properties基于Hashtable,它并不能支持INI文件中的“节”,对配置项进行分类。

java.util.Properties中用于处理属性列表的主要方法如下,其中,getProperty()用于在属性列表中获取指定键(参数key)对应的属性,它有两个形式,一个不提供默认值,另一个可以提供默认值。Properties.setProperty()用于在属性列表中设置/更新属性值。相关代码如下:

  
  
  
  
  1. //用指定的键在此属性列表中搜索属性  
  2. public String getProperty(String key)  
  3.  
  4. //功能同上,参数defaultValue提供了默认值  
  5. public String getProperty(String key, String defaultValue)  
  6.  
  7. //最终调用 Hashtable 的方法put  
  8. public synchronized Object setProperty(String key, String value)  

Properties中的属性通过load()方法加载,该方法从输入流中读取键–值对,而store()方法则将Properties表中的属性列表写入输出流。使用输入流和输出流,Properties对象不但可以保存在文件中,而且还可以保存在其他支持流的系统中,如Web服务器。J2SE 1.5版本以后,Properties中的数据也可以以XML格式保存,对应的加载和写出方法是loadFromXML()和storeToXML()。

下面是以XML格式存在的Properties配置文件的例子。

  
  
  
  
  1. <?xml?version="1.0"?encoding="UTF-8"?> 
  2. <!DOCTYPE?properties?SYSTEM  
  3.       "http://java.sun.com/dtd/properties.dtd"> 
  4. <properties> 
  5.    <comment>Hi</comment> 
  6.    <entry?key="foo">bar</entry> 
  7.    <entry?key="fu">baz</entry> 
  8. </properties> 

由于java.util.Properties提供的能力有限,Java社区中出现了大量的配置信息读/写方案,其中比较有名的是Apache Jakarta Commons工具集中提供的Commons Configuration。Commons Configuration中的PropertiesConfiguration类提供了丰富的访问配置参数的方法。Commons Configuration支持文本、XML配置文件格式;支持加载多个配置文件;支持分层或多级的配置;同时提供对单值或多值配置参数的基于类型的访问。应该说,Commons Configuration是一个功能强大的配置文件处理工具。


你可能感兴趣的:(第二部分 Common的实现 第2章 Hadoop配置信息处理 2.1 配置文件简介)