Hadoop技术内幕_深入解析Hadoop Common和HDFS架构设计与实现原理——读书笔记(2)

第2章 Hadoop配置信息处理

2.1 配置文件简介

 1.  windows 操作系统的配置文件:后缀为 ini 

          java解析 ini 配置文件第三方API有:

          (1) JCom包:下载JCom-2.2.0-1.jar

          (2) Apache Commons 工具集:下载commons-configuration-1.10-bin.zip

 2. Java配置文件

     (1) 后缀是 properties 文件:通过java.util.Properties类的load()和store()方法;

     (2) 后缀是 xml 文件:JDK5.0以后, 通过java.util.Properties类的loadFromXML()和storeToXML()方法;

     (3) Apache Commons 工具集:见上面

2.2 Hadoop Configuration 详解

 1. org.apache.hadoop.conf.Configuration

      使用Configuration类的一般过程是:构造Configuration对象,并通过类的addResource()方法添加需要加载的资源;然后就可以使用get*方法和set*方法访问/设置配置,资源在第一次使用的时候自动加载到对象中。

 2. Configuration类加载配置资源,采用“延迟加载的设计模式”。即使用addResource()加载资源的时候,不解析XML,而在使用get*方法调用的时候解析XML文件。

 3. Hadoop配置文件的格式:XML格式。

 4. Hadoop解析XML配置文件方式:JAXP(Java API for XML Processing)是一种稳定、可靠的XML处理API,支持SAX和DOM二种XML处理方法。由于Hadoop的配置文件都是很小的,所以采用DOM处理XML。

 

注:Java解析XML文件常见方法:

(1)、【DOM(Document Object Model) 】
由W3C提供的接口,它将整个XML文档读入内存,构建一个DOM树来对各个节点(Node)进行操作。

(2)、【SAX (Simple API for XML) 】
SAX不用将整个文档加载到内存,基于事件驱动的API(Observer模式),用户只需要注册自己感兴趣的事件即可。SAX提供EntityResolver, DTDHandler, ContentHandler, ErrorHandler接口,分别用于监听解析实体事件、DTD处理事件、正文处理事件和处理出错事件,与AWT类似,SAX还提供了一个对这4个接口默认的类DefaultHandler(这里的默认实现,其实就是一个空方法),一般只要继承DefaultHandler,重写自己感兴趣的事件即可。

(3)、【JDOM】
JDOM与DOM非常类似,它是处理XML的纯JAVA API,API大量使用了Collections类,且JDOM仅使用具体类而不使用接口。 JDOM 它自身不包含解析器。它通常使用 SAX2 解析器来解析和验证输入 XML 文档(尽管它还可以将以前构造的 DOM 表示作为输入)。它包含一些转换器以将 JDOM 表示输出成 SAX2 事件流、DOM 模型或 XML 文本文档。

(4)、【DOM4j】
dom4j是目前在xml解析方面是最优秀的(Hibernate、Sun的JAXM也都使用dom4j来解析XML),它合并了许多超出基本 XML 文档表示的功能,包括集成的 XPath 支持、XML Schema 支持以及用于大文档或流化文档的基于事件的处理。

 

备注:本博客只是读书笔记,只记录我认为比较重要,而且容易忘记的知识点。如有问题请留言。

你可能感兴趣的:(hadoop,大数据,hdfs,Hadoop技术内幕,Hadoop技术)