使用Digester解析XML文档示例

概述

  解析XML文档方面有不少的方法,也有不少的工具包可用,这里介绍的是来自Apache Jakarta的Digester,使用其解析XML文件非常方便而不需要过多的关心底层的具体解析过程。

  Digester最早出现在Struts中,后来随着Struts的发展以及其的公用性而被提到commens中独自立项,其底层实现的是SAX解析。当前版本为:1.5

正文

  1. 安装与配置

  使用Digester需要如下几个软件包:

  Digester ,BeanUtils, Collections, Commens-Logging,还有一个遵循SAX(Simple API for XML)2.0或JAXP(Java API for XML Parsing) 1.1规范的XML解析器,如Xerces。相关下载地址见附录。如果需要使用log4j做为日志输出,则亦请下载之。

  将下载来的zip包解压,并将其中的jar文件拷贝到你的工程文件的lib目录中,并在工程classpath中包含上述jar文件的路径。

  在您工程的类目录(如classes)新建一commons-logging.properties文件,内容为:

org.apache.commons.logging.Log=org.apache.commons.logging.impl.Log4Jlogger

  这表明系统将使用log4j做为日志输出,再建一log4j.proerties文件,内容请参看log4j文档或其他参考资料。

Digester据说最早是为解析struts的配置文件开发的,后来慢慢的就发展成一个轻量,快速,单向(只能从xmljava对象)的一个绑定框架,在运行时实现绑定,无需定义xml文件的DTDSchema,简单快速。
一、使用Digester的步骤
1 创建一个Digester的实例。完成parse后,实例可以被安全的重用,但实例不是线程安全的。
2 设置配置属性
3 加入处理规则
4 调用digester.parse()方法。
二、从一个例子说起
先看一个Digester文档上的简单例子
 对象树
package mypackage;
public class Foo ...{
  public void addBar(Bar bar);
 public Bar findBar(int id);
 public Iterator getBars();
 public String getName();
 public void setName(String name);
 }
 package mypackage;
   public class Bar ...{

   public int getId();
   public void setId(int id);
   public String getTitle();
   public void setTitle(String title);
 }

XML文档片段
<foo name="The Parent">
   <bar id="123" title="The First Child"/>
    <bar id="456" title="The Second Child"/>
  </foo>

解析代码
 Digester digester = new Digester();
  digester.setValidating(false);
  digester.addObjectCreate("foo", "mypackage.Foo");
  digester.addSetProperties("foo");
  digester.addObjectCreate("foo/bar", "mypackage.Bar");

 digester.addSetProperties("foo/bar");
  digester.addSetNext("foo/bar", "addBar", "mypackage.Bar");
  Foo foo = (Foo) digester.parse();
    从例子可以看到Digester的执行步骤是扫描xml文档,匹配特定的xml节点,在每一个节点按照预定的处理规则操纵对象,包括创建对象,设置对象属性,建立对象树等。

三、节点匹配规则

<a>         -- Matches pattern "a"
    <b>       -- Matches pattern "a/b"
      <c/>    -- Matches pattern "a/b/c"
      <c/>    -- Matches pattern "a/b/c"
    </b>
    <b>       -- Matches pattern "a/b"
      <c/>    -- Matches pattern "a/b/c"
      <c/>    -- Matches pattern "a/b/c"
      <c/>    -- Matches pattern "a/b/c"
    </b>
 </a>


    可以看到匹配规则非常简单,此外,匹配还支持通配符,像*/a就匹配任意层次内的<a>
 
    一个特定的XML元素可以被匹配多次,所对应的处理规则执行的顺序如下:如果是beginbody方法,按照规则被加入到Digester的顺序执行,如果是end方法,则相反(参见后面处理规则)。
 
    对于通配符匹配,当一个确定的匹配发生时(如果多个通配符匹配发生,最长的一个被认为是一个确定的匹配),通配符匹配将被忽略。这个意思就是说,当规则A被加入到*/a时,意思是这个规则匹配任意一个<a>元素,但是如果规则C被加入到x/a,A对于<x><a>的匹配会被或略。假设规则AB匹配*/a,如果想给x/a加入规则C,则需要给x/a重复加入规则A和规则B,就像下面这样:

Rule ruleA = new ObjectCreateRule();
  Rule ruleB = new SetNextRule();
  Rule ruleC = new SetPropertiesRule();
  digester.addRule("*/a", ruleA);
  digester.addRule("*/a", ruleB);

digester.addRule("x/a", ruleA);
  digester.addRule("x/a", ruleB);
  digester.addRule("x/a", ruleC);


 
四、处理规则
    处理规则的目的就是定义当匹配发生时做什么事情。每一个处理规则都是org.apache.commons.digester.Rule接口的实现类。当匹配发生时Rule接口的回调方法被调用,执行相应的操作。

Rule接口的方法
begin       当进入匹配元素时调用
body        当进入匹配元素的内容时调用
end         当离开匹配元素时调用
finish      paser结束时调用
 
常见的内置处理规则
ObjectCreateRule:进入匹配元素时调用,创建一个特定的java对象。

SetPropertiesRule:进入匹配元素时调用,利用Java的反射API设置栈顶对象的属性,要求Java对象的属性名匹配XML元素的属性名。

SetNextRule:离开匹配元素时调用,digester分析下一个栈顶对象,调用该对象的指定属性的setter方法,将当前栈顶对象作为参数传入到该方法,同时弹出当前栈顶对象。
 
SetTopRule:和SetNextRule含义相同,分析栈顶对象,调用该对象指定属性的setter方法,将下一个栈顶对象作为参数传给该方法(典型会被调用的方法是setParent)。 

CallMethodRule:调用栈顶对象指定的方法。设置这个规则需要指出调用的方法名,参数个数,参数Java类型(可选),参数值一般是匹配元素的body content,用CallParamRule指定。

CallParamRule :标识CallMethodRule中的方法参数。参数值可能是匹配元素的某个属性,或匹配元素的body content

Digester的处理过程
    Digester使用堆栈来存储对象,当ObjectCreateRule被执行时,将对象压入栈,像SetPropertiesRuleSetTopRuleCallMethodRule等规则都是对栈顶对象的操作。当SetNextRule被执行时,弹出栈顶对象,下一个栈顶对象成为栈顶对象,最后返回对象树的根节点。

<!--EndFragment-->

你可能感兴趣的:(解析xml)