Java解析xml的主要解析器: SAX和DOM的选择(附上新方法--Pull解析)

Java xml 解析器库有很多,总的来说,万变不离其宗的就是 SAX DOM 解析器。

SAX的包是 org.xml.sax

DOM的包是 org.w3c.dom

 

1) DOM

     DOM 是用与平台和语言无关的方式表示  XML  文档的官方  W3C  标准。 DOM  是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何 工作。由于它是基于信息层次的,因而  DOM  被认为是基于树或基于对象的。 DOM  以及广义的基于树的处理具有几个优点。首先,由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下 导航,而不是像  SAX  那样是一次性的处理。 DOM  使用起来也要简单得多。 

     另一方面,对于特别大的文档,解析和加载整个文档可能很慢且很耗资源,因此使用其他手段来处理这样的数据会更好。这些基于事件的模型,比如 SAX 。 

 

2) SAX 

     这种处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据 存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。一般来说,SAX  还比它的替代者  DOM  快许多。 

 

3) 选择  DOM  还是选择  SAX  ? 

     对于需要自己编写代码来处理 XML  文档的开发人员来说,选择  DOM  还是  SAX  解析模型是一个非常重要的设计决策。

     DOM 采用建立树形结构的方式访问  XML  文档,而  SAX  采用的事件模型。 

     DOM 解析器把  XML  文档转化为一个包含其内容的树,并可以对树进行遍历。用  DOM  解析模型的优点是编程容易,开发人员只需要调用建树的指令,然后利用 navigation APIs 访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用  DOM  解析器的时候需要处理整个  XML  文档,所以对性能和内存的要求比较高,尤其是遇到很大的  XML  文件的时候。由于它的遍历能力, DOM  解析器常用于  XML  文档需要频繁的改变的服务中。 

  SAX  解析器采用了基于事件的模型,它在解析  XML  文档的时候可以触发一系列的事件,当发现给定的 tag 的时候,它可以激活一个回调方法,告诉该方法制定的标签已经找到。 SAX  对内存的要求通常会比较低,因为它让开发人员自己来决定所要处理的 tag 。特别是当开发人员只需要处理文档中所包含的部分数据时, SAX  这种扩展能力得到了更好的体现。但用  SAX  解析器的时候编码工作会比较困难,而且很难同时访问同一个文档中的多处不同数据。

 

个人总结

*******************

DOM

       解析器读入整个文档,然后构建一个驻留内存的树结构,然后代码就可以使用 DOM  接口来操作这个树结构。

       优点:整个文档树在内存中,便于操作;支持删除、修改、重新排列等多种功能;

       缺点:将整个文档调入内存(包括无用的节点),浪费时间和空间;

       使用场合:一旦解析了文档还需多次访问这些数据;硬件资源充足(内存、CPU

 

SAX

       事件驱动。当解析器发现元素开始、元素结束、文本、文档的开始或结束等时,发送事件,程序员编写响应这些事件的代码,保存数据。

       优点:不用事先调入整个文档,占用资源少

       缺点:不是持久的;事件过后,若没保存数据,那么数据就丢了;无状态性;从事件中只能得到文本,但不知该文本属于哪个元素;

       使用场合:只需XML 文档的少量内容,很少回头访问;一次性读取;机器内存少;

       注意:SAX  解析器不创建任何对象。

 

***********************

DOM SAX 的使用例子  ( http://sinye.javaeye.com/blog/763926  /  http://www.javaeye.com/topic/763895 )

Xml文件内容

<?xml version="1.0" encoding="UTF-8"?> 

<books> 

    <book id="12"> 

        <name>thinking in java</name> 

        <price>85.5</price> 

    </book> 

    <book id="15"> 

        <name>Spring in Action</name> 

        <price>39.0</price> 

10      </book> 

11  </books> 

Book.java如下:主要是用来组装数据

12  public class Book { 

13      private int id; 

14      private String name; 

15      private float price; 

16   

17      public int getId() { 

18          return id; 

19      } 

20   

21      public void setId(int id) { 

22          this.id = id; 

23      } 

24   

25      public String getName() { 

26          return name; 

27      } 

28   

29      public void setName(String name) { 

30          this.name = name; 

31      } 

32   

33      public float getPrice() { 

34          return price; 

35      } 

36   

37      public void setPrice(float price) { 

38          this.price = price; 

39      } 

40       

41      @Override 

42      public String toString(){ 

43          return this.id+":"+this.name+":"+this.price; 

44      } 

45 

1. Dom解析是将 xml 文件全部载入,组装成一颗 dom 树,然后通过节点以及节点之间的关系来解析 xml 文件,结合一张图来发现 dom 解析时需要注意的地方

Java解析xml的主要解析器: SAX和DOM的选择(附上新方法--Pull解析)_第1张图片

在这里当我们得到节点book 时,也就是图中 1 所画的地方,如果我们调用它的 getChildNodes() 方法,大家猜猜它的子节点有几个? 不包括它的孙子节点, thinking in java 这种的除外,因为它是孙子节点。它总共有 5 个子节点,分别是图中 2 3 4 5 6 所示的那样。所以在解析时,一定要小心,不要忽略空白的地方。

然后看代码来解析book.xml 文件  DomParseService.java

46  import java.io.InputStream; 

47  import java.util.ArrayList; 

48  import java.util.List; 

49   

50  import javax.xml.parsers.DocumentBuilder; 

51  import javax.xml.parsers.DocumentBuilderFactory; 

52   

53  import org.w3c.dom.Document; 

54  import org.w3c.dom.Element; 

55  import org.w3c.dom.NodeList; 

56  import org.w3c.dom.Node; 

57   

58  import com.xtlh.cn.entity.Book; 

59   

60  public class DomParseService { 

61      public List<Book> getBooks(InputStream inputStream) throws Exception{ 

62          List<Book> list = new ArrayList<Book>(); 

63          DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); 

64          DocumentBuilder builder = factory.newDocumentBuilder(); 

65          Document document = builder.parse(inputStream); 

66          Element element = document.getDocumentElement(); 

67   

68          NodeList bookNodes = element.getElementsByTagName("book"); 

69          for(int i=0;i<bookNodes.getLength();i++){ 

70              Element bookElement = (Element) bookNodes.item(i); 

71              Book book = new Book(); 

72              book.setId(Integer.parseInt(bookElement.getAttribute("id"))); 

73              NodeList childNodes = bookElement.getChildNodes(); 

74  //          System.out.println("*****"+childNodes.getLength()); 

75              for(int j=0;j<childNodes.getLength();j++){ 

76                  if(childNodes.item(j).getNodeType()==Node.ELEMENT_NODE){ 

77                      if("name".equals(childNodes.item(j).getNodeName())){ 

78                          book.setName(childNodes.item(j).getFirstChild().getNodeValue()); 

79                      }else if("price".equals(childNodes.item(j).getNodeName())){ 

80                          book.setPrice(Float.parseFloat(childNodes.item(j).getFirstChild().getNodeValue())); 

81                      } 

82                  } 

83              }//end for j 

84              list.add(book); 

85          }//end for i 

86          return list; 

87      } 

88 

测试使用单元测试如下ParseTest.java

89  public class ParseTest extends TestCase{ 

90   

91      public void testDom() throws Exception{ 

92          InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml"); 

93          DomParseService dom = new DomParseService(); 

94          List<Book> books = dom.getBooks(input); 

95          for(Book book : books){ 

96              System.out.println(book.toString()); 

97          } 

98      } 

99 

 

2. Sax解析是按照 xml 文件的顺序一步一步的来解析,在解析 xml 文件之前,我们要先了解 xml 文件的节点的种类,一种是 ElementNode ,一种是 TextNode

    其中,像<books> <book> 这种节点就属于 ElementNode, thinking in java 85.5 这种就属于 TextNode

下面结合一张图来详细讲解Sax 解析。

Java解析xml的主要解析器: SAX和DOM的选择(附上新方法--Pull解析)_第2张图片

    xml文件被 Sax 解析器载入,由于 Sax 解析是按照 xml 文件的顺序来解析,当读入 <?xml.....> 时,会调用  startDocument() 方法,当读入 <books> 的时候,由于它是个 ElementNode ,所以会调用  startElement(String uri, String localName, String qName, Attributes attributes)  方法,其中第二个参数就是节点的名称,注意:由于有些环境不一样,有时候第二个参数有可能为空,所以可以使用第三个参数,因此在解析前,先调用一下看哪个 参数能用,第 4 个参数是这个节点的属性。这里我们不需要这个节点,所以从 <book> 这个节点开始,也就是图中 1 的位置,当读入时,调用  startElement(....) 方法,由于只有一个属性 id ,可以通过 attributes.getValue(0) 来得到,然后在图中标明 2 的地 方会调用 characters(char[] ch, int start, int length) 方法,不要以为那里是空白, Sax 解析器可不那么认为, Sax 解析器会把它认为是一个 TextNode 。但是这个空白不是我们想要的数据, 我们是想要 <name> 节点下的文本信息。这就要定义一个记录当上一节点的名称的 TAG ,在 characters(.....) 方法中,判断 当前节点是不是 name ,是再取值,才能取到 thinking in java 。具体见代码: SaxParseService.java

100  import java.io.InputStream; 

101  import java.util.ArrayList; 

102  import java.util.List; 

103   

104  import javax.xml.parsers.SAXParser; 

105  import javax.xml.parsers.SAXParserFactory; 

106   

107  import org.xml.sax.Attributes; 

108  import org.xml.sax.SAXException; 

109  import org.xml.sax.helpers.DefaultHandler; 

110   

111  import com.xtlh.cn.entity.Book; 

112   

113  public class SaxParseService extends DefaultHandler{ 

114      private List<Book> books = null; 

115      private Book book = null; 

116      private String preTag = null;//作用是记录解析时的上一个节点名称 

117   

118      public List<Book> getBooks(InputStream xmlStream) throws Exception{ 

119          SAXParserFactory factory = SAXParserFactory.newInstance(); 

120          SAXParser parser = factory.newSAXParser(); 

121          SaxParseService handler = new SaxParseService(); 

122          parser.parse(xmlStream, handler); 

123          return handler.getBooks(); 

124      } 

125   

126      public List<Book> getBooks(){ 

127          return books; 

128      } 

129   

130      @Override 

131      public void startDocument() throws SAXException { 

132          books = new ArrayList<Book>(); 

133      } 

134   

135      @Override 

136      public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException { 

137          if("book".equals(qName)){ 

138              book = new Book(); 

139              book.setId(Integer.parseInt(attributes.getValue(0))); 

140          } 

141          preTag = qName;//将正在解析的节点名称赋给 preTag 

142      } 

143   

144      @Override 

145      public void endElement(String uri, String localName, String qName) 

146              throws SAXException { 

147          if("book".equals(qName)){ 

148              books.add(book); 

149              book = null; 

150          } 

151          preTag = null;/**当解析结束时置为空。这里很重要,例如,当图中画 3 的位置结束后,会调用这个方法 

152          ,如果这里不把preTag 置为 null ,根据 startElement(....) 方法, preTag 的值还是 book ,当文档顺序读到图 

153          中标记4 的位置时,会执行 characters(char[] ch, int start, int length) 这个方法,而 characters(....) 方 

154          法判断preTag!=null ,会执行 if 判断的代码,这样就会把空值赋值给 book ,这不是我们想要的。 */ 

155      } 

156   

157      @Override 

158      public void characters(char[] ch, int start, int length) throws SAXException { 

159          if(preTag!=null){ 

160              String content = new String(ch,start,length); 

161              if("name".equals(preTag)){ 

162                  book.setName(content); 

163              }else if("price".equals(preTag)){ 

164                  book.setPrice(Float.parseFloat(content)); 

165              } 

166          } 

167      } 

168   

169 

测试是用的单元测试,测试代码如下:ParseTest

170  import java.io.InputStream; 

171  import java.util.List; 

172   

173  import junit.framework.TestCase; 

174   

175  import com.xtlh.cn.demo.DomParseService; 

176  import com.xtlh.cn.demo.SaxParseService; 

177  import com.xtlh.cn.entity.Book; 

178   

179  public class ParseTest extends TestCase{ 

180   

181      public void testSAX() throws Throwable{ 

182          SaxParseService sax = new SaxParseService(); 

183          InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml"); 

184          List<Book> books = sax.getBooks(input); 

185          for(Book book : books){ 

186              System.out.println(book.toString()); 

187          } 

188      } 

189 


 

      最近了解到JDK6  添加一个名为 StAX 的新解析方法,具体可以参考 JDK 6.0 中基于 StAX 分析 XML 数据 。在J2ME 下可以使用 XmlPullParser ,参考 http://www.javaeye.com/topic/41564 。 这些解析方法都是pull parser 。按照帖子里的网友说法, “pull parser 为什么快? sax parser 为什么慢?我觉得这是关键。我曾经在 delphi 上把一个 sax parser 改装成 pull parser 。其实很简单,只要把回调的 API 改成基于循环的主动查询。做的是减法 !!看完了下面的例子 http://www.javaeye.com/topic/763949 ,似乎明白了一点。      这个例子所使用的xml 文件和 Java 实体类和上面两个例子一样的。

      Pull解析和 Sax 解析很相似,都是轻量级的解析,在 Android 的内核中已经嵌入了 Pull ,所以我们不需要再添加第三方 jar 包来支持  Pull Pull 解析和 Sax 解析不一样的地方有 (1)pull 读取 xml 文件后触发相应的事件调用方法返回的是数字 (2)pull 可以在程序中控制想 解析到哪里就可以停止解析。

Pull解析的代码如下 PullParseService.java

190  import java.io.InputStream; 

191  import java.util.ArrayList; 

192  import java.util.List; 

193   

194  import org.xmlpull.v1.XmlPullParser; 

195   

196  import android.util.Xml; 

197   

198  import com.xtlh.cn.entity.Book; 

199   

200  public class PullParseService { 

201      public static List<Book> getBooks(InputStream inputStream) throws Exception{ 

202          List<Book> books = null; 

203          Book book = null; 

204          XmlPullParser parser = Xml.newPullParser(); 

205          parser.setInput(inputStream, "UTF-8"); 

206   

207          int event = parser.getEventType();//产生第一个事件 

208          while(event!=XmlPullParser.END_DOCUMENT){ 

209              switch(event){ 

210              case XmlPullParser.START_DOCUMENT://判断当前事件是否是文档开始事件 

211                  books = new ArrayList<Book>();//初始化 books 集合 

212                  break; 

213              case XmlPullParser.START_TAG://判断当前事件是否是标签元素开始事件 

214                  if("book".equals(parser.getName())){//判断开始标签元素是否是 book 

215                      book = new Book(); 

216                      book.setId(Integer.parseInt(parser.getAttributeValue(0)));//得到 book 标签的属性值,并设置 book id 

217                  } 

218                  if(book!=null){ 

219                      if("name".equals(parser.getName())){//判断开始标签元素是否是 name 

220                          book.setName(parser.nextText()); 

221                      }else if("price".equals(parser.getName())){//判断开始标签元素是否是 price 

222                          book.setPrice(Float.parseFloat(parser.nextText())); 

223                      } 

224                  } 

225                  break; 

226              case XmlPullParser.END_TAG://判断当前事件是否是标签元素结束事件 

227                  if("book".equals(parser.getName())){//判断结束标签元素是否是 book 

228                      books.add(book);// book 添加到 books 集合 

229                      book = null; 

230                  } 

231                  break; 

232              } 

233              event = parser.next();//进入下一个元素并触发相应事件 

234          }//end while 

235          return books; 

236      } 

237 

测试使用的是android 的单元测试,代码如下:

238  import java.io.InputStream; 

239  import java.util.List; 

240   

241  import android.test.AndroidTestCase; 

242  import android.util.Log; 

243   

244  import com.xtlh.cn.entity.Book; 

245  import com.xtlh.cn.service.PullParseService; 

246   

247  public class testPullParseService extends AndroidTestCase{ 

248      private static final String TAG = "testPullParseService"; 

249      public void testPull() throws Exception{ 

250          InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml"); 

251          PullParseService pull = new PullParseService(); 

252          List<Book> books = pull.getBooks(input); 

253          for(Book book : books){ 

254              Log.i(TAG,book.toString()); 

255          } 

256      } 

257 

 

链接:http://android.blog.51cto.com/268543/393309

你可能感兴趣的:(java,xml,单元测试,null,文档,books)