Java的 xml 解析器库有很多,总的来说,万变不离其宗的就是 SAX 和 DOM 解析器。
SAX的包是 org.xml.sax
DOM的包是 org.w3c.dom
1) DOM
DOM 是用与平台和语言无关的方式表示 XML 文档的官方 W3C 标准。 DOM 是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何 工作。由于它是基于信息层次的,因而 DOM 被认为是基于树或基于对象的。 DOM 以及广义的基于树的处理具有几个优点。首先,由于树在内存中是持久的,因此可以修改它以便应用程序能对数据和结构作出更改。它还可以在任何时候在树中上下 导航,而不是像 SAX 那样是一次性的处理。 DOM 使用起来也要简单得多。
另一方面,对于特别大的文档,解析和加载整个文档可能很慢且很耗资源,因此使用其他手段来处理这样的数据会更好。这些基于事件的模型,比如 SAX 。
2) SAX
这种处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据 存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。一般来说,SAX 还比它的替代者 DOM 快许多。
3) 选择 DOM 还是选择 SAX ?
对于需要自己编写代码来处理 XML 文档的开发人员来说,选择 DOM 还是 SAX 解析模型是一个非常重要的设计决策。
DOM 采用建立树形结构的方式访问 XML 文档,而 SAX 采用的事件模型。
DOM 解析器把 XML 文档转化为一个包含其内容的树,并可以对树进行遍历。用 DOM 解析模型的优点是编程容易,开发人员只需要调用建树的指令,然后利用 navigation APIs 访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用 DOM 解析器的时候需要处理整个 XML 文档,所以对性能和内存的要求比较高,尤其是遇到很大的 XML 文件的时候。由于它的遍历能力, DOM 解析器常用于 XML 文档需要频繁的改变的服务中。
SAX 解析器采用了基于事件的模型,它在解析 XML 文档的时候可以触发一系列的事件,当发现给定的 tag 的时候,它可以激活一个回调方法,告诉该方法制定的标签已经找到。 SAX 对内存的要求通常会比较低,因为它让开发人员自己来决定所要处理的 tag 。特别是当开发人员只需要处理文档中所包含的部分数据时, SAX 这种扩展能力得到了更好的体现。但用 SAX 解析器的时候编码工作会比较困难,而且很难同时访问同一个文档中的多处不同数据。
个人总结
*******************
DOM:
解析器读入整个文档,然后构建一个驻留内存的树结构,然后代码就可以使用 DOM 接口来操作这个树结构。
优点:整个文档树在内存中,便于操作;支持删除、修改、重新排列等多种功能;
缺点:将整个文档调入内存(包括无用的节点),浪费时间和空间;
使用场合:一旦解析了文档还需多次访问这些数据;硬件资源充足(内存、CPU )
SAX:
事件驱动。当解析器发现元素开始、元素结束、文本、文档的开始或结束等时,发送事件,程序员编写响应这些事件的代码,保存数据。
优点:不用事先调入整个文档,占用资源少
缺点:不是持久的;事件过后,若没保存数据,那么数据就丢了;无状态性;从事件中只能得到文本,但不知该文本属于哪个元素;
使用场合:只需XML 文档的少量内容,很少回头访问;一次性读取;机器内存少;
注意:SAX 解析器不创建任何对象。
***********************
DOM和 SAX 的使用例子 ( http://sinye.javaeye.com/blog/763926 / http://www.javaeye.com/topic/763895 )
Xml文件内容
1 <?xml version="1.0" encoding="UTF-8"?>
2 <books>
3 <book id="12">
4 <name>thinking in java</name>
5 <price>85.5</price>
6 </book>
7 <book id="15">
8 <name>Spring in Action</name>
9 <price>39.0</price>
10 </book>
11 </books>
Book.java如下:主要是用来组装数据
12 public class Book {
13 private int id;
14 private String name;
15 private float price;
16
17 public int getId() {
18 return id;
19 }
20
21 public void setId(int id) {
22 this.id = id;
23 }
24
25 public String getName() {
26 return name;
27 }
28
29 public void setName(String name) {
30 this.name = name;
31 }
32
33 public float getPrice() {
34 return price;
35 }
36
37 public void setPrice(float price) {
38 this.price = price;
39 }
40
41 @Override
42 public String toString(){
43 return this.id+":"+this.name+":"+this.price;
44 }
45 }
1. Dom解析是将 xml 文件全部载入,组装成一颗 dom 树,然后通过节点以及节点之间的关系来解析 xml 文件,结合一张图来发现 dom 解析时需要注意的地方
在这里当我们得到节点book 时,也就是图中 1 所画的地方,如果我们调用它的 getChildNodes() 方法,大家猜猜它的子节点有几个? 不包括它的孙子节点, thinking in java 这种的除外,因为它是孙子节点。它总共有 5 个子节点,分别是图中 2 、 3 、 4 、 5 、 6 所示的那样。所以在解析时,一定要小心,不要忽略空白的地方。
然后看代码来解析book.xml 文件 DomParseService.java
46 import java.io.InputStream;
47 import java.util.ArrayList;
48 import java.util.List;
49
50 import javax.xml.parsers.DocumentBuilder;
51 import javax.xml.parsers.DocumentBuilderFactory;
52
53 import org.w3c.dom.Document;
54 import org.w3c.dom.Element;
55 import org.w3c.dom.NodeList;
56 import org.w3c.dom.Node;
57
58 import com.xtlh.cn.entity.Book;
59
60 public class DomParseService {
61 public List<Book> getBooks(InputStream inputStream) throws Exception{
62 List<Book> list = new ArrayList<Book>();
63 DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
64 DocumentBuilder builder = factory.newDocumentBuilder();
65 Document document = builder.parse(inputStream);
66 Element element = document.getDocumentElement();
67
68 NodeList bookNodes = element.getElementsByTagName("book");
69 for(int i=0;i<bookNodes.getLength();i++){
70 Element bookElement = (Element) bookNodes.item(i);
71 Book book = new Book();
72 book.setId(Integer.parseInt(bookElement.getAttribute("id")));
73 NodeList childNodes = bookElement.getChildNodes();
74 // System.out.println("*****"+childNodes.getLength());
75 for(int j=0;j<childNodes.getLength();j++){
76 if(childNodes.item(j).getNodeType()==Node.ELEMENT_NODE){
77 if("name".equals(childNodes.item(j).getNodeName())){
78 book.setName(childNodes.item(j).getFirstChild().getNodeValue());
79 }else if("price".equals(childNodes.item(j).getNodeName())){
80 book.setPrice(Float.parseFloat(childNodes.item(j).getFirstChild().getNodeValue()));
81 }
82 }
83 }//end for j
84 list.add(book);
85 }//end for i
86 return list;
87 }
88 }
测试使用单元测试如下ParseTest.java
89 public class ParseTest extends TestCase{
90
91 public void testDom() throws Exception{
92 InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml");
93 DomParseService dom = new DomParseService();
94 List<Book> books = dom.getBooks(input);
95 for(Book book : books){
96 System.out.println(book.toString());
97 }
98 }
99 }
2. Sax解析是按照 xml 文件的顺序一步一步的来解析,在解析 xml 文件之前,我们要先了解 xml 文件的节点的种类,一种是 ElementNode ,一种是 TextNode 。
其中,像<books> 、 <book> 这种节点就属于 ElementNode, 而 thinking in java 、 85.5 这种就属于 TextNode 。
下面结合一张图来详细讲解Sax 解析。
xml文件被 Sax 解析器载入,由于 Sax 解析是按照 xml 文件的顺序来解析,当读入 <?xml.....> 时,会调用 startDocument() 方法,当读入 <books> 的时候,由于它是个 ElementNode ,所以会调用 startElement(String uri, String localName, String qName, Attributes attributes) 方法,其中第二个参数就是节点的名称,注意:由于有些环境不一样,有时候第二个参数有可能为空,所以可以使用第三个参数,因此在解析前,先调用一下看哪个 参数能用,第 4 个参数是这个节点的属性。这里我们不需要这个节点,所以从 <book> 这个节点开始,也就是图中 1 的位置,当读入时,调用 startElement(....) 方法,由于只有一个属性 id ,可以通过 attributes.getValue(0) 来得到,然后在图中标明 2 的地 方会调用 characters(char[] ch, int start, int length) 方法,不要以为那里是空白, Sax 解析器可不那么认为, Sax 解析器会把它认为是一个 TextNode 。但是这个空白不是我们想要的数据, 我们是想要 <name> 节点下的文本信息。这就要定义一个记录当上一节点的名称的 TAG ,在 characters(.....) 方法中,判断 当前节点是不是 name ,是再取值,才能取到 thinking in java 。具体见代码: SaxParseService.java
100 import java.io.InputStream;
101 import java.util.ArrayList;
102 import java.util.List;
103
104 import javax.xml.parsers.SAXParser;
105 import javax.xml.parsers.SAXParserFactory;
106
107 import org.xml.sax.Attributes;
108 import org.xml.sax.SAXException;
109 import org.xml.sax.helpers.DefaultHandler;
110
111 import com.xtlh.cn.entity.Book;
112
113 public class SaxParseService extends DefaultHandler{
114 private List<Book> books = null;
115 private Book book = null;
116 private String preTag = null;//作用是记录解析时的上一个节点名称
117
118 public List<Book> getBooks(InputStream xmlStream) throws Exception{
119 SAXParserFactory factory = SAXParserFactory.newInstance();
120 SAXParser parser = factory.newSAXParser();
121 SaxParseService handler = new SaxParseService();
122 parser.parse(xmlStream, handler);
123 return handler.getBooks();
124 }
125
126 public List<Book> getBooks(){
127 return books;
128 }
129
130 @Override
131 public void startDocument() throws SAXException {
132 books = new ArrayList<Book>();
133 }
134
135 @Override
136 public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
137 if("book".equals(qName)){
138 book = new Book();
139 book.setId(Integer.parseInt(attributes.getValue(0)));
140 }
141 preTag = qName;//将正在解析的节点名称赋给 preTag
142 }
143
144 @Override
145 public void endElement(String uri, String localName, String qName)
146 throws SAXException {
147 if("book".equals(qName)){
148 books.add(book);
149 book = null;
150 }
151 preTag = null;/**当解析结束时置为空。这里很重要,例如,当图中画 3 的位置结束后,会调用这个方法
152 ,如果这里不把preTag 置为 null ,根据 startElement(....) 方法, preTag 的值还是 book ,当文档顺序读到图
153 中标记4 的位置时,会执行 characters(char[] ch, int start, int length) 这个方法,而 characters(....) 方
154 法判断preTag!=null ,会执行 if 判断的代码,这样就会把空值赋值给 book ,这不是我们想要的。 */
155 }
156
157 @Override
158 public void characters(char[] ch, int start, int length) throws SAXException {
159 if(preTag!=null){
160 String content = new String(ch,start,length);
161 if("name".equals(preTag)){
162 book.setName(content);
163 }else if("price".equals(preTag)){
164 book.setPrice(Float.parseFloat(content));
165 }
166 }
167 }
168
169 }
测试是用的单元测试,测试代码如下:ParseTest
170 import java.io.InputStream;
171 import java.util.List;
172
173 import junit.framework.TestCase;
174
175 import com.xtlh.cn.demo.DomParseService;
176 import com.xtlh.cn.demo.SaxParseService;
177 import com.xtlh.cn.entity.Book;
178
179 public class ParseTest extends TestCase{
180
181 public void testSAX() throws Throwable{
182 SaxParseService sax = new SaxParseService();
183 InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml");
184 List<Book> books = sax.getBooks(input);
185 for(Book book : books){
186 System.out.println(book.toString());
187 }
188 }
189 }
最近了解到JDK6 添加一个名为 StAX 的新解析方法,具体可以参考 在JDK 6.0 中基于 StAX 分析 XML 数据 。在J2ME 下可以使用 XmlPullParser ,参考 http://www.javaeye.com/topic/41564 。 这些解析方法都是pull parser 。按照帖子里的网友说法, “pull parser 为什么快? sax parser 为什么慢?我觉得这是关键。我曾经在 delphi 上把一个 sax parser 改装成 pull parser 。其实很简单,只要把回调的 API 改成基于循环的主动查询。做的是减法 ” !!看完了下面的例子 http://www.javaeye.com/topic/763949 ,似乎明白了一点。 这个例子所使用的xml 文件和 Java 实体类和上面两个例子一样的。
Pull解析和 Sax 解析很相似,都是轻量级的解析,在 Android 的内核中已经嵌入了 Pull ,所以我们不需要再添加第三方 jar 包来支持 Pull 。 Pull 解析和 Sax 解析不一样的地方有 (1)pull 读取 xml 文件后触发相应的事件调用方法返回的是数字 (2)pull 可以在程序中控制想 解析到哪里就可以停止解析。
Pull解析的代码如下 PullParseService.java
190 import java.io.InputStream;
191 import java.util.ArrayList;
192 import java.util.List;
193
194 import org.xmlpull.v1.XmlPullParser;
195
196 import android.util.Xml;
197
198 import com.xtlh.cn.entity.Book;
199
200 public class PullParseService {
201 public static List<Book> getBooks(InputStream inputStream) throws Exception{
202 List<Book> books = null;
203 Book book = null;
204 XmlPullParser parser = Xml.newPullParser();
205 parser.setInput(inputStream, "UTF-8");
206
207 int event = parser.getEventType();//产生第一个事件
208 while(event!=XmlPullParser.END_DOCUMENT){
209 switch(event){
210 case XmlPullParser.START_DOCUMENT://判断当前事件是否是文档开始事件
211 books = new ArrayList<Book>();//初始化 books 集合
212 break;
213 case XmlPullParser.START_TAG://判断当前事件是否是标签元素开始事件
214 if("book".equals(parser.getName())){//判断开始标签元素是否是 book
215 book = new Book();
216 book.setId(Integer.parseInt(parser.getAttributeValue(0)));//得到 book 标签的属性值,并设置 book 的 id
217 }
218 if(book!=null){
219 if("name".equals(parser.getName())){//判断开始标签元素是否是 name
220 book.setName(parser.nextText());
221 }else if("price".equals(parser.getName())){//判断开始标签元素是否是 price
222 book.setPrice(Float.parseFloat(parser.nextText()));
223 }
224 }
225 break;
226 case XmlPullParser.END_TAG://判断当前事件是否是标签元素结束事件
227 if("book".equals(parser.getName())){//判断结束标签元素是否是 book
228 books.add(book);//将 book 添加到 books 集合
229 book = null;
230 }
231 break;
232 }
233 event = parser.next();//进入下一个元素并触发相应事件
234 }//end while
235 return books;
236 }
237 }
测试使用的是android 的单元测试,代码如下:
238 import java.io.InputStream;
239 import java.util.List;
240
241 import android.test.AndroidTestCase;
242 import android.util.Log;
243
244 import com.xtlh.cn.entity.Book;
245 import com.xtlh.cn.service.PullParseService;
246
247 public class testPullParseService extends AndroidTestCase{
248 private static final String TAG = "testPullParseService";
249 public void testPull() throws Exception{
250 InputStream input = this.getClass().getClassLoader().getResourceAsStream("book.xml");
251 PullParseService pull = new PullParseService();
252 List<Book> books = pull.getBooks(input);
253 for(Book book : books){
254 Log.i(TAG,book.toString());
255 }
256 }
257 }
链接:http://android.blog.51cto.com/268543/393309