使用JAXP进行SAX解析(XMLReaderFactory、XMLReader 、SAXParserFactory与SAXParser)

 


SAX解析XML文件采用事件驱动的方式进行,也就是说,SAX是逐行扫描文件,遇到符合条件的设定条件后就会触发特定的事件,回调你写好的事件处理程序。使用SAX的优势在于其解析速度较快,相对于DOM而言占用内存较少。而且SAX在解析文件的过程中得到自己需要的信息后可以随时终止解析,并不一定要等文件全部解析完毕。凡事有利必有弊,其劣势在于SAX采用的是流式处理方式,当遇到某个标签的时候,它并不会记录下以前所遇到的标签,也就是说,在处理某个标签的时候,比如在startElement方法中,所能够得到的信息就是标签的名字和属性,至于标签内部的嵌套结构,上层标签、下层标签以及其兄弟节点的名称等等与其结构相关的信息都是不得而知的。实际上就是把XML文件的结构信息丢掉了,如果需要得到这些信息的话,只能你自己在程序里进行处理了。所以相对DOM而言,SAX处理XML文档没有DOM方便,SAX处理的过程相对DOM而言也比较复杂。

        SAX采用事件处理的方式解析XML文件,利用 SAX 解析 XML 文档,涉及两个部分:解析器和事件处理器:
解析器可以使用JAXP的API创建,创建出SAX解析器后,就可以指定解析器去解析某个XML文档。
解析器采用SAX方式在解析某个XML文档时,它只要解析到XML文档的一个组成部分,都会去调用事件处理器的一个方法,解析器在调用事件处理器的方法时,会把当前解析到的xml文件内容作为方法的参数传递给事件处理器。
事件处理器由程序员编写,程序员通过事件处理器中方法的参数,就可以很轻松地得到sax解析器解析到的数据,从而可以决定如何对数据进行处理。

备注说明:SAX API中主要有四种处理事件的接口,它们分别是ContentHandlerDTDHandler EntityResolver 和 ErrorHandler 

使用JAXP进行SAX解析(XMLReaderFactory、XMLReader 、SAXParserFactory与SAXParser)_第1张图片

 这里使用最多的就是ContentHandler,仔细阅读 API文档,了解常用方法:startElement、endElement、characters等

 1.startElement方法说明

[java] view plaincopy

  1. void startElement(String uri,  

  2.                   String localName,  

  3.                   String qName,  

  4.                   Attributes atts)  

  5.                   throws SAXException  

  6. 方法说明:  

  7. 解析器在 XML 文档中的每个元素的开始调用此方法;对于每个 startElement 事件都将有相应的 endElement 事件(即使该元素为空时)。所有元素的内容都将在相应的 endElement 事件之前顺序地报告。  

  8.   

  9. 参数说明:  

  10. uri - 名称空间 URI,如果元素没有名称空间 URI,或者未执行名称空间处理,则为空字符串  

  11. localName - 本地名称(不带前缀),如果未执行名称空间处理,则为空字符串  

  12. qName - 限定名(带有前缀),如果限定名不可用,则为空字符串  

  13. atts - 连接到元素上的属性。如果没有属性,则它将是空 Attributes 对象。在 startElement 返回后,此对象的值是未定义的  

 2.endElement方法说明

[java] view plaincopy

  1. void endElement(String uri,  

  2.                 String localName,  

  3.                 String qName)  

  4.                 throws SAXException接收元素结束的通知。   

  5. SAX 解析器会在 XML 文档中每个元素的末尾调用此方法;对于每个 endElement 事件都将有相应的 startElement 事件(即使该元素为空时)。  

  6.   

  7. 参数:  

  8. uri - 名称空间 URI,如果元素没有名称空间 URI,或者未执行名称空间处理,则为空字符串  

  9. localName - 本地名称(不带前缀),如果未执行名称空间处理,则为空字符串  

  10. qName - 限定的 XML 名称(带前缀),如果限定名不可用,则为空字符串  


3.characters方法

[java] view plaincopy

  1. void characters(char[] ch,  

  2.                 int start,  

  3.                 int length)  

  4.                 throws SAXException  

  5. 接收字符数据的通知,可以通过new String(ch,start,length)构造器,创建解析出来的字符串文本.  

  6. 参数:  

  7. ch - 来自 XML 文档的字符  

  8. start - 数组中的开始位置  

  9. length - 从数组中读取的字符的个数   


其它方法请参考api数据

下面我们就具体讲解sax解析的操作.

一.我们通过XMLReaderFactory、XMLReader完成,步骤如下

[java] view plaincopy

  1. 1.通过XMLReaderFactory创建XMLReader对象  

  2. XMLReader reader = XMLReaderFactory.createXMLReader();  

  3. 2. 设置事件处理器对象  

  4. reader.setContentHandler(new MyDefaultHandler());  

  5. 3.读取要解析的xml文件  

  6. FileReader fileReader =new FileReader(new File("src\\sax\\startelement\\web.xml"));  

  7. 4.指定解析的xml文件  

  8. reader.parse(new InputSource(fileReader));  


案例:通过案例对uri、localName、qName和attribute参数有更加深入的了解

1.首先创建要解析的web.xml文件,内容如下

[html] view plaincopy

  1. xml version="1.0" encoding="UTF-8"?>  

  2. <web-app version="2.5"   

  3.     xmlns:csdn="http://java.sun.com/xml/ns/javaee"   

  4.     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"   

  5.     xsi:schemaLocation="http://java.sun.com/xml/ns/javaee   

  6.     http://java.sun.com/xml/ns/javaee/web-app_2_5.xsd">  

  7.   <csdn:display-name>csdn:display-name>     

  8. web-app>  

你可能感兴趣的:(文章)