基于SAX的XML文档解析器分析

1.引言:

  XML (eXtensible Markup Language)语言是SGML语言的子集,它保留了SGML主要的使用功能,同时大大缩减了SGML的复杂性。XML语言系统建立的目的就是使它不仅能够表示文档的内容,而且可以表示文档的结构,这样在同时能够被人类理解的同时,也能够被机器所理解。微软提供了两种进行XML文档解析的接口,一种是基于文档对象模型(DOM)的,另外一种就是SAX(Simple API for XML)。如果你安装了IE5.0以上版本的话,你的系统中实际上就存在了这两种XML语法解析器。可以从微软站点(www.microsoft.com)下载最新的MSXML的SDK和Parser文件。它是一个叫做MSXML.DLL的动态链接库,最新版本为msxml3,实际上它是一个COM对象库,里面封装了所有进行XML解析所需要的所有必要的对象。因为COM是一种以二进制格式出现的和语言无关的可重用对象。所以你可以用任何语言(比如VB,VC,DELPHI,C++ Builder甚至是剧本语言等等)对它进行调用,在你的应用中实现对XML文档的解析。下面的关于XML文档对象模型的介绍是基于微软最新的msxml3为基础进行的。

  2.SAX介绍

  SAX(Simple API For XML)是一个公共的基于事件的XML文档解析标准,这里我们简单介绍一下MSXML是如何通过COM接口实现SAX功能的。首先需要注意的使SAX是一个接口集合,它允许开发人员在自己的应用中通过这个接口集合来读取和分析XML文档中的数据。SAX2是当前微软最新的API。

  SAX最初是为Java编程语言设计的,并使用了Java的接口定义,因为Java语言接口并不是语言中立的,所以各个厂商就需要建立自己的工具把SAX接口映射到它们自己的特殊的语言上去。微软的SAX2给VB和VC提供了接口,当然它们都有自己的接口集合映射到各自的语言和类型定义上去(比如ISAXContentHandler是VC的接口,而IVBSAXContentHandler是VB的接口)。 能够通过一个简单的,快速的方法来对XML文档进行处理,并且和DOM相比的话,它所占用的系统资源更少。我们知道,当你通过DOM来操作一个XML文件的时候,DOM读取该文件,然后把它分割成单个的对象(比如元素,属性和注释等等),然后在内存中创建一个关于该文档的树结构。使用DOM的好处是你可以引用和操作每一个对象。但是为一个文档创建一个树结构,尤其当文档尺寸很大的时候,需要大量的内存空间。

  和DOM不同的是,SAX2是基于事件的,这意味着当它在一个XML文档中发现特殊的符号的时候,它会产生相关的事件。SAX2的优点是当它读到XML文档中每一部分内容的时候,就会产生一个事件,我们的应用程序就可以在这个事件中写入具体的处理代码,然后解析器就移动到文档的下一段。因为SAX2以序列的形式处理文档,它和DOM相比,对内存的需求很少。而且当SAX2找到需要的信息的时候,它能够停止对当前文档的解析。因为SAX不需要在内存中建立整个文档的树结构,SAX和DOM相比,可以被认为是一个轻量级的接口集合。

  我们可以从另一个角度来理解SAX和DOM的区别,如果把它们认为是数据库的游标的话,SAX就类似是只读(read-only)和前向(forward-only)游标,而DOM更象是一个静态(static)的游标允许对记录进行遍历和更新。在开发数据库的时候,我们都知道这两种游标都有自己的适用范围而且都是非常有用的,所以SAX和DOM的作用也可以类似的进行这样的理解。SAX对XML进行处理的流程图如下所示:



  2.1 SAX2和DOM相比的优点

  当需要处理大的文件的时候,SAX对内存的需求很小,因为它并不会因为XML文档尺寸的增加而增加对内存的需求。SAX允许你在任何时候终止解析,这样的一个好处是如果实际上你只需要对文档的一部分信息进行处理的时候,你可以在得到该部分信息以后,就终止对文档的解析。同时,当你想要提取文档中一小部分内容的时候(对许多基于XML的应用来说,实际上没有必要读完整个XML文档),比如,你想要通过扫描数据找到文档中关于某一个特定股票的相关信息的时候,就不需要把不必要的数据放到内存里面,用SAX,你的应用能够扫描数据发现和该股票相关的信息,然后创建一个仅和该部分相关的一个文档结构,这样不仅节省了系统资源,还节省了处理时间。另外,当你想要创建一个新的文档结构时,在一些情况下,你可能想要使用SAX来创建一个高层对象的数据结构,比如股票代码和价格信息,然后和其他的XML文档的数据进行结合,而不是建立一个有关低层的元素、属性、处理指令相关的DOM结构的时候,你可以通过使用SAX更加有效的建立文档结构。特别当系统资源有限的时候,对大规模的文档来说,SAX提供了一个更加有效的方法来解析XML文档。因为SAX可以只处理文档中某一部分的信息,而DOM实际上是根据整个文档建立树状结构并放到内存中,所以如果XML文件很大的话,DOM模型对内存的需要量就很大。

  2.2 SAX的缺陷

  SAX模型也存在一些缺陷,因为整个文档并没有放到内存中,所以它不能随机的到达文档的某一部分,同时也因为整个文档不在内存中,开发人员必须在处理过程中按顺序处理信息,所以SAX在处理包含很多内部交叉引用的文档时就会有一些困难。不能实现复杂的搜索,同时你在处理文档部分信息的时候,必须自己考虑清楚是否保存相关的上下文信息。而且在当前的IE浏览器中还不支持SAX的实现。同时需要注意的是,DOM是已经被W3C承认的标准,而SAX还仅仅是微软自己建立的一个规范。
3. SAX分析器应用介绍

  3.1 寻找相关的信息

  一些Web站点提供了新闻标题作为他们服务的一部分,有一些站点甚至能够根据用户的喜好进行信息的过滤,使用SAX2,我们就可以创建一个应用来扫描新闻并且只向客户浏览器传递用户感兴趣部分的信息。比如,假设你有一个XML新闻文件,你想为某一个客户从该文件中提取一小部分信息,使用SAX应用,你可以指定要搜索内容的特征,然后搜索并提取那些和这个特征相匹配的信息。

  3.2 得到XML文档的一个子集

  通过SAX2,我们可以从一个大的文件中提取一小部分信息,然后中断对XML文档的解析。比如,假设你要建立一个应用来检验某一个特殊商品的库存,数据文档所包含的商品不止一种,而且每一种的尺寸都很大。使用SAX2,你可以创建一个应用来读这个数据文档,发现该指定商品,并返回该商品的库存数量,然后可以中断对该数据文档的继续分析。这里用SAX2有两个优点,首先,解析器只要读到包含该商品的信息以后就不需要继续解析该数据文档。其次,应用只需要从记录中提取需要的商品数量这个项(item),其他的项(item)可以忽略。

  3.3 基于事件解析的基础

  SAX2解析器读XML文档,然后产生基于特殊符号的事件。SAX2解析器实际上并不为该文档在内存中创建一棵树结构,它序列的处理一个文档的内容并产生相关的事件。

  比如,当你进行基于事件的编程的时候,你可以创建函数来响应用户定义的事件(比如OnClick事件)。在利用SAX进行编程的时候,需要注意的是,是解析器而不是用户产生事件。

  比如考虑下面一个简单的文档。

  

  

   TurboWidget

  

  当SAX2在处理这个文档的时候,它产生如下的一系列的事件:

  StartDocument( )

  StartElement( "parts" )

  StartElement( "part" )

  Characters( "TurboWidget" )

  EndElement( "part" )

  EndElement( "parts" )

  EndDocument( )

可以把SAX2看成是一个有拉特点(PUSH)的解析器,SAX2产生事件,然后你可以自己去处理些事件。实际上,当SAX2在解析一个文档的时候,SAXXMLReader读该文档并产生一系列的事件,你可以选择一些事件进行处理。
 4. 创建一个应用SAX的应用程序框架

  SAX2产生的事件包括如下的种类:

  ¨ 和XML文档内容相关的事件(ISAXContentHandler)

  ¨ 和DTD相关的事件(ISAXDTDHandler)

  ¨ 出现错误时发生的事件(ISAXErrorHandler)

  为了处理这些事件,你需要实现一个相关的处理类,该处理类需要包含一些方法来处理相关的事件。你必须对你想要处理的事件实现相关的处理。如果你不想处理某一个事件的话,只需要简单的忽略它就可以。在实际应用中,我们首先要继承这些接口,用C++我们可以创建一个类,在这个类的方法中,我们可以告诉应用程序在接收到一个事件的时候如何进行处理。下面是建立一个基于SAX的应用的基本步骤:

  1. 创建头文件当使用SAX2的时候,我们需要用到动态连接库MSXML.DLL,为了使用MSXML中包含的SAX2接口,你必须在程序的头文件(一般在stdafx.h中)中包含下列的代码:

  #import raw_interfaces_only

  using namespace MSXML2;

  2. 建立具体的操作(handler)类,SAX2主要定义了三个基本的操作类,它们分别是ISAXContentHandler,ISAXDTDHandler和ISAXErrorHandler。

  ISAXContentHandler是用来处理SAX2解析器对文档内容进行解析时所产生的消息的,ISAXXMLReader通过方法putContentHandler来注册这个实例。而ISAXDTDHandler是用来处理和DTD相关的基本的消息的,ISAXXMLReader通过方法putDTDHandler来注册这个实例。ISAXErrorHandler提供了对在解析过程中遇到错误时产生的错误事件的处理,ISAXXMLReader通过方法putErrorHandler来注册这个实例

  因为这三个类都是用来对事件进行处理的,并且需要在接口ISAXXMLReader中进行注册。但是它们的基本使用方法类似,所以我们这里只详细描述对接口ISAXContentHandler 的操作。
 

 

你可能感兴趣的:(xml,sax,职场,休闲,文档解析器)