利用MSXML解析XML文本(三)



  MSXML.DLL所包括的主要的COM接口有:

  (1)DOMDocument

  DOMDocument对象是XML DOM的基础,你可以利用它所暴露的属性和方法来允许你浏览、查询和修改XML文档的内容和结构。DOMDocument表示了树的顶层节点。它实现了DOM文档的所有的基本的方法并且提供了额外的成员函数来支持XSL和XSLT。它创建了一个文档对象,所有其他的对象都可以从这个文档对象中得到和创建。

  (2)IXMLDOMNode

  IXMLDOMNode是文档对象模型(DOM)中的基本的对象,元素,属性,注释,过程指令和其他的文档组件都可以认为是IXMLDOMNode,事实上,DOMDocument对象本身也是一个IXMLDOMNode对象。

  (3)IXMLDOMNodeList

  IXMLDOMNodeList实际上是一个节点(Node)对象的集合,节点的增加、删除和变化都可以在集合中立刻反映出来,可以通过“for...next”结构来遍历所有的节点。

  (4)IXMLDOMParseError

  IXMLDOMParseError接口用来返回在解析过程中所出现的详细的信息,包括错误号,行号,字符位置和文本描述。

  下面主要描述一个DOMDocument对象的创建过程,这里我们用VC描述创建一个文档对象的过程。

  HRESULT hr;

  IXMLDomDocument* pXMLDoc;

  IXMLDOMNode* pXDN;

  Hr=CoInitialize(NULL); //COM的初始化

  //得到关于IXMLDOMDocument接口的指针pXMLDOC。

  hr=CoCreateInstance(CLSID_DOMDocument,NULL,CLSCTX_INPPROC_SERVER,

  IID_IXMLDOMDocument,(void**)&pXMLDoc);

  //得到关于IXMLDOMNode接口的指针pXDN。

  hr=pXMLDoc->QueryInterface(IID_IXMLDOMNode,(void**)&pXDN);

  在MSXML解析器使用过程中,我们可以使用文档中的createElement方法来创建一个节点装载和保存XML文件。通过load或者是loadXML方法可以从一个指定的URL来装载一个XML文档。Load(LoadXML)方法带有两个参数:第一个参数xmlSource表示需要被解析的文档,第二个参数isSuccessful表示文档装载是否成功。Save方法是用来把文档保存到一个指定的位置。Save方法有一个参数destination用来表示需要保存的对象的类型,对象可以是一个文件,一个ASP Response方法,一个XML文档对象,或者是一个能够支持持久保存(persistence)的客户对象。下面是save方法使用的一个简单的例子(具体程序请参见http://www.swm.com.cn/swm/200101/利用MSXML解析XML文本)。

  同时,在解析过程中,我们需要得到和设置解析标志。利用不同的解析标志,我们可能以不同的方法来解析一个XML文档。XML标准允许解析器验证或者不验证文档,允许不验证文档的解析过程跳过对外部资源的提取。另外,你可能设置标志来表明你是否要从文档中移去多余的空格。

  为了达到这个目的,DOMDocument对象暴露了下面几个属性,允许用户在运行的时候改变解析器的行为:

  (1)Async(相对于C++是两个方法,分别为get_async和put_async)

  (2)ValidateOnparse (相对于C++是两个方法,分别为get_validateOnParse和 put_validateOnParse)

  (3)ResolveExternals(相对于C++是两个方法,分别为get_ ResolveExternals和put_ ResolveExternals)

  (4)PersercveWhiteSpace(相对于C++是两个方法,分别为get_ PersercveWhiteSpace和put_ PersercveWhiteSpace)

  每一个属性可以接受或者返回一个Boolean值。缺省的,anync,validateOnParse,resolveExternals的值为TRUE,perserveWhiteSpace的值跟XML文档的设置有关,如果XML文档中设置了xml:space属性的话,该值为FALSE。

  同时在文档解析过程中可以收集一些和文档信息的信息,实际上在文档解析过程中可以得到以下的信息:

  (1)doctype(文档类型):实际上是和用来定义文档格式的DTD文件。如果XML文档没有相关的DTD文档的话,它就返回NULL。

  (2)implementation(实现):表示该文档的实现,实际上就是用来指出当前文档所支持的XML的版本。

  (3)parseError(解析错误):在解析过程中最后所发生的错误。

  (4)readyState(状态信息):表示XML文档的状态信息,readyState对于异步使用微软的XML解析器来说的重要作用是提高了性能,当异步装载XML文档的时候,你的程序可能需要检查解析的状态,MSXML提供了四个状态,分别为正在状态,已经状态,正在解析和解析完成。

  (5)url(统一资源定位):关于正在被装载和解析的XML文档的URL的情况。注意如果该文档是在内存中建立的话,这个属性返回NULL值。

  在得到文档树结构以后,我们可以操作树中的每一个节点,可以通过两个方法得到树中的节点,分别为nodeFromID和getElementsByTagName。

  nodeFromID包括两个参数,第一个参数idString用来表示ID值,第二个参数node返回指向和该ID相匹配的NODE节点的接口指针。注意根据XML的技术规定,每一个XML文档中的ID值必须是唯一的而且一个元素(element)仅且只能和一个ID相关联。

  getElementsByTagName方法有两个参数,第一个参数tagName表示需要查找的元素(Element)的名称,如果tagName为“*”的话返回文档中所有的元素(Element)。第二个参数为resultList,它实际是指向接口IXMLDOMNodeList的指针,用来返回和tagName(标签名字)相关的所有的Node的集合。

你可能感兴趣的:(利用MSXML解析XML文本(三))