利用MSXML解析XML文本(VC)

一、引言

　　当前Web上流行的剧本语言是以HTML为主的语言结构，HTML是一种标记语言，而不是一种编程语言，主要的标记是针对显示，而不是针对文档内容本身结构的描述的。也就是说，机器本身是不能够解析它的内容的，所以就出现了XML语言。XML (eXtensible Markup Language)语言是SGML语言的子集，它保留了SGML主要的使用功能，同时大大缩减了SGML的复杂性。XML语言系统建立的目的就是使它不仅能够表示文档的内容，而且可以表示文档的结构，这样在同时能够被人类理解的同时，也能够被机器所理解。XML要求遵循一定的严格的标准。XML分析程序比HTML浏览器更加要挑剔语法和结构，XML要求正在创建的网页正确的使用语法和结构，而不是象HTML一样，通过浏览器推测文档中应该是什么东西来实现HTML的显示，XML使得分析程序不论在性能还是稳定性方面都更容易实现。XML文档每次的分析结果都是一致的，不象HTML，不同的浏览器可能对同一个HTML作出不同的分析和显示。

　　同时因为分析程序不需要花时间重建不完整的文档，所以它们能比同类HTML能更有效地执行其任务。它们能全力以赴地根据已经包含在文档中的那个树结构建造出相应的树来，而不用在信息流中的混合结构的基础上进行显示。XML标准是对数据的处理应用，而不是只针对Web网页的。任何类型的应用都可以在分析程序的上面进行建造，浏览器只是XML的一个小的组成部分。当然，浏览仍旧极其重要，因为它为XML工作人员提供用于阅读信息的友好工具。但对更大的项目来说它就不过是一个显示窗口。因为XML具有严格的语法结构，所以我们甚至可以用XML来定义一个应用层的通讯协议，比如互联网开放贸易协议(Internet Open Trading Protocol)就是用XML来定义的。从某种意义上说，以前我们用BNF范式定义的一些协议和格式从原则上说都可以用XML来定义。实际上，如果我们有足够的耐心，我们完全可以用XML来定义一个C++语言的规范。

　　当然，XML允许大量HTML样式的形式自由的开发，但是它对规则的要求更加严格。XML主要有三个要素：DTD(Document Type Declaration——文档类型声明)或XML Schema(XML大纲)、XSL(eXtensible Stylesheet Language——可扩展样式语言)和XLink(eXtensible Link Language——可扩展链接语言)。DTD和XML大纲规定了XML文件的逻辑结构，定义了XML文件中的元素、元素的属性以及元素和元素的属性之间的关系；Namespace(名域)实现统一的XML文档数据表示以及数据的相互集成；XSL是用于规定XML文档呈现样式的语言，它使得数据与其表现形式相互独立，比如XSL能使Web浏览器改变文档的表示法，例如数据的显示顺序的变化，不需要再与服务器进行通讯。通过改变样式表，同一个文档可以显示得更大，或者经过折叠只显示外面得一层，或者可以变为打印得格式。而XLink将进一步扩展目前Web上已有的简单链接。
　二、实现XML解析的说明

　　当然，从理论上说，根据XML的格式定义，我们可以自己编写一个XML的语法分析器，但是实际上微软已经给我们提供了一个XML语法解析器，如果你安装了IE5.0以上版本的话，实际上你就已经安装了XML语法解析器。可以从微软站点(www.microsoft.com)下载最新的MSXML的SDK和Parser文件。它是一个叫做MSXML.DLL的动态链接库，最新版本为msxml3，实际上它是一个COM对象库，里面封装了所有进行XML解析所需要的所有必要的对象。因为COM是一种以二进制格式出现的和语言无关的可重用对象。所以你可以用任何语言(比如VB，VC，DELPHI，C++ Builder甚至是剧本语言等等)对它进行调用，在你的应用中实现对XML文档的解析。下面的关于XML文档对象模型的介绍是基于微软最新的msxml3为基础进行的。

　　三、XML文档对象(XML DOM)模型分析

　　XML DOM对象提供了一个标准的方法来操作存储在XML文档中的信息，DOM应用编程接口(API)用来作为应用程序和XML文档之间的桥梁。

　　DOM可以认为是一个标准的结构体系用来连接文档和应用程序(也可以是剧本语言)。MSXML解析器允许你装载和创建一个文档，收集文档的错误信息，得到和操作文档中的所有的信息和结构，并把文档保存在一个XML文件中。DOM提供给用户一个接口来装载、到达和操作并序列化XML文档。DOM提供了对存储在内存中的XML文档的一个完全的表示，提供了可以随机访问整个文档的方法。DOM允许应用程序根据MSXML解析器提供的逻辑结构来操作XML文档中的信息。利用MSXML所提供的接口来操作XML。

　　实际上MSXML解析器根据XML文档生成一个DOM树结构，它能够读XML文档并根据XML文档内容创建一个节点的逻辑结构，文档本身被认为是一个包含了所有其他节点的节点。

　　DOM使用户能够把文档看成是一个有结构的信息树，而不是简单的文本流。这样应用程序或者是剧本即使不知道XML的语义细节也能够方便的操作该结构。DOM包含两个关键的抽象：一个树状的层次、另一个是用来表示文档内容和结构的节点集合。树状层次包括了所有这些节点，节点本身也可以包含其他的节点。这样的好处是对于开发人员来说，他可以通过这个层次结构来找到并修改相应的某一个节点的信息。DOM把节点看成是一个通常的对象，这样就有可能创建一个剧本来装载一个文档，然后遍历所有的节点，显示感兴趣的节点的信息。注意节点可以有很多中具体的类型，比如元素、属性和文本都可以认为是一个节点。

　　微软的MSXML解析器读一个XML文档，然后把它的内容解析到一个抽象的信息容器中称为节点(NODES)。这些节点代表文档的结构和内容，并允许应用程序来读和操作文档中的信息而不需要显示的知道XML的语义。在一个文档被解析以后，它的节点能够在任何时候被浏览而不需要保持一定的顺序。

　　对开发人员来说，最重要的编程对象是DOMDocument。DOMDocument对象通过暴露属性和方法来允许你浏览，查询和修改XML文档的内容和结构，每一个接下来的对象暴露自己的属性和方法，这样你就能够收集关于对象实例的信息，操作对象的值和结构，并导航到树的其他对象上去。

　MSXML.DLL所包括的主要的COM接口有：

　　(1)DOMDocument

　　DOMDocument对象是XML DOM的基础，你可以利用它所暴露的属性和方法来允许你浏览、查询和修改XML文档的内容和结构。DOMDocument表示了树的顶层节点。它实现了DOM文档的所有的基本的方法并且提供了额外的成员函数来支持XSL和XSLT。它创建了一个文档对象，所有其他的对象都可以从这个文档对象中得到和创建。

　　(2)IXMLDOMNode

　　IXMLDOMNode是文档对象模型(DOM)中的基本的对象，元素，属性，注释，过程指令和其他的文档组件都可以认为是IXMLDOMNode，事实上，DOMDocument对象本身也是一个IXMLDOMNode对象。

　　(3)IXMLDOMNodeList

　　IXMLDOMNodeList实际上是一个节点(Node)对象的集合，节点的增加、删除和变化都可以在集合中立刻反映出来，可以通过“for...next”结构来遍历所有的节点。

　　(4)IXMLDOMParseError

　　IXMLDOMParseError接口用来返回在解析过程中所出现的详细的信息，包括错误号，行号，字符位置和文本描述。

　　下面主要描述一个DOMDocument对象的创建过程，这里我们用VC描述创建一个文档对象的过程。

　　HRESULT hr;

　　IXMLDomDocument* pXMLDoc;

　　IXMLDOMNode* pXDN;

　　Hr=CoInitialize(NULL); //COM的初始化

　　//得到关于IXMLDOMDocument接口的指针pXMLDOC。

　　hr=CoCreateInstance(CLSID_DOMDocument,NULL,CLSCTX_INPPROC_SERVER,

　　IID_IXMLDOMDocument,(void**)&pXMLDoc);

　　//得到关于IXMLDOMNode接口的指针pXDN。

　　hr=pXMLDoc->QueryInterface(IID_IXMLDOMNode,(void**)&pXDN);

　　在MSXML解析器使用过程中，我们可以使用文档中的createElement方法来创建一个节点装载和保存XML文件。通过load或者是loadXML方法可以从一个指定的URL来装载一个XML文档。Load(LoadXML)方法带有两个参数：第一个参数xmlSource表示需要被解析的文档，第二个参数isSuccessful表示文档装载是否成功。Save方法是用来把文档保存到一个指定的位置。Save方法有一个参数destination用来表示需要保存的对象的类型，对象可以是一个文件，一个ASP Response方法，一个XML文档对象，或者是一个能够支持持久保存(persistence)的客户对象。下面是save方法使用的一个简单的例子(具体程序请参见http://www.swm.com.cn/swm/200101/利用MSXML解析XML文本)。

　　同时，在解析过程中，我们需要得到和设置解析标志。利用不同的解析标志，我们可能以不同的方法来解析一个XML文档。XML标准允许解析器验证或者不验证文档，允许不验证文档的解析过程跳过对外部资源的提取。另外，你可能设置标志来表明你是否要从文档中移去多余的空格。

　　为了达到这个目的，DOMDocument对象暴露了下面几个属性，允许用户在运行的时候改变解析器的行为：

　　(1)Async(相对于C++是两个方法，分别为get_async和put_async)

　　(2)ValidateOnparse (相对于C++是两个方法，分别为get_validateOnParse和 put_validateOnParse)

　　(3)ResolveExternals(相对于C++是两个方法，分别为get_ ResolveExternals和put_ ResolveExternals)

　　(4)PersercveWhiteSpace(相对于C++是两个方法，分别为get_ PersercveWhiteSpace和put_ PersercveWhiteSpace)

　　每一个属性可以接受或者返回一个Boolean值。缺省的，anync,validateOnParse,resolveExternals的值为TRUE，perserveWhiteSpace的值跟XML文档的设置有关，如果XML文档中设置了xml:space属性的话，该值为FALSE。

　　同时在文档解析过程中可以收集一些和文档信息的信息，实际上在文档解析过程中可以得到以下的信息：

　　(1)doctype(文档类型)：实际上是和用来定义文档格式的DTD文件。如果XML文档没有相关的DTD文档的话，它就返回NULL。

　　(2)implementation(实现)：表示该文档的实现，实际上就是用来指出当前文档所支持的XML的版本。

　　(3)parseError(解析错误)：在解析过程中最后所发生的错误。

　　(4)readyState(状态信息)：表示XML文档的状态信息，readyState对于异步使用微软的XML解析器来说的重要作用是提高了性能，当异步装载XML文档的时候，你的程序可能需要检查解析的状态，MSXML提供了四个状态，分别为正在状态，已经状态，正在解析和解析完成。

　　(5)url(统一资源定位)：关于正在被装载和解析的XML文档的URL的情况。注意如果该文档是在内存中建立的话，这个属性返回NULL值。

　　在得到文档树结构以后，我们可以操作树中的每一个节点，可以通过两个方法得到树中的节点，分别为nodeFromID和getElementsByTagName。

　　nodeFromID包括两个参数，第一个参数idString用来表示ID值，第二个参数node返回指向和该ID相匹配的NODE节点的接口指针。注意根据XML的技术规定，每一个XML文档中的ID值必须是唯一的而且一个元素(element)仅且只能和一个ID相关联。

　　getElementsByTagName方法有两个参数，第一个参数tagName表示需要查找的元素(Element)的名称，如果tagName为“*”的话返回文档中所有的元素(Element)。第二个参数为resultList,它实际是指向接口IXMLDOMNodeList的指针，用来返回和tagName(标签名字)相关的所有的Node的集合。

　下面是一个简单的例子

　　下面是save方法使用的一个简单的例子：

　　BOOL DOMDocSaveLocation()

　　{

　　BOOL bResult = FALSE;

　　IXMLDOMDocument *pIXMLDOMDocument = NULL;

　　HRESULT hr;

　　try

　　{

　　_variant_t varString = _T("D:\\sample.xml");

　　// 这里需要创建一个DOMDocument对象和装载XML文档，代码省略.

　　hr = pIXMLDOMDocument->save(varString); //保存文档到D:\\sample.xml中去。

　　if(SUCCEEDED(hr))

　　bResult = TRUE;

　　}

　　catch(...)

　　{

　　DisplayErrorToUser();

　　// 这里需要释放对IXMLDOMDocument接口的引用，代码省略。

　　}

　　return bResult;

　　}

　　例子2

　　IXMLDOMDocument *pIXMLDOMDocument = NULL;

　　wstring strFindText (_T("author"));

　　IXMLDOMNodeList *pIDOMNodeList = NULL;

　　IXMLDOMNode *pIDOMNode = NULL;

　　long value;

　　BSTR bstrItemText;

　　HRESULT hr;

　　try

　　{

　　// 创建一个DOMDocument文档对象，并装载具体文档，相关代码省略。

　　//下面的代码用来得到一个和标签名称author相关的所有的节点集合

　　hr = pIXMLDOMDocument->getElementsByTagName(

　　(TCHAR*)strFindText.data(), &pIDOMNodeList);

　　SUCCEEDED(hr) ? 0 : throw hr;

　　//是否正确的得到了指向IDOMNodeList的指针。

　　hr = pIDOMNodeList->get_length(&value); //得到所包含的NODE节点的个数

　　if(SUCCEEDED(hr))

　　{

　　pIDOMNodeList->reset();

　　for(int ii = 0; ii < value; ii++)

　　{

　　//得到具体的一个NODE节点

　　pIDOMNodeList->get_item(ii, &pIDOMNode);

　　if(pIDOMNode )

　　{

　　pIDOMNode->get_text(&bstrItemText); //得到该节点相关的文本信息

　　::MessageBox(NULL, bstrItemText,strFindText.data(), MB_OK);

　　pIDOMNode->Release();

　　pIDOMNode = NULL;

　　}

　　}

　　}

　　pIDOMNodeList->Release();

　　pIDOMNodeList = NULL;

　　}

　　catch(...)

　　{

　　if(pIDOMNodeList)

　　pIDOMNodeList->Release();

　　if(pIDOMNode)

　　pIDOMNode->Release();

　　DisplayErrorToUser();

　　}

　　简单的实例程序

　　#include < atlbase.h>

　　//下面的.h文件是在安装了最新的XML Parser以后所包含的.h文件。

　　#include "C:\Program Files\Microsoft XML Parser SDK\inc\msxml2.h"

　　#include < iostream>

　　void main()

　　{

　　// 初始化COM接口

　　CoInitialize(NULL);

　　//在程序中，我们假定我们装载的XML文件名称为xmldata.xml,它缺省的和可执行文

　　//件在同一个目录中。该文件的内容如下：

　　// < ?xml version="1.0"?>

　　// < xmldata>

　　// < xmlnode />

　　// < xmltext>Hello, World!< / xmltext>

　　// < /xmldata>

　　//

　　//程序将寻找名为“xmlnode”的节点，然后插入一个新的名称为“xmlchildnode”的

　　//节点，然后它去寻找一个名为“xmltest”的节点，然后提取包含在节点中的文本并显

　　//示它。最后它把新的改变过的XML文档保存在名称为“updatexml.xml”的文档中。

　　try {

　　// 通过智能指针创建一个解析器的实例。

　　CComPtr< IXMLDOMDocument> spXMLDOM;

　　HRESULT hr = spXMLDOM.CoCreateInstance(__uuidof(DOMDocument));

　　if ( FAILED(hr) ) throw "不能创建XML Parser对象";

　　if ( spXMLDOM.p == NULL ) throw "不能创建XML Parser对象";

　　// 如果对象创建成功的话，就开始装载XML文档

　　VARIANT_BOOL bSuccess = false;

　　hr = spXMLDOM->load(CComVariant(L"xmldata.xml"),&bSuccess);

　　if ( FAILED(hr) ) throw "不能够在解析器中装载XML文档";

　　if ( !bSuccess ) throw "不能够在解析器中装载XML文档";

　　// 检查并搜索"xmldata/xmlnode"

　　CComBSTR bstrSS(L"xmldata/xmlnode");

　　CComPtr< IXMLDOMNode> spXMLNode;

　　//用接口IXMLDOMDocument的方法selectSingleNode方法定位该节点

　　hr = spXMLDOM->selectSingleNode(bstrSS,&spXMLNode);

　　if ( FAILED(hr) ) throw "不能在XML节点中定位'xmlnode' ";

　　if ( spXMLNode.p == NULL ) throw "不能在XML节点中定位'xmlnode' ";

　　//DOM对象“spXMLNode”现在包含了XML节点< xmlnode>，所以我们可以在

　　//它下面创建一个子节点并把找到的该节点作为它的父节点。

　　CComPtr< IXMLDOMNode> spXMLChildNode;

　　//用接口IXMLDOMDocument的方法createNode方法创建一个新节点。

　　hr = spXMLDOM->createNode(

　　CComVariant(NODE_ELEMENT),

　　CComBSTR("xmlchildnode"),

　　NULL,&spXMLChildNode);

　　if ( FAILED(hr) ) throw "不能创建'xmlchildnode' 节点";

　　if ( spXMLChildNode.p == NULL )

　　throw "不能创建'xmlchildnode' 节点";

　　//添加新节点到spXMLNode节点下去。

　　CComPtr< IXMLDOMNode> spInsertedNode;

　　hr = spXMLNode->appendChild(spXMLChildNode,&spInsertedNode);

　　if ( FAILED(hr) ) throw "不能创建'xmlchildnode' 节点";

　　if ( spInsertedNode.p == NULL ) throw "不能移动'xmlchildnode' 节点";

　　//对新节点添加属性。

　　CComQIPtr< IXMLDOMElement> spXMLChildElement;

　　spXMLChildElement = spInsertedNode;

　　if ( spXMLChildElement.p == NULL )

　　throw "不能在XML元素接口中查询到'xmlchildnode' ";

　　//设置新节点的属性

　　hr = spXMLChildElement->setAttribute(CComBSTR(L"xml"),CComVariant(L"fun"));

　　if ( FAILED(hr) ) throw "不能插入新的属性";

　　//下面的程序段用来寻找一个节点并显示该节点的相关信息

　　// 查找"xmldata/xmltext"节点

　　spXMLNode = NULL; // 释放先前的节点

　　bstrSS = L"xmldata/xmltext";

　　hr = spXMLDOM->selectSingleNode(bstrSS,&spXMLNode);

　　if ( FAILED(hr) ) throw "不能定位'xmltext'节点";

　　if ( spXMLNode.p == NULL ) throw "不能定位'xmltext'节点";

　　// 得到该节点包含的文本并显示它

　　CComVariant varValue(VT_EMPTY);

　　hr = spXMLNode->get_nodeTypedValue(&varValue);

　　if ( FAILED(hr) ) throw "不能提取'xmltext'文本";

　　if ( varValue.vt == VT_BSTR ) {

　　// 显示结果，注意这里要把字符串从形式BSTR转化为ANSI

　　USES_CONVERSION;

　　LPTSTR lpstrMsg = W2T(varValue.bstrVal);

　　std::cout < < lpstrMsg < < std::endl;

　　} // if

　　else {

　　// 如果出现错误

　　throw "不能提取'xmltext'文本";

　　} // else

　　//保存修改过的XML文档到指定的文档名

　　hr = spXMLDOM->save(CComVariant("updatedxml.xml"));

　　if ( FAILED(hr) ) throw "不能保存修改过的XML文档";

　　std::cout < < "处理完成..." < < std::endl < < std::endl;

　　} // try

　　catch(char* lpstrErr) {

　　// 出现错误

　　std::cout < < lpstrErr < < std::endl < < std::endl;

　　} // catch

　　catch(...) {

　　// 未知错误

　　std::cout < < "未知错误..." < < std::endl < < std::endl;

　　} // catch

　　// 结束对COM的使用

　　CoUninitialize();

　　}

　　最后我们讨论一下如何来创建新的节点，实际上可以通过方法createNode来创建一个新的节点。CreateNode包括四个参数，第一个参数Type表示要创建的节点的类型，第二个参数name表示新节点的nodeName的值，第三个参数namespaceURI表示该节点相关的名字空间，第四个参数node表示新创建的节点。注意可以通过使用已经提供的类型(Type)，名称(name)和名字空间(nodeName)来创建一个节点。

　　当一个节点被创建的时候，它实际上是在一个名字空间范围(如果已经提供了名字空间的话)内创建的。如果没有提供名字空间的话，它实际上是在文档的名字空间范围内创建的。

　　四、利用MSXML进行XML文档分析的简单实例

　　为了说明如何在VC中使用XML DOM模型，这里我们显示了一个简单的实例程序(具体程序请参见www.swm.com.cn/swm/200101/利用MSXML解析XML文本)，是一个Console Application。下面是主要的程序代码，本代码用来在一个XML文档中定位一个特殊的Node节点，并插入一个新的子节点。

　　五、总结

　　XML文档因为有着比HTML严格的多的语法要求，所以使用和编写一个XML解析器要比编写一个HTML的解析器要容易的多。同时因为XML文档不仅可以标记文档的显示属性，更重要的是它标记了文档的结构和包含信息的特征，所以我们可以方便的通过XML解析器来获取特定节点的信息并加以显示或修改，方便了用户对XML文档的操作和维护。同时我们需要注意的是XML是一种开放的结构体系并不依赖于任何一家公司，所以开发基于XML的应用必然会得到绝大多数软件开发平台的支持。另外，我们也可以看到，象微软这样的软件开发主流企业也把目光定位在基于XML+COM的体系上，无论是微软的Office系列、Web服务器和浏览器还是数据库产品(SQL Server)都已经开始支持基于XML的应用。通过XML来定制应用程序的前端，COM来实现具体的业务对象和数据库对象，使系统具有更加灵活的扩展性和维护性。

更多技术文章请参看施昌权的个人网站： http://www.joyvc.cn

python爬取自如网房源信息 2401_87368790 python 开发语言
本次爬取自如网房源信息所用到的知识点:requestsget请求lxml解析htmlXpathMongoDB存储正文分析目标站点url:http://hz.ziroom.com/z/nl/z3.html?p=2的p参数控制分页get请求获取单页源码--coding:utf-8--importrequestsimporttimefromrequests.exceptionsimportRequest
Python基础—用python读取xml文件！小尤笔记 python xml 开发语言
读取XML文件在Python中是一个常见的任务，通常可以使用内置的xml.etree.ElementTree模块来完成。这个模块提供了简单而高效的XML解析和生成功能。下面是一个详细的代码示例和讲解，展示了如何使用xml.etree.ElementTree来读取XML文件。代码示例假设我们有一个名为example.xml的XML文件，内容如下：120081411004201159900我们的目标是
python html解析查找字符串_python爬虫之html解析Beautifulsoup和Xpath 邓凌佳 python html解析查找字符串
BeautiifulsoupBeautifulSoup是一个HTML/XML的解析器，主要的功能也是如何解析和提取HTML/XML数据。BeautifulSoup用来解析HTML比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持lxml的XML解析器。BeautifulSoup3目前已经停止开发，推荐现在的项目使用BeautifulSoup4。Beautii
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
【网络安全】漏洞挖掘之CVE-2019-9670+检测工具秋说网络安全 web安全漏洞挖掘 CVE
未经许可，不得转载。文章目录漏洞介绍正文工具漏洞介绍CVE-2019-9670是一个与ZimbraCollaborationSuite(ZCS)相关的严重漏洞。ZCS中的AutoDiscover服务存在不正确的XML解析处理，该漏洞可被利用来注入恶意XML代码（例如外部实体注入（XXE）攻击），从而导致服务器任意文件读取或远程代码执行(RCE)。Zimbra]>
第 2-2 课：深入探究底层原理，应用更加得心应手 Java大联盟案例上手 Spring 全家桶 Spring Spring Boot Spring Cloud Spring MVC Spring Spring Boot Spring
前言上一讲我们学习了SpringMVC框架的使用，为了更好地理解这个框架，本讲来仿写一个SpringMVC框架，用到的技术比较简单，只需要XML解析+反射就可以完成，不需要JDK动态代理。自己手写框架的前提是必须理解框架的底层原理和运行机制，因此我们还是先来回顾一下SpringMVC的实现原理。SpringMVC实现原理SpringMVC的核心组件和工作流程的内容具体可以参考第2-1讲的内容，通过
Java 中处理 XML 文件 goTsHgo Java basic Java java xml 前端
在Java中处理XML文件，通常使用两种主要的解析方式：DOM解析和SAX解析。每种解析方式各有优劣，适用于不同的场景。下面详细解释这两种XML解析方法的基本原理、适用场景、共性规律、注意事项和特殊技巧。1.DOM解析(DocumentObjectModel)基本原理DOM解析是一种基于内存的解析方式。它会将整个XML文档一次性加载到内存中，构建一个树形结构，表示XML文档的层次关系。开发者可以遍
【原创】Unity3D 游戏项目实例教程之 Xml 数据解析器 chuiyanbang9039 游戏
由于自己项目中使用XML作为配置文件，为了解析起来方便，其实更加方便的是解析XML的.cs文件都通过程序去生成，读者可以自己去实现，下面是XML解析器，仅供大家参考！先来看看最终使用例子的代码（在我们的项目中，我们需要借助上一篇的资源加载管理器来预先加载我们的配置文件）：using UnityEngine;using System.Collections;public class LoaderXm
5、设计与实现资源加载器，从Spring.xml解析和注册Bean对象大树~~ #Spring手写系列数据库 java 开发语言 spring 后端
在Spring框架的核心设计中，Bean工厂和资源加载器是两个非常重要的模块。理解它们的设计和实现对于掌握Spring的核心机制具有重要意义。在这篇文章中，我们将详细探讨Spring框架中Bean工厂的设计原理、资源加载的实现机制、如何解析Bean定义并将其注册到Spring容器中。通过这些内容，读者不仅能够理解Spring框架的设计思想，还能够借鉴这些设计模式来优化自己的代码架构。一、前言在实际
java xml 转json json 转 json对象在下，杨江河遇到的问题 java xml json
xml转json在Java中将XML转换为JSON是一个常见的需求，尤其是在处理Web服务或数据交换时。有多种库可以帮助你完成这项任务，但其中最流行和广泛使用的一个是org.json（虽然它本身不直接支持XML到JSON的转换，但可以通过解析XML然后构建JSON来实现）和com.fasterxml.jackson.dataformat.xml（Jackson库的一个扩展，可以直接从XML解析到J
python web自动化 gaoguide2015 自动化脚本 web html
1.python爬虫之模拟登陆csdn(登录、cookie)http://blog.csdn.net/yanggd1987/article/details/52127436?locationNum=32、xml解析：Python网页解析：BeautifulSoup与lxml.html方式对比（xpath）lxml库速度快，功能强大，推荐。http://blog.sina.com.cn/s/blog
java解析xml大文件工具类_xml解析工具类 weixin_39963830 java解析xml大文件工具类
创建一个xml解析工具类，了解其解析原理。全程使用封装思想。需求：创建一个xml解析工具类，通过用户指定的id值或者class文件路径判断其是否存在，如果存在就返回相对应的对象，如果不存在就返回null；需要用到的知识：【变量定义，数据类型转换，控制语句，循环，自定义方法，类的定义，多态，集合框架，IO流，异常体系，反射，xml解析等知识】工具类封装代码：packagecn.yun.xmldom;
java生成xml 换行符_如何在XML文件中添加换行符（换行符）？有一失物 java生成xml 换行符
甲换行符(又名行中断或结束时的线，EOL)是标记文本行的末尾特殊字符或字符序列。所使用的确切代码因操作系统而异：LF:UnixCR:MacOSuptoversion9CR+LF:Windows,DOS您可以将其用于换行(LF)或用于回车(CR)，并且在将解析的文本传递给应用程序时，XML解析器会将其替换为相应的字符。如示例所示，可以手动添加它们，但是在需要以编程方式在字符串中添加换行符时，这些操作
第二十六章定制SAX解析器的使用方式 Cache技术分享
第二十六章定制SAX解析器的使用方式每当InterSystemsIRIS读取XML文档时，它都会使用InterSystemsIRISSAX(SimpleAPIForXML)解析器。本章介绍用于控制系统间IRISSAX解析器的选项。关于IRISSAX解析器每当InterSystemsIRIS读取XML文档时，都会使用InterSystemsIRISSAX解析器。它是一个事件驱动的XML解析器，读取X
bpmn-js中实现xml数据转为json数据胖蔡 Bpmn-js 流程建模器实战 javascript xml json bpmn-js
开发bpmn-js建模器，希望将bpmn数据格式转为json数据格式更加清晰的展示数据层次，以结果为导向分析需求，实现功能的思路有两种方式：通过bpmn-js转化为JS数据对象，然后通过JS中提供的JSON模块转换为json数据将xml解析成dom对象，通过dom对象转化为json格式数据三方库这里主要介绍上面两种方式，三方库转换如xml-js或x2js详细使用查看官方使用教程。对象转换bpmn-
XML解析之Sax解析王魔王
不熟悉xml的同学可以先阅读下面两篇帖子xml基础https://www.jianshu.com/p/f61953320a43xml语法https://www.jianshu.com/p/361a2cb6d3e5XML解析中有两种解析思想：pull解析sax解析注意是解析思想本篇帖子讲解sax解析与pull解析是把整个xml文档加载到内存中不同，sax解析是逐行解析xml文档的，其解析的过程并不需
android高级ui01-自定义view- 亢正
学习笔记，整理中摘要面1、layoutparams:xml的属性转换为java用的格式2、面必问：measurespec------------------------------------主要讲自定义viewgroup,viewpager1、所有的xml解析都在layoutinflater里面2、自定义view至少3个构造函数，javanewview调用；xml反射调用；不同主题调用；自定义属
IOS-OC-json解析和XML解析代码案列草根小强
json解析#import#import"Model.h"#import"JSON.h"intmain(intargc,constchar*argv[]){@autoreleasepool{NSString*path=@"/Users/qianfeng/Desktop/OC课堂老师代码/oc上课代码/1231/easy.json";//系统自带方法的解析NSData*data=[NSDatadat
如何使用Python和正则表达式处理XML表单数据
处理XML数据时，Python提供了多种工具，其中包括ElementTree和minidom等。然而，使用正则表达式来处理XML数据并不是一个推荐的做法。XML是一种嵌套结构，而正则表达式对于处理这种嵌套结构的数据并不擅长。更好的方式是使用Python的XML解析库，如ElementTree。以下是一个简单的使用ElementTree处理XML数据的例子：importxml.etree.Eleme
Javaweb基础-tomcat，servlet tmy99 java servlet 开发语言
一.配置文件基础：properties配置文件：由键值对组成键和值之间的符号是等号每一行都必须顶格写，前面不能有空格之类的其他符号xml配置文件：（xml语法=HTML语法+HTML约束）xml约束-DTD/SchemaDOM4J进行XML解析：（jar包dom4j.jar）1.创建SAXReader对象SAXReadersaxReader=newSAXReader();2.解析XML获取Docu
网页解析神器-Selector选择器全面解析越大大雨天
本文主要参照scrapy最新官方文档编写。官方文档直达链接：https://docs.scrapy.org/en/latest/topics/selectors.html大部分人可能喜欢使用以下三个解析器对网页进行解析：BeautifulSoup：使用方便，支css选择器，但它有个不可忽视的缺点:慢。lxml解析库：采用xpath解析，速度快。pyquery：它提供了和jQuery类似的语法来解析
3 IOC容器 ca8519be679b
知识点将要讲解如下1IOC底层原理2IOC接口卡BeanFactory3IOC操作Bean管理（基于xml）4IOC操作Bean管理（基于注解）IOC原理和概念1什么是IOC？控制反转，用于降低你代码的耦合度。说的通俗点，我们原始创建对象是new对象，而IOC是解耦处理，将对象创建和调用过程交给spring管理，我们入门的案例就是IOC实现2IOC底层原理底层主要用到3个，xml解析、工厂模式、反
数据结构大作业-DBLP科学文献管理系统（一） XML解析，文件哈希，C++线程 Sugarzo 数据结构 xml c++linq
在程序中，需要解析的DBLB文件大小为3G-4G的。因此每次启动程序前都读取一遍DBLP并全部写入内存的方法是不现实的，这需要我们提前在磁盘中建立对应的数据库文件，在第一次打开程序时进行建立数据库的操作，将需要的数据写入磁盘。之后对DBLP的数据查询只需要打开已经建立好的数据库进行IO操作即可。由于数据在磁盘和内存中的读取速度差距极大，在磁盘中删改添加数据效率是很低的，因此如何建立对应数据的索引，
c#加载xml属性_从XML加载属性 cusi77914 java python xml 编程语言 linux
1.5之前的J2SE版本要求您直接使用XML解析器来加载配置文件和存储设置。尽管这从来都不是一件容易的事，并且解析器是平台的标准组成部分，但是额外的工作还是有些烦人。现在，新更新的java.util.Properties类为加载和存储程序设置提供了一种更简便的方法：loadFromXML(InputStreamis)和storeToXML(OutputStreamos,Stringcomment)
顶级 Javaer 都在使用的类库，真香！近咫／＼ぃ天涯 java 后端 guava junit
目录前言1.日志库2.JSON解析库3.单元测试库4.通用库5.HTTP库6.XML解析库7.Excel阅读库8.字节码库9.数据库连接池库10.消息库11.PDF库12.日期和时间库13.集合库14.电子邮件API15.HTML解析库16.密码库17.嵌入式SQL数据库库18.JDBC故障排除库19.序列化库20.网络库前言优秀且经验丰富的Java开发人员的特点之一是对API的广泛了解，包括JD
【笔记】Python3｜爬虫处理网页数据异步加载问题（结合Selenium完成） shandianchengzi 笔记代码 python 爬虫 selenium lxml requests
文章目录问题描述1.结合Selenium、Edge解析该网站搜索页面的数据2.结合lxml解析网页数据3.附加：不是异步加载的网页，结合requests直接请求数据问题描述一些网站会有很多的重定向，才能跳转到真实的资源页。然后爬虫就会报错：requests.exceptions.TooManyRedirects:Exceeded30redirects.这种情况，可以直接关掉重定向，判断响应状态是3
XXE攻击原理这是什么娃哈哈
1简述XXE（XMLExternalEntity）是指xml外部实体攻击漏洞。XML外部实体攻击是针对解析XML输入的应用程序的一种攻击。当包含对外部实体的引用的XML输入被弱配置XML解析器处理时，就会发生这种攻击。这种攻击通过构造恶意内容，可导致读取任意文件、执行系统命令、探测内网端口、攻击内网网站等危害。2XML结构介绍要了解XXE漏洞，那么一定要先学习一下有关XML的基础知识。XML被设计
go基于gin框架后端服务的插件化开发(附带xml解析实操) docker真的爽爆了 golang gin xml 中间件微服务
Go基于GIN框架的插件化开发简言上期实现了用户的注册登录效果，这期则是实现插件化开发，可以让你的作品更“灵活”。还有xml的相关配置和上期用户注册登录相比，就多了个prepare.go,主要负责项目启动后的初始化，读取配置文件啊什么的还有就是server.go增加了一个新的路由组(Extensiongroup)varExtensiongroup=engine.Group("/extensions
C++设计模式-简单工厂模式，工厂方法模式，抽象工厂模式 vczxh c++设计模式简单工厂模式工厂方法模式
目录简单工厂模式，工厂方法模式，抽象工厂模式附：简单工厂模式，工厂方法模式，抽象工厂模式简单工厂模式：根据字符串参数返回对象。工厂方法模式：创建一维对象，即一个工厂创建一个产品。抽象工厂模式：创建二维对象，即一个工厂创建多个产品。形成一个表格，例如型号a,b,c和系列1,2,3对应产品可以有a1,a2,a3,b1,b2,b3,c1...等。附：builder模式：根据xml解析为内存对象。sing
springboot下XML解析狼吻小红帽
需求：互联互通定量评审，通过23个入参XML访问webService,得到相应的出参XML。针对入参需要根据前端传入的param替换入参XML模板中特定标识；针对出参需要根据出参XML模板中特定标识，找到通过入参XML访问webService后得到的出参XML在该特定标识位置的值，取出来组成一个Object返回给前端。记录下开发该工具所遇问题，以及解决方案。question1：获取XML文件内容a
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

利用MSXML解析XML文本(VC)

你可能感兴趣的:(xml解析)