carl_java

XML解析技术研究

摘要：XML作为过去十年中出现的最流行的技术之一，得到了广泛的应用，而其中XML解析技术是XML应用的关键。本文介绍了XML解析技术的研究动向，分析和比较了4种XML解析技术的优劣，并归纳总结了应用系统设计中选取合适的XML解析技术的原则。
1 引言
XML(eXtensible Markup Language，可扩展标记语言)是由World Wide Web联盟(W3C)定义的元语言，即一种关于语言的语言。XML的设计源于SGML (Standard Generalized Markup Language，标淮通用标记语言) ，是SGML的子集，其目的是为了促进Internet上结构化文档的交换。简单的说，XML是一组规则和准则的集合，用于以无格式文本来描述结构化数据[1]。1996年W3C联盟就开始从事XML的标准化工作，并于1998年2月10日发布了XML1.0。

XML的出现给分布式计算领域带来了重大影响，其力量源于它的数据独立性[1]。XML是纯数据描述，与编程语言、操作系统或传输协议无关，从而将数据从以代码为中心的基础结构所产生的约束中解放出来，让数据能够在Web上更自由的流通。

然而XML本身只是以纯文本对数据进行编码的一种格式，要想利用XML，或者说利用XML文件中所编码的数据，必须先将数据从纯文本中解析出来，因此，必须有一个能够识别XML文档中信息的解析器，用来解释XML文档并提取其中的数据。然而，根据数据提取的不同需求，又存在着多种解析方式，不同的解析方式有着各自的优缺点和适用环境。选择合适的XML解析技术能够有效提升应用系统的整体性能，因此，了解和区分各种不同的XML解析技术就显得尤为重要。

2 XML解析技术分析
所有的XML处理都从解析开始，无论是使用XSLT或Java语言，第一步都是要读入XML文件，解码结构和检索信息等等，这就是解析，即把代表XML文档的一个无结构的字符序列转换为满足XML语法的结构化组件的过程。

2.1 XML解析技术的分类
根据从XML中获取数据的简易性，性能和最终所得到的数据模型的不同，XML解析技术大致可分为以下四类：

1)       面向文档的流式解析；

2)       面向文档的对象式解析；

3)       面向文档的指针式解析；

4)       面向应用的对象式解析；

这四类解析技术分别处于不同的抽象层次，适用于不同的应用场景，有着各自的优缺点。针对具体的应用需求，选择合适的解析技术，往往能够减少内存消耗，缩短处理时间，更方便地获取数据，提高应用系统的整体性能。

2.2 面向文档的流式解析技术
流式解析是一种基于事件的解析过程，解析器顺序读取XML文档，产生一个对应的事件流，并向事件处理程序发送所捕获的各种事件，如元素开始和元素结束等，而事件处理程序则通过不同的方法处理这些事件。

流式解析是将XML文档作为一个数据流来处理，因此，它具有类似于流媒体的优点，能够立即开始读取数据，而不是等待所有的数据被处理。而且，由于应用程序只是在读取数据时检查数据，不需要将整个文档一次加载到内存中，使得在处理大型文档时具有较好的时间和空间上的效率。然而效率的代价是易用性的降低，流式解析编程较为复杂，程序员需要负责更多的操作。并且由于应用程序没有以任何方式存储数据，所以使得更改数据或在数据流中往后移是不可能的。再加上它的单遍解析特性，意味着它也不支持随机访问。

流式解析又分为两种解析方式：推式解析(SAX)和拉式解析(StAX)。这两种方式的主要区别在于是由解析器还是应用程序控制读循环(读入文件的循环)。

2.2.1 推式解析(SAX解析技术)SAX(Simple API for XML)解析技术就是一种推式解析，在这种解析方式中，解析器控制着读循环，在文档结束之前控制权不会返回给应用程序[3]。解析器通过回调的方式进行数据处理。

SAX提供了一个用于处理XML的，基于事件驱动的简单API。它的设计开始于XML-DEV邮件列表成员间的讨论，他们开发出的第一个接口草案SAX1.0于1998年1月发布，其后在2000年5月发布了SAX2.0，目前最新版本是2004年4月发布的SAX2.0.2。SAX没有经过官方的标准机构认可，它不由W3C联盟或其它任何官方机构维护(现在，SAX由David Megginson维护) [4]，但它被广泛使用并视为XML社区事实上的标准。SAX最初是为Java而定义的，但也可以用于Python、Perl、C++等其它语言。

SAX是基于事件驱动的，即SAX解析器在读取XML文档的过程中生成一个事件流，并且对于每个事件通过回调事件处理程序中相应的方法来进行处理。比如元素开始和结束标记，元素内容，实体，语法分析错误等事件。针对下面的简单XML文档，所产生的事件如图1所示，注意针对元素内的空格或回车也会生成一个文本事件。

图1 SAX解析器生成的事件

SAX中的核心事件处理程序是一个实现了ContentHandler接口的类。此接口中定义了处理与XML文档本身关联的事件的方法，如 startDocument、endDocument、startElement、endElement、Characters等

SAX解析技术具有所有流式解析技术的优点和缺点，但是由于在整个解析过程中，解析器掌握着控制权直到文档结束，应用程序很难在获得所需的部分数据后停止解析过程(可以通过抛出异常的方式终止解析过程，但较为复杂，而且终止后也无法继续解析过程)，因此产生了由应用程序掌握控制权的拉式解析方式。

2.2.2 拉式解析(StAX解析技术)StAX(Streaming API for XML)解析技术是一种拉式解析，在这种解析方式中，应用程序控制着读循环。循环中，应用程序负责反复调用解析器获得下一个事件，直到文档结束。通过保留解析过程的控制权，可以简化调用代码来准确地处理它预期的内容，并且可随时停止解析。此外，由于该方式没有基于处理程序回调，应用程序也不需要像SAX中那样模拟解析器的状态。

StAX针对同样的XML文档所获得事件类型和SAX基本相同，但是StAX包含了两套处理XML的API：基于指针的API和基于迭代器的API，分别提供了不同程度的抽象[5]。

基于指针的API简单的返回事件，此时事件用数值形式来表示。这是一种低层API，没有提供底层XML结构的抽象，所有的状态信息直接从流读取器获得，不需要创建额外的对象。从而节约内存，拥有较高的效率。

而较为高级的基于迭代器的API则以对象方式返回事件，每个事件对象都封装了它所表示的特定XML结构固有的信息，因此可直接利用其方法获得属于该结构的信息，但也需要额外的对象创建开销。相对于基于指针的API，基于迭代器的API具有更多的面向对象特征，因此更便于应用于模块化的体系结构。

StAX也是用Java定义的，其StAX1.0于2004年3月发布，并且成为了JSR-173 规范，最新版本为2006年6月发布的StAX1.2。StAX作为用Java语言处理XML的最新标准，比早期出现的XPP (Xml Pull Parser)拉式解析器功能更为强大，也得到了更为广泛的应用。

2.3 面向文档的对象式解析技术
由于流式解析方式固有的无法更改数据和不支持随机访问特性，尤其是没有对XML文档的结构建模，使得应用程序很难对XML文档进行搜索、修改、添加和删除等操作。为了解决这些问题，产生了面向文档的对象式解析技术--DOM。

DOM(Document Object Model)是用与平台和语言无关的方式对XML文档进行建模的官方W3C标准[6]，其目标是提供一个可以通用于各种程序语言、操作系统和应用程序的接口。DOM最初被当作Web浏览器识别和处理页面元素的方式,即在W3C介入之前的功能，称为“DOM Level 0”。W3C于1998年10月提出了“DOM Level 1”建议，支持XML1.0和HTML处理。随后于2000年11月提出了“DOM Level 2”建议，对Level 1进行了扩展，支持XML1.0、命名空间和CSS，也支持用户接口和树形操作事件，并且添加了DOM树形操作功能。最新的“DOM Level 3”建议于2003年6月提出，在level 2的基础上添加了对DTD、XML模式和XPath的支持[1]。

DOM作为一种对象式解析技术，定义了层次化对象模型来表示XML文档。即为XML语法中的每个概念(如元素，属性，实体，文档等)定义对应的类，而解析器在读入XML文档的时候，会建立XML语法和类之间的一一映射。实际上，DOM的层次化对象模型是一个树形结构，它将一个XML文档看作一棵节点树，每个节点代表一个XML文档中的元素。DOM的基本节点对象有5个[1]：(1)Document对象：是树的最高节点，也是对整个文档操作的入口；(2)Element和Attr对象：对文档中元素和元素属性的映射；(3)Text对象：作为Element和Attr对象的子节点，代表了元素或属性的文本内容；(4)NodeList对象：对节点按指定的方式进行遍历。

例如对于2.2.1中的XML文档，其对应的DOM节点树如下图所示(注意元素内的空格或回车也会被当作文本对象)：

图2 DOM节点树 (矩形框表示元素节点，椭圆表示文本节点)

利用DOM在内存中建立的完整的XML文档的树形结构，开发人员就可以方便的对XML文档进行一系列操作，如遍历、增加、删除、修改文档内容等，且具有良好的导航能力。同时DOM所具有的对象特性也非常便于面向对象编程。然而，由于DOM在使用数据前需要完整的遍历XML文档，在内存中构建树形结构表示，因此需要消耗大量的内存，尤其是对于大型文档，性能下降的很快。而且必须一次解析整个XML文档，不可能只做部分解析，当只关注XML文档的小部分数据时，效率很低。(Axis2项目中的Axiom对象模型实现了对XML文档的部分解析，可构建不完整的节点树，但实现较为复杂)

由于DOM是与语言无关的，当DOM接口进入指定语言的数据结构时，会产生不必要的复杂性，无法利用语言本身的优势。因此出现了许多与DOM类似的针对特定语言的对象模型。如JDOM就是针对Java的特定文档对象模型，JDOM使用具体类而不使用接口，简化了API，并在API中大量使用了Java集合类。DOM4J则是JDOM的一种智能分支，它提供了对XPath和XML Schema的支持，并且通过DOM4J API和标准DOM接口使其具有并行访问功能[5]。它们都属于面向文档的对象式解析技术。

2.4 面向文档的指针式解析技术
前面提到的面向文档的流式解析效率较高，但易用性差，而对象式解析易用性强，却效率较低，这两种方式似乎处于两个极端。其效率问题主要在于两种方式都是提取解析模式，即解析时，提取一部分源文件，一般来说是一个字符串，然后在内存中进行解析构建。这种解析模式注定了需要大量的创建和销毁对象，而且还存在更新效率问题，在DOM中(SAX并不支持更新)，每一次改动都需要将DOM模型重新完整的解析成XML字符串，原文件并没有被利用，即DOM并不支持增量更新。为了解决这些问题，提出了一种较新颖的指针式解析技术，即VTD-XML。

VTD-XML是一种无提取的XML解析方法，它较好的解决了DOM占用内存过大的缺点，并且还提供了快速的解析与遍历、对XPath的支持和增量更新等特性。VTD-XML是一个开源项目，目前有Java、C两种平台支持，第一个版本是2004年6月发布的VTD-XML0.5，其VTD- XML1.0版本于2005年10月发布，最新的版本为2007年10月发布的VTD-XML2.2。

VTD(Virtual Token Descriptor，虚拟令牌描述符)是一个64bits长度的数值类型，记录了每个元素的起始位置，长度，深度以及令牌的类型等信息，如图3所示。64bits固定长度使得可以用数组这种高效的结构来组织VTD，大幅提高性能。VTD是实现无提取解析的关键，它类似于XML文档中元素的指针，通过它可以快速定位到某个元素。

图3 VTD记录的比特层格式

令牌开始偏移量(即相对于XML文档头部的距离)是30 bits，也就是说它能解析的最大文件是1G。令牌长度为20 bits，即一个令牌的最大长度是1M。令牌类型4bits，说明支持16种词汇类型。

为了实现无提取这个目的，VTD-XML将原XML文件原封不动的以二进制的方式读进内存，不做解码，然后在这个比特数组上解析每个元素的位置并把一些信息，如XML令牌的开始偏移量、长度、深度和令牌类型，记录下来，保存为VTD数组，之后的遍历操作便可在VTD数组上进行。如果需要提取XML内容，就查找VTD数组，利用VTD记录中的位置等信息在原始比特数组上进行解码并返回字符串。

而且VTD-XML还可以高效的实现增量更新，例如，如果想在一个大型XML文档中找出一个节点元素并删除它，那么只需要找到这个元素的VTD，将这个VTD从VTD数组中删除，然后再利用所有的VTD写出到另一个二进制数组中就可以了，因为删除的VTD标明了要删除的元素的位置，所以在新写入的二进制数组中就不会出现这段元素了。用VTD写入新的二进制数组的过程实际上就是一个二进制数组的拷贝过程，其效率是非常高的[2]。

由此可见，VTD很好的解决了前两种解析方式的缺点，通过其巧妙的设计使得在解析XML文档时内存占用少，效率高，并且还能够实现XML文档的快速解析与遍历、提供对XPath的支持。VTD的出现是XML解析技术的一大进步，会对XML解析技术的发展产生巨大影响。

2.5 面向应用的对象式解析技术
前面所谈到的三种解析技术都是从XML的角度来处理文档和建立模型，这对于主要关心文档的XML结构的应用程序来说是适用的，但是有很多应用程序仅仅将XML作为数据交换的媒介，它们更关心的是文档数据本身。此时，面向应用的对象式解析(或称为XML数据绑定)可以使应用程序在很大程度上忽略XML文档的实际结构，而直接使用文档的数据内容。

数据绑定是指将数据从一些存储媒介(如XML文档、文本文件和数据库)中取出，并通过应用程序表示这些数据的过程，即把数据绑定到虚拟机能够理解并且可以操作的某种内存中的结构[9]。数据绑定并不是一个新鲜的概念，其在关系数据库上早已得到了广泛的应用，如Hibernate就是针对数据库的轻量级数据绑定框架。而针对XML数据绑定的Castor框架在2000年就已经出现，目前已经涌现出了许多类似的框架，如JBind、JAXB、JiBX、Quick和Zeus等。

其中JAXB(Java Architecture for XML Binding)是一个处于不断发展中的应用于Java平台的数据绑定框架，提供了一套在XML文档和Java对象之间自动映射的API，符合JSR31--XML数据绑定规范（XML Data Binding Specification）。该项目始于1999年8月，由Java Community Process开发，其1.0版本于2002年10月发布，目前最新版本为2007年9月17日发布的JAXB2.1.5。

如图4，显示了数据绑定在数据库和XML文档中的应用。

图4 数据绑定

在数据绑定中有三个重要概念[9]：

l        编组(Marshalling)：把内存中的数据转换到存储介质中的过程。在Java和XML环境中，编组就是把一些Java对象转化为一个(或多个)XML文档。其核心就在于把Java中的面向对象结构转化成适用于XML的扁平结构。

l        解组(Unmarshalling)：把数据从存储媒介转换到内存中的过程。在Java和XML环境中，即将XML文档解组到Java虚拟机中，其复杂性在于从数据到Java代码变量的映射。

l        映射(Mapping)：用于编组和解组的一套规则。

初看起来XML数据绑定和面向文档的对象式解析较为相似，都在内存中构建文档表示，同时内部表示和标准的XML文档之间可以互相转换。但两者之间的不同在于文档模型尽可能接近的保存XML的文档结构，而数据绑定只关心应用程序使用的文档数据[7]。如图5所示，同一个XML文档的文档模型和数据绑定模型是完全不同的。

图5 文档模型和数据绑定模型比较

如果应用程序使用文档模型方法，那么获得所需要的数据就必须在节点树中根据父子节点关系进行遍历。而使用数据绑定方法，只需进行正常的Java编程，访问数据更加容易，速度也比文档模型快得多。而且，XML数据绑定并不只是简化编程，由于它把许多文档细节抽象出来，所以数据绑定所需的内存通常少于文档模型所需的内存，如上图中，文档模型方法使用了10个单独的对象，而数据绑定才使用2个。此外，由于要构建的对象少得多，所以为XML文档构建数据绑定表示还可能更快[7]。

在XML数据绑定中最为核心的是怎样由XML文档生成Java对象。目前有两种方式：映射绑定方式和代码生成方式[8]。在映射绑定方式中，构建自己的Java类，并向绑定框架指定这些类如何与XML文档相关联。如框架Castor和Quick就支持这种方式。而代码生成方式则根据XML文档结构(即DTD或Schema形式的文法)自动构建相应的Java类，如JAXB、Castor和JBind提供了根据XML文档的Schema描述生成Java代码，Quick和Zeus可根据DTD描述生成Java代码。

代码生成方式所构造的类可以包括完整的数据类型信息，还能够对所构造的类进行验证。但该方式使得程序代码和文档结构之间紧密耦合，如果文档结构发生变化，就需要重新生成代码。而映射绑定方式则具有更大的灵活性，其使用自己构建的对象类将数据和行为组合在一起，通过修改映射定义(而不是改变应用程序代码)来处理XML文档结构中的微小变化，可以在一定程度上解除对象类与实际XML文档之间的耦合[8]。其缺点在于需要编写较为复杂的映射文件。

Author: orangelizq
email: [email protected]

Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
【网络安全】漏洞挖掘之CVE-2019-9670+检测工具秋说网络安全 web安全漏洞挖掘 CVE
未经许可，不得转载。文章目录漏洞介绍正文工具漏洞介绍CVE-2019-9670是一个与ZimbraCollaborationSuite(ZCS)相关的严重漏洞。ZCS中的AutoDiscover服务存在不正确的XML解析处理，该漏洞可被利用来注入恶意XML代码（例如外部实体注入（XXE）攻击），从而导致服务器任意文件读取或远程代码执行(RCE)。Zimbra]>
第 2-2 课：深入探究底层原理，应用更加得心应手 Java大联盟案例上手 Spring 全家桶 Spring Spring Boot Spring Cloud Spring MVC Spring Spring Boot Spring
前言上一讲我们学习了SpringMVC框架的使用，为了更好地理解这个框架，本讲来仿写一个SpringMVC框架，用到的技术比较简单，只需要XML解析+反射就可以完成，不需要JDK动态代理。自己手写框架的前提是必须理解框架的底层原理和运行机制，因此我们还是先来回顾一下SpringMVC的实现原理。SpringMVC实现原理SpringMVC的核心组件和工作流程的内容具体可以参考第2-1讲的内容，通过
Java 中处理 XML 文件 goTsHgo Java basic Java java xml 前端
在Java中处理XML文件，通常使用两种主要的解析方式：DOM解析和SAX解析。每种解析方式各有优劣，适用于不同的场景。下面详细解释这两种XML解析方法的基本原理、适用场景、共性规律、注意事项和特殊技巧。1.DOM解析(DocumentObjectModel)基本原理DOM解析是一种基于内存的解析方式。它会将整个XML文档一次性加载到内存中，构建一个树形结构，表示XML文档的层次关系。开发者可以遍
【原创】Unity3D 游戏项目实例教程之 Xml 数据解析器 chuiyanbang9039 游戏
由于自己项目中使用XML作为配置文件，为了解析起来方便，其实更加方便的是解析XML的.cs文件都通过程序去生成，读者可以自己去实现，下面是XML解析器，仅供大家参考！先来看看最终使用例子的代码（在我们的项目中，我们需要借助上一篇的资源加载管理器来预先加载我们的配置文件）：using UnityEngine;using System.Collections;public class LoaderXm
5、设计与实现资源加载器，从Spring.xml解析和注册Bean对象大树~~ #Spring手写系列数据库 java 开发语言 spring 后端
在Spring框架的核心设计中，Bean工厂和资源加载器是两个非常重要的模块。理解它们的设计和实现对于掌握Spring的核心机制具有重要意义。在这篇文章中，我们将详细探讨Spring框架中Bean工厂的设计原理、资源加载的实现机制、如何解析Bean定义并将其注册到Spring容器中。通过这些内容，读者不仅能够理解Spring框架的设计思想，还能够借鉴这些设计模式来优化自己的代码架构。一、前言在实际
java xml 转json json 转 json对象在下，杨江河遇到的问题 java xml json
xml转json在Java中将XML转换为JSON是一个常见的需求，尤其是在处理Web服务或数据交换时。有多种库可以帮助你完成这项任务，但其中最流行和广泛使用的一个是org.json（虽然它本身不直接支持XML到JSON的转换，但可以通过解析XML然后构建JSON来实现）和com.fasterxml.jackson.dataformat.xml（Jackson库的一个扩展，可以直接从XML解析到J
python web自动化 gaoguide2015 自动化脚本 web html
1.python爬虫之模拟登陆csdn(登录、cookie)http://blog.csdn.net/yanggd1987/article/details/52127436?locationNum=32、xml解析：Python网页解析：BeautifulSoup与lxml.html方式对比（xpath）lxml库速度快，功能强大，推荐。http://blog.sina.com.cn/s/blog
java解析xml大文件工具类_xml解析工具类 weixin_39963830 java解析xml大文件工具类
创建一个xml解析工具类，了解其解析原理。全程使用封装思想。需求：创建一个xml解析工具类，通过用户指定的id值或者class文件路径判断其是否存在，如果存在就返回相对应的对象，如果不存在就返回null；需要用到的知识：【变量定义，数据类型转换，控制语句，循环，自定义方法，类的定义，多态，集合框架，IO流，异常体系，反射，xml解析等知识】工具类封装代码：packagecn.yun.xmldom;
java生成xml 换行符_如何在XML文件中添加换行符（换行符）？有一失物 java生成xml 换行符
甲换行符(又名行中断或结束时的线，EOL)是标记文本行的末尾特殊字符或字符序列。所使用的确切代码因操作系统而异：LF:UnixCR:MacOSuptoversion9CR+LF:Windows,DOS您可以将其用于换行(LF)或用于回车(CR)，并且在将解析的文本传递给应用程序时，XML解析器会将其替换为相应的字符。如示例所示，可以手动添加它们，但是在需要以编程方式在字符串中添加换行符时，这些操作
第二十六章定制SAX解析器的使用方式 Cache技术分享
第二十六章定制SAX解析器的使用方式每当InterSystemsIRIS读取XML文档时，它都会使用InterSystemsIRISSAX(SimpleAPIForXML)解析器。本章介绍用于控制系统间IRISSAX解析器的选项。关于IRISSAX解析器每当InterSystemsIRIS读取XML文档时，都会使用InterSystemsIRISSAX解析器。它是一个事件驱动的XML解析器，读取X
bpmn-js中实现xml数据转为json数据胖蔡 Bpmn-js 流程建模器实战 javascript xml json bpmn-js
开发bpmn-js建模器，希望将bpmn数据格式转为json数据格式更加清晰的展示数据层次，以结果为导向分析需求，实现功能的思路有两种方式：通过bpmn-js转化为JS数据对象，然后通过JS中提供的JSON模块转换为json数据将xml解析成dom对象，通过dom对象转化为json格式数据三方库这里主要介绍上面两种方式，三方库转换如xml-js或x2js详细使用查看官方使用教程。对象转换bpmn-
XML解析之Sax解析王魔王
不熟悉xml的同学可以先阅读下面两篇帖子xml基础https://www.jianshu.com/p/f61953320a43xml语法https://www.jianshu.com/p/361a2cb6d3e5XML解析中有两种解析思想：pull解析sax解析注意是解析思想本篇帖子讲解sax解析与pull解析是把整个xml文档加载到内存中不同，sax解析是逐行解析xml文档的，其解析的过程并不需
android高级ui01-自定义view- 亢正
学习笔记，整理中摘要面1、layoutparams:xml的属性转换为java用的格式2、面必问：measurespec------------------------------------主要讲自定义viewgroup,viewpager1、所有的xml解析都在layoutinflater里面2、自定义view至少3个构造函数，javanewview调用；xml反射调用；不同主题调用；自定义属
IOS-OC-json解析和XML解析代码案列草根小强
json解析#import#import"Model.h"#import"JSON.h"intmain(intargc,constchar*argv[]){@autoreleasepool{NSString*path=@"/Users/qianfeng/Desktop/OC课堂老师代码/oc上课代码/1231/easy.json";//系统自带方法的解析NSData*data=[NSDatadat
如何使用Python和正则表达式处理XML表单数据
处理XML数据时，Python提供了多种工具，其中包括ElementTree和minidom等。然而，使用正则表达式来处理XML数据并不是一个推荐的做法。XML是一种嵌套结构，而正则表达式对于处理这种嵌套结构的数据并不擅长。更好的方式是使用Python的XML解析库，如ElementTree。以下是一个简单的使用ElementTree处理XML数据的例子：importxml.etree.Eleme
Javaweb基础-tomcat，servlet tmy99 java servlet 开发语言
一.配置文件基础：properties配置文件：由键值对组成键和值之间的符号是等号每一行都必须顶格写，前面不能有空格之类的其他符号xml配置文件：（xml语法=HTML语法+HTML约束）xml约束-DTD/SchemaDOM4J进行XML解析：（jar包dom4j.jar）1.创建SAXReader对象SAXReadersaxReader=newSAXReader();2.解析XML获取Docu
网页解析神器-Selector选择器全面解析越大大雨天
本文主要参照scrapy最新官方文档编写。官方文档直达链接：https://docs.scrapy.org/en/latest/topics/selectors.html大部分人可能喜欢使用以下三个解析器对网页进行解析：BeautifulSoup：使用方便，支css选择器，但它有个不可忽视的缺点:慢。lxml解析库：采用xpath解析，速度快。pyquery：它提供了和jQuery类似的语法来解析
3 IOC容器 ca8519be679b
知识点将要讲解如下1IOC底层原理2IOC接口卡BeanFactory3IOC操作Bean管理（基于xml）4IOC操作Bean管理（基于注解）IOC原理和概念1什么是IOC？控制反转，用于降低你代码的耦合度。说的通俗点，我们原始创建对象是new对象，而IOC是解耦处理，将对象创建和调用过程交给spring管理，我们入门的案例就是IOC实现2IOC底层原理底层主要用到3个，xml解析、工厂模式、反
数据结构大作业-DBLP科学文献管理系统（一） XML解析，文件哈希，C++线程 Sugarzo 数据结构 xml c++linq
在程序中，需要解析的DBLB文件大小为3G-4G的。因此每次启动程序前都读取一遍DBLP并全部写入内存的方法是不现实的，这需要我们提前在磁盘中建立对应的数据库文件，在第一次打开程序时进行建立数据库的操作，将需要的数据写入磁盘。之后对DBLP的数据查询只需要打开已经建立好的数据库进行IO操作即可。由于数据在磁盘和内存中的读取速度差距极大，在磁盘中删改添加数据效率是很低的，因此如何建立对应数据的索引，
c#加载xml属性_从XML加载属性 cusi77914 java python xml 编程语言 linux
1.5之前的J2SE版本要求您直接使用XML解析器来加载配置文件和存储设置。尽管这从来都不是一件容易的事，并且解析器是平台的标准组成部分，但是额外的工作还是有些烦人。现在，新更新的java.util.Properties类为加载和存储程序设置提供了一种更简便的方法：loadFromXML(InputStreamis)和storeToXML(OutputStreamos,Stringcomment)
顶级 Javaer 都在使用的类库，真香！近咫／＼ぃ天涯 java 后端 guava junit
目录前言1.日志库2.JSON解析库3.单元测试库4.通用库5.HTTP库6.XML解析库7.Excel阅读库8.字节码库9.数据库连接池库10.消息库11.PDF库12.日期和时间库13.集合库14.电子邮件API15.HTML解析库16.密码库17.嵌入式SQL数据库库18.JDBC故障排除库19.序列化库20.网络库前言优秀且经验丰富的Java开发人员的特点之一是对API的广泛了解，包括JD
【笔记】Python3｜爬虫处理网页数据异步加载问题（结合Selenium完成） shandianchengzi 笔记代码 python 爬虫 selenium lxml requests
文章目录问题描述1.结合Selenium、Edge解析该网站搜索页面的数据2.结合lxml解析网页数据3.附加：不是异步加载的网页，结合requests直接请求数据问题描述一些网站会有很多的重定向，才能跳转到真实的资源页。然后爬虫就会报错：requests.exceptions.TooManyRedirects:Exceeded30redirects.这种情况，可以直接关掉重定向，判断响应状态是3
XXE攻击原理这是什么娃哈哈
1简述XXE（XMLExternalEntity）是指xml外部实体攻击漏洞。XML外部实体攻击是针对解析XML输入的应用程序的一种攻击。当包含对外部实体的引用的XML输入被弱配置XML解析器处理时，就会发生这种攻击。这种攻击通过构造恶意内容，可导致读取任意文件、执行系统命令、探测内网端口、攻击内网网站等危害。2XML结构介绍要了解XXE漏洞，那么一定要先学习一下有关XML的基础知识。XML被设计
go基于gin框架后端服务的插件化开发(附带xml解析实操) docker真的爽爆了 golang gin xml 中间件微服务
Go基于GIN框架的插件化开发简言上期实现了用户的注册登录效果，这期则是实现插件化开发，可以让你的作品更“灵活”。还有xml的相关配置和上期用户注册登录相比，就多了个prepare.go,主要负责项目启动后的初始化，读取配置文件啊什么的还有就是server.go增加了一个新的路由组(Extensiongroup)varExtensiongroup=engine.Group("/extensions
C++设计模式-简单工厂模式，工厂方法模式，抽象工厂模式 vczxh c++设计模式简单工厂模式工厂方法模式
目录简单工厂模式，工厂方法模式，抽象工厂模式附：简单工厂模式，工厂方法模式，抽象工厂模式简单工厂模式：根据字符串参数返回对象。工厂方法模式：创建一维对象，即一个工厂创建一个产品。抽象工厂模式：创建二维对象，即一个工厂创建多个产品。形成一个表格，例如型号a,b,c和系列1,2,3对应产品可以有a1,a2,a3,b1,b2,b3,c1...等。附：builder模式：根据xml解析为内存对象。sing
springboot下XML解析狼吻小红帽
需求：互联互通定量评审，通过23个入参XML访问webService,得到相应的出参XML。针对入参需要根据前端传入的param替换入参XML模板中特定标识；针对出参需要根据出参XML模板中特定标识，找到通过入参XML访问webService后得到的出参XML在该特定标识位置的值，取出来组成一个Object返回给前端。记录下开发该工具所遇问题，以及解决方案。question1：获取XML文件内容a
（转）Java 8 中的 Streams API 详解 Christopher若有光
本文转载自Java8中的StreamsAPI详解,主要讲解了Streams的背景，以及Java8中的使用详解，讲解的非常细致，建议阅读。为什么需要StreamStream作为Java8的一大亮点，它与java.io包里的InputStream和OutputStream是完全不同的概念。它也不同于StAX对XML解析的Stream，也不是AmazonKinesis对大数据实时处理的Stream。Ja
Python解析XML，简化复杂数据操作的最佳工具人帝 xml 前端 python
XML（可扩展标记语言）是一种常见的文本文件格式，用于存储和交换数据。Python提供了多种库和模块，用于解析和操作XML文件。本文将深入探讨如何使用Python操作XML文件，包括XML解析、创建、修改和验证等方面的内容，通过丰富的示例代码来帮助大家理解这些概念。什么是XML？XML是一种标记语言，用于标记数据的结构和元信息。它由开始标签、结束标签、元素、属性等组成，可以表示各种数据类型和复杂的
Python常用库人帝 python
一、爬虫Requests：是一个PythonHTTP库，可以用于发送HTTP请求，支持HTTP/1.1和HTTP/2，适合于爬取简单的网页。BeautifulSoup：是一个HTML/XML解析库，可以用于解析网页内容，提取出需要的信息。Scrapy：是一个Python爬虫框架，可以用于快速开发高效的爬虫程序，支持分布式爬虫、自动限速、自动重试等功能。Selenium：是一个自动化测试工具，可以模
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

XML解析技术研究

你可能感兴趣的:(xml解析)