臧圩人

Java6.0新特性之StAX--全面解析Java XML分析技术

作者：臧圩人（zangweiren）
网址：http://zangweiren.iteye.com

>>> 转载请注明出处！<<<

野马（Mustang，Java 6.0代号）相比老虎（Tiger，Java 5.0代号）来说，从性能的提升、脚本语言（Javascript、JRuby、Groovy）的支持、对java.io.File的扩展到桌面应用的增强等各个方面，本领着实大了不少。

Java 6.0对XML支持的新特性有许多方面。比如StAX、针对XML-Web服务的Java架构（JAX-WS）2.0、针对XML绑定的API（JAXB）2.0、XML数字签名API，甚至还支持SQL:2003 'XML'数据类型。在这一篇文章中我们将要介绍的是StAX技术，因为它在我们的开发中将被使用地更加频繁。

StAX是Streaming API for XML的缩写，是一种针对XML的流式拉分析API。关于对XML进行分析（或解析）的技术，大家一定都不陌生了。在Java 6.0之前，就已经有四种：

DOM：Document Object Model
SAX：Simple API for XML
JDOM：Java-based Document Object Model
DOM4J：Document Object Model for Java

关于它们的解析原理，以及性能和优缺点，我会在本文的结尾做一个简要的介绍。这篇文章中，我们主要说说StAX这种新的解析方式。

首先我们来搞清楚两个概念： 推分析和 拉分析。

在程序中访问和操作XML文件一般有两种模型：DOM（文档对象模型）和流模型。它们的优缺点如下：

引用

DOM优点：允许编辑和更新XML文档，可以随机访问文档中的数据，可以使用XPath（XML Path Language，是一种从XML文档中搜索节点的查询语言）查询。
DOM缺点：需要一次性加载整个文档到内存中，对于大型文档，会造成性能问题。

引用

流模型优点：对XML文件的访问采用流的概念，在任何时候内存中只有当前节点，解决了DOM的性能问题。
流模型缺点：是只读的，并且只能向前，不能在文档中执行向后导航操作。

关于什么是DOM，文章结尾处会有介绍。这里我们简单说一下流：它是一个连续的字节序列，可以理解为不停地从源头向目标搬运着字节的特殊对象。

让我们回到主题。流模型每次迭代XML文档中的一个节点，适合于处理较大的文档，所耗内存空间小。它有两种变体--“推”模型和“拉”模型。

引用

推模型：就是我们常说的SAX，它是一种靠事件驱动的模型。当它每发现一个节点就引发一个事件，而我们需要编写这些事件的处理程序。这样的做法很麻烦，且不灵活。

引用

拉模型：在遍历文档时，会把感兴趣的部分从读取器中拉出，不需要引发事件，允许我们选择性地处理节点。这大大提高了灵活性，以及整体效率。

到此，我们就弄明白了“推分析”和“拉分析”的概念：

引用

基于流模型中推模型的分析方式称为推分析；基于流模型中拉模型的分析方式就称为拉分析。

StAX就是一种拉分析式的XML解析技术。它也支持对XML文件的生成操作，但是这篇文章里我们只介绍有关解析的知识。

从一开始，JAXP（Java API for XML Processing）就提供了两种方法来处理XML：DOM和SAX。StAX是一种面向流的新方法，最终版本于2004年3月发布，并成为JAXP 1.4（包含在Java 6.0中）的一部分。StAX的实现使用了JWSDP（Java Web Services Development Pack）1.6，并结合了SJSXP（Sun Java System XML Streaming Parser，位于javax.xml.stream.*包中）。

JWSDP是用来开发Web Services、Web应用程序以及Java应用（主要是XML处理）的开发包。它包含的Java API有：

JAXP：Java API for XML Processing
JAXB：Java Architecture for XML Binding
JAX-RPC：Java API for XML-based Remote Procedure Calls
JAX-WS：Java API for XML Web Services
SAAJ：SOAP with Attachments API for Java
JAXR：Java API for XML Registries
Web Services Registry

JWSDP的早期版本中还包括：

Java Servlet
JSP：JavaServer Pages
JSF：JavaServer Faces

现在，JWSDP已经被GlassFish所替代。

StAX包括两套处理XML的API，分别提供了不同程度的抽象。它们是：基于指针的API和基于迭代器的API。

我们先来了解基于指针的API。它把XML作为一个标记（或事件）流来处理，应用程序可以检查解析器的状态，获得解析的上一个标记的信息，然后再处理下一个标记，依次类推。

在开始API探索之前，我们首先创建一个名为users.xml的XML文档用于测试，它的内容如下：



	
		Manager
		
	
	
		Team Leader

可以让我们使用基于指针的API的接口是javax.xml.stream.XMLStreamReader（很遗憾，你不能直接实例化它），要得到它的实例，我们需要借助于javax.xml.stream.XMLInputFactory类。根据JAXP的传统风格，这里使用了抽象工厂（Abstract Factory）模式。如果你对这个模式很熟悉的话，就能够在脑海中想象出我们将要编写的代码的大致框架了。

首先，获得一个XMLInputFactory的实例。方法是：

XMLInputFactory factory = XMLInputFactory.newInstance();

或者：

XMLInputFactory factory = XMLInputFactory.newFactory();

这两个方法是等价的，它们都是创建了一个新的实例，甚至实例的类型都是完全一致的。因为它们的内部实现都是：

{
    return (XMLInputFactory) FactoryFinder.find("javax.xml.stream.XMLInputFactory", "com.sun.xml.internal.stream.XMLInputFactoryImpl");
}

接下来我们就可以创建XMLStreamReader实例了。我们有这样一组方法可以选择：

XMLStreamReader createXMLStreamReader(java.io.Reader reader) throws XMLStreamException;

XMLStreamReader createXMLStreamReader(javax.xml.tranform.Source source) throws XMLStreamException;
    
XMLStreamReader createXMLStreamReader(java.io.InputStream stream) throws XMLStreamException;

XMLStreamReader createXMLStreamReader(java.io.InputStream stream, String encoding) throws XMLStreamException;

XMLStreamReader createXMLStreamReader(String systemId, java.io.InputStream stream) throws XMLStreamException;

XMLStreamReader createXMLStreamReader(String systemId, java.io.Reader reader) throws XMLStreamException;

这些方法都会根据给定的流创建一个XMLStreamReader实例，大家可以依据流的类型、是否需要指定解析XML的编码或者systemId来选择相应的方法。

在这里，我们对systemId稍作说明，并简单解释一下它与publicId的区别。

systemId和publicId是XML文档里DOCTYPE元素中经常出现的两个属性。它们都是对外部资源的引用，用以指明引用资源的地址。systemId是直接引用资源，publicId是间接定位外部资源。具体一点说是这样：

引用

systemId：外部资源（大多是DTD文件）的URI。比如本地文件file:///user/dtd/users.dtd或者网络某个地址的文件http://www.w3.org/dtd/users.dtd。

引用

publicId：相当于一个名字，这个名字代表了一个外部资源。比如，我们规定"W3C HTML 4.0.1"这个字符串对应"http://www.w3.org/dtd/users.dtd"这个资源。那么，publicId="W3C HTML 4.0.1"和systemId="http://www.w3.org/dtd/users.dtd"的作用就是一样的。

好了，我们接着用以上列出的第一个接口来创建一个XMLStreamReader实例：

try {
    XMLStreamReader reader = factory.createXMLStreamReader(new FileReader("users.xml"));
} catch (FileNotFoundException e) {
    e.printStackTrace();
} catch (XMLStreamException e) {
    e.printStackTrace();
}

要遍历XML文档，需要用到XMLStreamReader的下面几个方法：

int getEventType();

boolean hasNext() throws XMLStreamException;

int next() throws XMLStreamException;

getEventType()方法返回XMLStreamConstants接口中定义的一个标记常量，表示当前指针所指向标记（或事件）的类型。根据当前事件类型的不同，应用程序可以做出不同的处理。标记常量的类型和含义如下：

START_DOCUMENT：文档的开始
END_DOCUMENT：文档的结尾
START_ELEMENT：元素的开始
END_ELEMENT：元素的结尾
PROCESSING_INSTRUCTION：处理指令
CHARACTERS：字符（文本或空格）
COMMENT：注释
SPACE：可忽略的空格
ENTITY_REFERENCE：实体的引用
ATTRIBUTE：元素的属性
DTD：DTD
CDATA：CDATA块
NAMESPACE：命名空间的声明
NOTATION_DECLARATION：标记的声明
ENTITY_DECLARATION：实体的声明

next()方法将指针移动到下一个标记，它同时返回这个标记（或事件）的类型。此时若接着调用getEventType()方法则返回相同的值。

hasNext()用于判断是否还有下一个标记。只有当它返回true时才可以调用next()以及其它移动指针的方法。

看了上面几个方法的介绍，大家就会发现使用XMLStreamReader遍历XML文档是非常容易的，因为它的用法和每个人都熟悉的Java迭代器（Iterator）是一样的。下面我们就用已经掌握的这几个方法对上文中给出的XML文档做一个测试。希望你还记得它的内容，如果忘记了，请翻回去重新浏览一下。

我们的测试代码如下：

/**
 * 列出所有用户
 * 
 * @author zangweiren 2010-4-17
 * 
 */
public class ListUsers {
	// 获得解析器
	public static XMLStreamReader getStreamReader() {
		String xmlFile = ListUsers.class.getResource("/").getFile()
				+ "users.xml";
		XMLInputFactory factory = XMLInputFactory.newFactory();
		try {
			XMLStreamReader reader = factory
					.createXMLStreamReader(new FileReader(xmlFile));
			return reader;
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (XMLStreamException e) {
			e.printStackTrace();
		}
		return null;
	}

	// 列出所有用户名称
	public static void listNames() {
		XMLStreamReader reader = ListUsers.getStreamReader();
		// 遍历XML文档
		try {
			while (reader.hasNext()) {
				int event = reader.next();
				// 如果是元素的开始
				if (event == XMLStreamConstants.START_ELEMENT) {
					// 列出所有用户名称
					if ("user".equalsIgnoreCase(reader.getLocalName())) {
						System.out.println("Name:"
								+ reader.getAttributeValue(null, "name"));
					}
				}
			}
			reader.close();
		} catch (XMLStreamException e) {
			e.printStackTrace();
		}
	}

	public static void main(String[] args) {
		ListUsers.listNames();
	}
}

运行结果：

引用

Name:Tom
Name:Lily
Name:Frank
Name:Bob
Name:Kate

在上面的示例代码中，我们用到了XMLStreamReader的两个新方法：

String getLocalName();

String getAttributeValue(String namespaceURI, String localName);

与此相关的还有一个方法：

QName getName();

这三个方法牵扯到XML的namespace（命名空间）、localName（本地名称）、QName（Qualified Name，限定名称）三个概念，我们顺便解释一下：

命名空间是为了支持相同名称不同含义的XML标签而产生的，它可以这么定义：

其中，com是命名空间的前缀，company是命名空间的标签，http://www.zangweiren.com/company是命名空间的标识，相同的标识被认为是同一个命名空间。标识又叫URI，是唯一的，有URL（统一资源定位器）和URN（统一资源名称）两种。前缀是命名空间的简写，目的是为了使用方便。命名空间被声明后就可以被使用：

在上例的标签中，前缀com是命名空间，depart是localName，这两个合起来就是QName。

在明白了这三个XML基本概念之后，也就明白了getLocalName()和getAttributeValue(String namespaceURI, String localName)方法的含义。

现在，我们已经学会了使用XMLStreamReader遍历XML文档，并对特定标签进行解析了。

我们再来看看下面两个方法：

String getElementText() throws XMLStreamException;

int nextTag() throws XMLStreamException;

getElementText()方法返回元素的开始标签（START_ELEMENT）和关闭标签（END_ELEMENT）之间的所有文本内容，若遇到嵌套的元素就会抛出异常。

nextTag()方法将跳过所有空白、注释或处理指令，直到遇到START_ELEMENT或END_ELEMENT。它在解析只含元素内容的XML文档时很有用。否则，在发现标记之前遇到非空白文本（不包括注释和处理指令），就会抛出异常。

比如我们修改上一个测试程序，增加一个新方法：

	// 列出所有用户的名称和年龄
	public static void listNamesAndAges() {
		XMLStreamReader reader = ListUsers.getStreamReader();
		try {
			while (reader.hasNext()) {
				// 跳过所有空白、注释或处理指令，到下一个START_ELEMENT
				int event = reader.nextTag();
				if (event == XMLStreamConstants.START_ELEMENT) {
					if ("user".equalsIgnoreCase(reader.getLocalName())) {
						System.out.println("Name:"
								+ reader.getAttributeValue(null, "name")
								+ ";Age:"
								+ reader.getAttributeValue(null, "age"));
					}
				}
			}
			reader.close();
		} catch (XMLStreamException e) {
			e.printStackTrace();
		}
	}

然后把它添加到主方法中：

public static void main(String[] args) {
		ListUsers.listNames();
		ListUsers.listNamesAndAges();
	}

运行它试试看，在解析到Manager的时候会报错，因此你会得到一个类似这样的错误信息：

javax.xml.stream.XMLStreamException: ParseError at [row,col]:[4,53]
Message: found: CHARACTERS, expected START_ELEMENT or END_ELEMENT

对于基于指针的XMLStreamReader来说，虽然API文档说的是“事件”，但是我们把它看成“标记”更易于理解，而且不会与另一套基于事件的API相混淆。

XMLStreamReader的某些方法，无论当前标记（或事件）是什么类型的，都可以被调用。它们的定义和作用如下：

String getVersion();//获得XML文档中的版本信息
String getEncoding();//获得XML文档中的指定编码
javax.xml.namespace.NamespaceContext getNamespaceContext();//获得当前有效的命名空间上下文，包含前缀、URI等信息
String getNamespaceURI();//获得当前有效的命名空间的URI
javax.xml.stream.Location getLocation();//获得当前标记的位置信息，包含行号、列号等
boolean hasName();//判断当前标记是否有名称，比如元素或属性
boolean hasText();//判断当前标记是否有文本，比如注释、字符或CDATA
boolean isStartElement();//判断当前标记是否是标签开始
boolean isEndElement();//判断当前标记是否是标签结尾
boolean isCharacters();//判断当前标记是否是字符
boolean isWhiteSpace();//判断当前标记是否是空白

对于以上方法都很容易理解和记忆，我们不再编写代码展示它们的效果。

让我们看看有关属性操作方法。还是首先熟悉一下它们的定义：

int getAttributeCount();

String getAttributeLocalName(int index);

QName getAttributeName(int index);

String getAttributeNamespace(int index);

String getAttributePrefix(int index);

String getAttributeType(int index);

String getAttributeValue(int index);

String getAttributeValue(String namespaceURI, String localName);

这些方法都十分容易理解，基本上看方法的名称和参数就知道它的用途了。而且最后一个方法在上面的示例中我们已经用过了。让我们再用一个简单的示例程序进一步加深对这些方法的认识。

	// 列出所有用户的名称和年龄
	public static void listNamesAndAges() {
		XMLStreamReader reader = ListUsers.getStreamReader();
		try {
			while (reader.hasNext()) {
				// 跳过所有空白、注释或处理指令，到下一个START_ELEMENT
				int event = reader.nextTag();
				if (event == XMLStreamConstants.START_ELEMENT) {
					if ("user".equalsIgnoreCase(reader.getLocalName())) {
						System.out.println("Name:"
								+ reader.getAttributeValue(null, "name")
								+ ";Age:"
								+ reader.getAttributeValue(null, "age"));
					}
				}
			}
			reader.close();
		} catch (XMLStreamException e) {
			e.printStackTrace();
		}
	}

把它加入到主方法中：

public static void main(String[] args) {
		ListUsers.listNames();
		// ListUsers.listNamesAndAges();
		ListUsers.listAllAttrs();
	}

运行结果：

引用

1.name=Tom;age=28;gender=male;
2.name=Lily;age=26;gender=female;
3.name=Frank;age=32;gender=male;
4.name=Bob;age=45;gender=male;
5.name=Kate;age=25;gender=female;

相信你看到这里，已经可以顺利地使用XMLStreamReader来完成XML文档的解析了。

上面我们介绍了基于指针的StAX API。这种方式尽管效率高，但是没有提供XML结构的抽象，因此是一种低层API。

较为高级的基于迭代器的API允许应用程序把XML作为一系列事件对象来处理，每个对象和应用程序交换XML结构的一部分。应用程序只需要确定解析事件的类型，将其转换成对应的具体类型，然后利用其方法获得属于该事件对象的信息。

StAX中基于迭代器的API是一种面向对象的方式，这也是它与基于指针的API的最大区别。它通过将事件转变为对象，让应用程序可以用面向对象的方式处理它们，这有利于模块化和不同组件之间的代码重用。

事件迭代器API的主要接口是javax.xml.stream.XMLEventReader和javax.xml.stream.events.XMLEvent。XMLEventReader和XMLStreamReader相比要简单的多，这是因为关于解析事件的所有信息都封装在了事件对象（XMLEvent）中。

创建XMLEvent对象前同样需要一个XMLInputFactory实例。它有如下这些创建XMLEvent实例的方法：

XMLEventReader createXMLEventReader(java.io.InputStream stream) throws XMLStreamException;
    
XMLEventReader createXMLEventReader(java.io.InputStream stream, String encoding) throws XMLStreamException;
    
XMLEventReader createXMLEventReader(java.io.Reader reader) throws XMLStreamException;
    
XMLEventReader createXMLEventReader(String systemId, java.io.InputStream stream) throws XMLStreamException;
    
XMLEventReader createXMLEventReader(String systemId, java.io.Reader reader) throws XMLStreamException;
    
XMLEventReader createXMLEventReader(Source source) throws XMLStreamException;
    
XMLEventReader createXMLEventReader(XMLStreamReader reader) throws XMLStreamException;

最后一个方法不同与其它的，它是将一个XMLStreamReader对象转换成一个XMLEventReader对象。值得注意的是，XMLInputFactory没有提供将XMLEventreader对象转换成XMLStreamreader对象的方法。我想，在我们的开发过程中，应该不会出现这种需要将高层API转换成低层API来使用的情况。

XMLEventReader接口扩展了java.util.Iterator接口，它定义了以下几个方法：

String getElementText() throws XMLStreamException;

boolean hasNext();

XMLEvent nextEvent() throws XMLStreamException;

XMLEvent nextTag() throws XMLStreamException;

XMLEvent peek() throws XMLStreamException;

其中，getElementText()、hasNext()、nextTag()三个方法的含义及用法类似于XMLStreamReader，而nextEvent()方法类似于XMLStreamReader的next()方法。所以，这里只对peed()方法做一下说明。

调用peek()方法，你将得到下一个事件对象。它与nextEvent()方法的不同是，当你连续两次或两次以上调用它时，你得到的都是同一个事件对象。

我们再看看XMLEvent接口中定义的方法。这些方法大体可以分为三种类别。第一类是用于事件类型判断的：

boolean isAttribute();//判断该事件对象是否是元素的属性
boolean isCharacters();//判断该事件对象是否是字符
boolean isStartDocument();//判断该事件对象是否是文档开始
boolean isEndDocument();//判断该事件对象是否是文档结尾
boolean isStartElement();//判断该事件对象是否是元素开始
boolean isEndElement();//判断该事件对象是否是元素结尾
boolean isEntityReference();//判断该事件对象是否是实体的引用
boolean isNamespace();//判断该事件对象是否是命名空间
boolean isProcessingInstruction();//判断该事件对象是否是处理指令

第二类是将XMLEvent转换为具体的子类对象的：

Characters asCharacters();//转换为字符事件对象
StartElement asStartElement();//转换为标签开始事件对象
EndElement asEndElement();//转换为标签结尾事件对象

第三类是获取事件对象通用信息的：

javax.xml.stream.Location getLocation();//获得事件对象的位置信息，类似于XMLStreamReader的getLocation()方法
int getEventType();//获得事件对象的类型，类似于XMLStreamReader的getEventType()方法

其中，getEventType()方法的返回值也是XMLStreamConstants中定义的常量，其类型和含义与XMLStreamReader的getEventType()方法的返回值完全相同。

下面让我们用一段示例代码来熟悉基于迭代器的StAX API的使用方法，进而引出XMLEvent接口的子接口类型。我们仍然使用users.xml作为测试文件：

// 列出所有信息
	@SuppressWarnings("unchecked")
	public static void listAllByXMLEventReader() {
		String xmlFile = ListUsers.class.getResource("/").getFile()
				+ "users.xml";
		XMLInputFactory factory = XMLInputFactory.newInstance();
		try {
			// 创建基于迭代器的事件读取器对象
			XMLEventReader reader = factory
					.createXMLEventReader(new FileReader(xmlFile));
			// 遍历XML文档
			while (reader.hasNext()) {
				XMLEvent event = reader.nextEvent();
				// 如果事件对象是元素的开始
				if (event.isStartElement()) {
					// 转换成开始元素事件对象
					StartElement start = event.asStartElement();
					// 打印元素标签的本地名称
					System.out.print(start.getName().getLocalPart());
					// 取得所有属性
					Iterator attrs = start.getAttributes();
					while (attrs.hasNext()) {
						// 打印所有属性信息
						Attribute attr = (Attribute) attrs.next();
						System.out.print(":" + attr.getName().getLocalPart()
								+ "=" + attr.getValue());
					}
					System.out.println();
				}
			}
			reader.close();
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (XMLStreamException e) {
			e.printStackTrace();
		}
	}

把它加到主程序中：

public static void main(String[] args) {
		ListUsers.listNames();
		// ListUsers.listNamesAndAges();
		ListUsers.listAllAttrs();
		ListUsers.listAllByXMLEventReader();
	}

运行后得到如下结果：

引用

company
depart:title=Develop Group
user:age=28:name=Tom:gender=male
user:age=26:name=Lily:gender=female
depart:title=Test Group
user:age=32:name=Frank:gender=male
user:age=45:name=Bob:gender=male
user:age=25:name=Kate:gender=female

这个例子中，我们利用基于迭代器的StAX API打印出了所有元素的本地名称以及它们的全部属性信息。大家可以看到，它的用法与基于指针的StAX API的用法十分相似。但是由于使用了面向对象的思想，更加容易理解。

我们用到了两个新的接口：StartElement和Attribute。它们都是XMLEvent接口的子接口，且都在javax.xml.stream.events.*包中。它们是更具体的事件对象类型。实际上在javax.xml.stream.events中，除了XMLEvent接口自身外，其余接口都是它的子接口。它们的名称和代表的具体事件对象类型如下：

Attribute：元素的属性
Characters：字符
Comment：注释
DTD：DTD
StartDocument：文档的开始
EndDocument：文档的结束
StartElement：元素的开始
EndElement：元素的结束
EntityDeclaration：实体声明
EntityReference：实体的引用
Namespace：命名空间声明
NotationDeclaration：标记的声明
ProcessingInstruction：处理指令

你可能觉得这些类看着很眼熟，因为它们在XMLStreamReader的getEventType()方法的返回值，也就是XMLStreamConstants中定义的常量中，都能找到一一的对应。唯独缺少了SAPCE（可忽略的空白）和CDATA（CDATA块）。也就是说，在基于指针的StAX API中定义事件类型，在基于迭代器的StAX API中都是以对象的形式提供给应用程序的，这就是为什么说后者是一种更具有面向对象思想的高层API的原因。

这些事件对象接口不仅代表了一种事件类型，还包含对应事件对象的信息。至于它们所具有的方法大多是获取事件对象信息的访问器，其含义及具体用法，都很容易理解和使用，因此不再详细介绍。

大家可能注意到，XMLEvent只提供了三个asXXX()形式的方法将它转换到具体的子类型，如果你想要处理的事件对象类型在这三种类型之外，直接使用强制类型转换就可以了。

现在我们掌握了StAX的基于指针的拉分析API和基于迭代器的拉分析API的基本应用。我们再来看一种稍微高级的用法，它可以帮助我们更好地完成XML文档的解析工作。

XMLInputFactory还有两个创建流读取器的方法：

XMLStreamReader createFilteredReader(XMLStreamReader reader, StreamFilter filter) throws XMLStreamException;
    
XMLEventReader createFilteredReader(XMLEventReader reader, EventFilter filter) throws XMLStreamException;

它们分别为XMLStreamReader和XMLEventReader增加一个过滤器，过滤掉不需要解析的内容，只留下应用程序关心的信息用于解析。虽然我们可以在应用程序中做同样的过滤工作，就像之前示例程序中所写的那样，但是把过滤工作交给过滤器的好处是，让应用程序可以更加专注于解析工作，并且对于通用的过滤（比如注释），将它放到过滤器中可以实现过滤逻辑部分代码的重用。这符合软件设计原则。

如果你编写过文件过滤器java.io.FileFilter的话，那么编写StreamFilter和EventFilter就更加容易。我们先来看看这两个接口的定义：

public interface StreamFilter {
  public boolean accept(XMLStreamReader reader);
}

public interface EventFilter {
  public boolean accept(XMLEvent event);
}

我们就以StreamFilter为例来演示过滤器的用法。为此，我们使用users.xml为测试文档编写一段新的程序：

/**
 * StreamFilter示例程序
 * 
 * @author zangweiren 2010-4-19
 * 
 */
public class TestStreamFilter implements StreamFilter {

	public static void main(String[] args) {
		TestStreamFilter t = new TestStreamFilter();
		t.listUsers();
	}

	@Override
	public boolean accept(XMLStreamReader reader) {
		try {
			while (reader.hasNext()) {
				int event = reader.next();
				// 只接受元素的开始
				if (event == XMLStreamConstants.START_ELEMENT) {
					// 只保留user元素
					if ("user".equalsIgnoreCase(reader.getLocalName())) {
						return true;
					}
				}
				if (event == XMLStreamConstants.END_DOCUMENT) {
					return true;
				}
			}
		} catch (XMLStreamException e) {
			e.printStackTrace();
		}
		return false;
	}

	public XMLStreamReader getFilteredReader() {
		String xmlFile = TestStreamFilter.class.getResource("/").getFile()
				+ "users.xml";
		XMLInputFactory factory = XMLInputFactory.newFactory();
		XMLStreamReader reader;
		try {
			reader = factory.createXMLStreamReader(new FileReader(xmlFile));
			// 创建带有过滤器的读取器实例
			XMLStreamReader freader = factory
					.createFilteredReader(reader, this);
			return freader;
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (XMLStreamException e) {
			e.printStackTrace();
		}
		return null;
	}

	public void listUsers() {
		XMLStreamReader reader = getFilteredReader();
		try {
			// 列出所有用户的名称
			while (reader.hasNext()) {
				// 过滤工作已交由过滤器完成，这里不需要再做
				System.out.println("Name="
						+ reader.getAttributeValue(null, "name"));

				if (reader.getEventType() != XMLStreamConstants.END_DOCUMENT) {
					reader.next();
				}
			}
			reader.close();
		} catch (XMLStreamException e) {
			e.printStackTrace();
		}
	}

}

测试结果：

引用

Name=Tom
Name=Lily
Name=Frank
Name=Bob
Name=Kate

大家可能已经发现，这里有一个与之前处理不同的地方，就是我们先打印了用户的信息，再调用next()方法；这与java.util.Iterator的先调用next()方法，再获取对象信息不同。而之前我们一直采用的是与Iterator一样的处理代码。这里，就有一个问题需要说明。

对于XMLStreamReader的next()方法来说，第一次被调用的时候返回的是第二个标记（或事件）。要获得第一个标记，就需要在调用next()方法之前调用getEventType()方法。这是需要注意的地方。我们以上的代码之所以采用Java迭代器一样的处理方式，是因为第一个标记总是START_DOCUMENT，而我们不需要对它进行操作，因此就采用了一种熟悉的编码方式，方便大家理解。XMLEventReader的nextEvent()方法就不存在这样的问题。

EventFilter的用法与StreamFilter相同，不再举例说明。

StAX还为我们提供了另外一种隔离标记或事件对象过滤逻辑的方法，那就是StreamReaderDelegate和EventReaderDelegate这两个类，它们都位于javax.xml.stream.util.*包中。StAX API中大部分都是接口，这两个是确确实实的类。它们都做了同样的工作，就是分别包装了XMLStreamReader和XMLEventReader，并把所有的方法都委托（Delegate）给它们处理，既没有增加任何的方法或逻辑，也没有改变或删除任何方法，因此这里使用的是策略（Strategy）模式。我们可以采用装饰（Decorator）模式，给StreamReaderDelegate或EventReaderDelegate增加新的功能。请看下面的例子：

/**
 * 测试StreamReaderDelegate
 * 
 * @author zangweiren 2010-4-19
 * 
 */
public class TestStreamDelegate {

	public static void main(String[] args) {
		TestStreamDelegate t = new TestStreamDelegate();
		t.listUsers();
	}

	public XMLStreamReader getDelegateReader() {
		String xmlFile = TestStreamFilter.class.getResource("/").getFile()
				+ "users.xml";
		XMLInputFactory factory = XMLInputFactory.newFactory();
		XMLStreamReader reader;
		try {
			reader = new StreamReaderDelegate(factory
					.createXMLStreamReader(new FileReader(xmlFile))) {
				// 重写（Override）next()方法，增加过滤逻辑
				@Override
				public int next() throws XMLStreamException {
					while (true) {
						int event = super.next();
						// 保留用户元素的开始
						if (event == XMLStreamConstants.START_ELEMENT
								&& "user".equalsIgnoreCase(getLocalName())) {
							return event;
						} else if (event == XMLStreamConstants.END_DOCUMENT) {
							return event;
						} else {
							continue;
						}
					}
				}
			};
			return reader;
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (XMLStreamException e) {
			e.printStackTrace();
		}
		return null;
	}

	public void listUsers() {
		XMLStreamReader reader = this.getDelegateReader();
		try {
			while (reader.hasNext()) {
				reader.next();
				if (reader.getEventType() != XMLStreamConstants.END_DOCUMENT) {
					// 列出用户的名称和年龄
					System.out.println("Name="
							+ reader.getAttributeValue(null, "name") + ";age="
							+ reader.getAttributeValue(null, "age"));
				}
			}
			reader.close();
		} catch (XMLStreamException e) {
			e.printStackTrace();
		}
	}

}

测试结果：

引用

Name=Tom;age=28
Name=Lily;age=26
Name=Frank;age=32
Name=Bob;age=45
Name=Kate;age=25

EventReaderDelegate的用法与StreamReaderDelegate相同。

现在我们介绍完了StAX的两种解析XML文档的方式，大家也可能对它的使用有了自己的认识。我们最后总结一下：XMLStreamReader和XMLEventReader都允许应用程序迭代底层的XML流，区别在于它们如何对外提供解析后的XML信息片段。前者像个指针，指在刚刚解析过的XML标记的后面，并提供获得关于该标记更多信息的方法。因为不用创建新的对象，所以更节约内存。后者具有更多的面向对象特征，就是个标准的Java迭代器，解析器的当前状态反映在事件对象中，应用程序在处理事件对象的时候不需要访问解析器/读取器。

关于各种XML解析技术的优劣

除了我们刚刚介绍过的StAX这种Java 6.0新支持的XML文档解析技术之外，还有四种广为应用的解析方式，我们将对它们做一个简要介绍，并比较五种技术的优缺点以及性能表现，以供大家在开发中选择何种解析技术做参考。

一、DOM（Document Object Model）

文档对象模型分析方式。以层次结构（类似于树型）来组织节点和信息片段，映射XML文档的结构，允许获取和操作文档的任意部分。是W3C的官方标准。

引用

优点：
1、允许应用程序对数据和结构做出更改。
2、访问是双向的，可以在任何时候在树中上下导航，获取和操作任意部分的数据。

引用

缺点：
1、通常需要加载整个XML文档来构造层次结构，消耗资源大。

二、SAX（Simple API for XML）

流模型中的推模型分析方式。通过事件驱动，每发现一个节点就引发一个事件，通过回调方法完成解析工作，解析XML文档的逻辑需要应用程序完成。

引用

优点：
1、不需要等待所有数据都被处理，分析就能立即开始。
2、只在读取数据时检查数据，不需要保存在内存中。
3、可以在某个条件得到满足时停止解析，不必解析整个文档。
4、效率和性能较高，能解析大于系统内存的文档。

引用

缺点：
1、需要应用程序自己负责TAG的处理逻辑（例如维护父/子关系等），使用麻烦。
2、单向导航，很难同时访问同一文档的不同部分数据，不支持XPath。

三、JDOM（Java-based Document Object Model）

Java特定的文档对象模型。自身不包含解析器，使用SAX。

引用

优点：
1、使用具体类而不是接口，简化了DOM的API。
2、大量使用了Java集合类，方便了Java开发人员。

引用

缺点：
1、没有较好的灵活性。
2、性能较差。

四、DOM4J（Document Object Model for Java）

简单易用，采用Java集合框架，并完全支持DOM、SAX和JAXP。

引用

优点：
1、大量使用了Java集合类，方便Java开发人员，同时提供一些提高性能的替代方法。
2、支持XPath。
3、有很好的性能。

引用

缺点：
1、大量使用了接口，API较为复杂。

五、StAX（Streaming API for XML）

流模型中的拉模型分析方式。提供基于指针和基于迭代器两种方式的支持。

引用

优点：
1、接口简单，使用方便。
2、采用流模型分析方式，有较好的性能。

引用

缺点：
1、单向导航，不支持XPath，很难同时访问同一文档的不同部分。

为了比较这五种方式在解析XML文档时的性能表现，我们来创建三个不同大小的XML文档：smallusers.xml（100KB）、middleusers.xml（1MB）、bigusers.xml（10MB）。我们分别用以上五种解析方式对这三个XML进行解析，然后打印出所有的用户信息，并分别计算它们所用的时间。测试代码会在文章后面的附件中给出，这里只比较它们的耗时。

单位：s（秒）

	100KB	1MB	10MB
DOM	0.146s	0.469s	5.876s
SAX	0.110s	0.328s	3.547s
JDOM	0.172s	0.756s	45.447s
DOM4J	0.161s	0.422s	5.103s
StAX Stream	0.093s	0.334s	3.553s
StAX Event	0.131s	0.359s	3.641s

由上面的测试结果可以看出，性能表现最好的是SAX，其次是StAX Stream和StAX Event，DOM和DOM4J也有着不错的表现。性能最差的是JDOM。

所以，如果你的应用程序对性能的要求很高，SAX当然是首选。如果你需要访问和控制任意数据的功能，DOM是个很好的选择，而对Java开发人员来讲，DOM4J是更好的选择。

如果只需要做XML文档解析的话，综合性能、易用性、面向对象特征等各方面来衡量，StAX Event无疑是最好的选择。

附录：

附件中包含该文章中用到的全部示例代码，分为两个Eclipse工程：GreatTestProject和XMLTest，均可编译执行。GreatTestProject是对StAX API的示例代码；而XMLTest所有五种解析方式的使用示例，并可以针对它们做性能测试。其中，XMLTest工程的jar包默认是用maven来管理的，你可以根据需要修改。

StAX-XML-zangweiren.rar (51.3 KB)
下载次数: 453

你可能感兴趣的:(XML,Java,应用服务器,网络应用,数据结构)

reduce 到底是什么？Java8 Stream 的终极聚合工具详解程序员
reduce()是JavaStreamAPI提供的一个终端操作方法，用于将流中的元素组合起来生成一个单一的值。这一方法非常强大，可以实现累积、聚合、拼接等功能，适用于各种数据处理场景。1.reduce()方法的作用reduce()是一个通用的归约操作，它通过一个关联函数，逐个处理流中的每个元素，将其累积为一个值。方法签名如下：无初始值的reduceOptionalreduce(BinaryOper
java race condition_Java多线程Race Condition vs. Data Race 邢仁 java race condition
http://blog.regehr.org/archives/490Araceconditionisaflawthatoccurswhenthetimingororderingofeventsaffectsaprogram’scorrectness.Generallyspeaking,somekindofexternaltimingororderingnon-determinismisneede
深挖 Java8的Stream.flatMap：你不知道的流式操作技巧程序员
flatMap()是Java8StreamAPI的核心方法之一，主要用于将嵌套结构展开并生成一个新的流。它的强大之处在于能够处理复杂数据结构并将其转换为简单的线性流。以下是flatMap()的常见用法和应用场景：1.将嵌套集合展开为单一流用法处理嵌套的List或Set，将其扁平化为单一流。示例代码importjava.util.*;importjava.util.stream.Collectors
华为OD机试E卷 --寻找符合要求的最长子串 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述给你一个字符串s，字符串s首尾相连成一个环形，请你在环中找出‘l’、‘o’、‘x’字符都恰好出现了偶数次最长子字符串的长度。输入描述输入是一串小写的字母组成的字符串输出描述输出是一个整数备注•1≤s.length≤5*10^5•s只包含小写英文字母用例输入alolobo输出6
华为OD机试E卷 --最大值--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述给定—组整数(非负)，重排顺序后输出一个最大的整数。示例1输入:[10,9]输出:910说明:输出结果可能非常大，所以你需要返回一个字符串而不是整数。输入描述数字组合输出描述最大的整数用例输入109输出910说明无题目解析给定一组非负整数，我们需要对这些整数进行重排，使得重新
华为OD机试C卷-- 字符串变换最小字符串（Java & JS & Python & C）飞码创造者华为OD机试题库华为od c语言 java javascript python
获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述给定一个字符串s，最多只能进行一次变换，返回变换后能得到的最小字符串（按照字典序进行比较）。变换规则：交换字符串中任意两个不同位置的字符。输入描述一串小写字母组成的字符串s输出描述按照要求进行变换得到的最小字符串。备注s是都是小写字符组成1≤s.
华为OD上机考试真题（Java）——最长方连续方波信号程序员buddha2080 华为OD机考华为od java 开发语言
题目描述：输入一串方波信号，求取最长的完全连续交替方波信号，并将其输出，如果有相同长度的交替方波信号，输出任一即可，方波信号高位用1标识，低位用0标识，如图：说明：一个完整的信号一定以0开始然后以0结尾，即010是一个完整信号，但101，1010，0101不是输入的一串方波信号是由一个或多个完整信号组成两个相邻信号之间可能有0个或多个低位，如0110010，011000010同一个信号中可以有连续
大数据学习记录，Java基础（3）灵敏的迅捷蟹大数据学习 java
面向对象面向对象的特征：封装随着系统越来越复杂，类会越来越多，那么类之间的访问边界必须把握好，面向对象的开发原则要遵循“高内聚、低耦合”，而“高内聚，低耦合”的体现之一：高内聚：类的内部数据操作细节自己完成，不允许外部干涉；低耦合：仅暴露少量的方法给外部使用，尽量方便外部调用封装可以认为是一个保护屏障，防止该类的代码和数据被其他类随意访问，加强了代码的安全性。隐藏对象内部的复杂性，只对外公开简单和
想要冲击腾讯的朋友不要错过 go后端
今天要和大家分享的是我们训练营内部整理的腾讯校招的二面面经，之前发过一面的面经，也想学习一下的朋友可以点击这里。本次的面试重点为计算机网络、操作系统、数据结构、中间件及缓存等方面，同样，我已经把所有的问题和答案都整理好了：堆和栈有什么区别答案：堆和栈在多个方面存在区别。内存分配方式：栈由程序自动创建和释放，用于存储函数调用时的临时变量、函数的返回地址等；堆则由程序员手动申请和释放，通常用于存储程序
《零基础Go语言算法实战》【题目 4-8】用 Go 语言设计一个遵循最近最少使用（LRU）缓存约束的数据结构廖显东-ShirDon 讲编程算法程序员 go语言 web编程 go web 算法
《零基础Go语言算法实战》【题目4-8】用Go语言设计一个遵循最近最少使用（LRU）缓存约束的数据结构实现LRUCache类。●LRUCache(intcapacity)：初始化具有正大小容量的LRU缓存。●intget(intkey)：如果key存在，则返回key的值；否则返回-1。●voidput(intkey,intvalue)：如果键存在，则更新键的值；否则将键值对添加到缓存中。如果密钥数
Java进阶-在Ubuntu上部署SpringBoot应用
随着云计算和容器化技术的普及，Linux服务器已成为部署Web应用程序的主流平台之一。Java作为一种跨平台的编程语言，具有广泛的应用场景。本文将详细介绍如何在Ubuntu服务器上部署Java应用，包括环境准备、应用发布、配置反向代理（Nginx）、设置系统服务以及日志管理等步骤。一、部署准备在开始之前，请确保你具备以下条件：一台运行Ubuntu（如Ubuntu20.04或22.04）的服务器，具
springBoot整合mongdb 一决威严-雪雪 2024java开发整理 spring boot 后端 java
1.添加依赖首先，在你的pom.xml文件中添加MongoDB的依赖： org.springframework.boot spring-boot-starter-data-mongodb2.配置MongoDB连接在application.properties或application.yml文件中配置MongoDB的连接信息：spring:data:mongodb:uri:mongodb:/
关于商品详情 API 接口 JSON 格式返回数据解析的示例 csrfweb3php
以下是一个关于商品详情API接口JSON格式返回数据解析的示例，不同的电商平台或者业务场景下具体数据结构会有所差异，大致的解析思路可以参考以下内容：一：示例JSON数据结构假设我们有如下一段模拟的商品详情API接口返回的JSON格式数据：{"product":{"id":"123456","name":"示例商品","description":"这是一款很实用的示例商品，具备多种功能。","pri
只有 1% 的开发人员能在 60 秒内找到代码中的错误
CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读下面这段简单的JavaScript代码里藏着一个不起眼但足以让人抓狂的错误：functiongetResult(a,b){return{result:a+b};}console.log(getResult(2,3));//结果真的是5吗？表面看上去，这只是一个“把两个数相加，然后返回对象”的函数，可实际运行后却并非预期的{resul
某讯面试中常见的Java多线程面试题 java多线程面试问题后端
这是我花费时间为大家整理的腾讯面试中常问的多线程面试题，看看你掌握多少？1.什么是进程？什么是线程？2.说说线程的生命周期和状态?3.什么是上下文切换？4.创建线程创建的方式都有哪些？5.synchronized关键字的作用6.线程池的核心构造参数有哪些？1.什么是进程？什么是线程？什么是进程？进程是程序的一次执行过程，是系统运行程序的基本单位，因此进程是动态的。系统运行一个程序即是一个进程从创建
IDEA 中编写 MyBatis 的 XML 文件，parameterType 无法跳转到类 Cannot find declaration to go to. _Max_Ma MyBatis intellij-idea mybatis xml
出现上图的问题，resultMap标签中的type和parmeterType中的类报红且无法跳转到对应的类中，此问题可能有几个原因：1.没有配置别名2.没有写全路径解决方法：alias配置别名（具体可以看其他文章的配置）写全类路径
事件监听，不同按钮爱做ppt的阿伟 python 前端数据库
packagejj;importjava.awt.BorderLayout;importjava.awt.Color;importjava.awt.Container;importjava.awt.Dimension;importjava.awt.FlowLayout;importjava.awt.Graphics;importjava.awt.Panel;importjava.awt.event
json相关内容(python) 大哥喝阔落 json python 开发语言
JSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。Python提供了json模块来处理JSON数据。以下是关于Python中JSON的详细内容：1.导入json模块importjson2.将Python对象转换为JSON字符串使用json.dumps()函数可以将Python对象（如字典、列表、字符串、数字等）转换为JS
百万架构师第十三课：源码分析：Spring 源码分析：Spring核心IOC容器及依赖注入原理｜JavaGuide 后端
20180415-Spring核心IOC容器及依赖注入原理ClassPathXmlApplicationContext//存储注册信息的BeanDefinition//传说已久的IOC容器privatefinalMapbeanDefinitionMap=newConcurrentHashMapTdoGetBean(finalStringname,@NullablefinalClassrequire
pandas 大哥喝阔落 pandas
pandasPandas内置数据结构我们知道，构建和处理二维、多维数组是一项繁琐的任务。Pandas为解决这一问题，在ndarray数组（NumPy中的数组）的基础上构建出了两种不同的数据结构，分别是Series（一维数据结构）DataFrame（二维数据结构）：Series是带标签的一维数组，这里的标签可以理解为索引，但这个索引并不局限于整数，它也可以是字符类型，比如a、b、c等；DataFra
基于Tkinter和Canvas实现PCB产品的Map分布展示卤蛋叔叔 Tkinter Canvas Map python
本文是基于SEMI的G85文件（文件格式类型为XML），和Python的Tkinter和Canvas模块实现PCB/SUB（芯片基板）类型的产品的检测缺陷的Map分布展示，第一部分主要对程序的页面进行展示1、Lot_Map叠合的页面主要分为两个页面图，通过点击获取文件按钮（获取的文件格式为固定的G85文件，示例如图2），获取指定格式路径下的文件后，左边页面：点击获取MergeMap明细，可获取到所
Google Firebase ANE 使用教程 lilili啊啊啊移动开发 google firebase adobe air ane admob ane google analysis
GooleFirebaseANE使你可以轻松的在app里面集成google统计和admob到adobeair制作的游戏和应用中您可以使用它与AiriOS和AndroidApp使用相同的actionscript代码，不需要任何更改，不需要java或者ocFirebaseANE适用于AdobeAIR功能-[x]支持Firebase分析-[x]支持Admob准备firebase资源文件1.从[Fireb
groovy性能测试，groovy和java性能对比 lilili啊啊啊 groovy groovy性能对比 groovy性能测试
看groovy的接口和api很神奇的，想用用，用之前做了个小的性能测试，结果令人目瞪口呆classMain{staticmain(args){defstart=System.currentTimeMillis();for(inti=1;i<100000000;i++){Math.sin(1.5);}defend=System.currentTimeMillis();printlnend-start
【列表复制】详解python中list列表复制的几种方法（赋值、切片、copy()，deepcopy()）有梦想的程序星空 Python开发教程 python 开发语言
在Python编程领域，列表是一种极为常用的数据结构，用于存储多个元素的有序集合。当涉及到对列表进行复制操作时，浅拷贝和深拷贝是两种重要的概念与技术手段，它们在处理列表数据的过程中有着截然不同的行为和影响，深刻理解二者的差异与应用场景对于编写高效、准确且健壮的Python代码至关重要。1、浅拷贝和深拷贝浅拷贝复制指向某个对象的地址（指针），而不复制对象本身，新对象和原对象共享同一内存。深拷贝会额外
百万架构师第八课：设计模式：设计模式容易混淆的几个对比｜JavaGuide 后端
设计模式容易混淆的几个对比.md1、代理模式跟委派模式混淆委派就是说全权代理代理只参与某一个环节，委派参与整个环节委派可以说是一个静态代理Porxy传一个接口，传实现类不行吗？Java核心思想：面向接口编程OOP：用代码来解释生活接口：只是一种规范，做任何事前以前先思考好以后，再去动手（制定好规范），三思而后行实现类:必须先有接口，开发顺序天生决定了中介：租房子代理人（专业化），要租房子的人，也
ubuntu18.04下配置muduoC++11环境
在Ubuntu18.04上配置MuduoC++11环境的详细步骤Muduo是一款高性能的C++网络库，广泛用于高并发、高性能的网络应用程序开发。本文将详细介绍如何在Ubuntu18.04上配置Muduo并启用C++11特性。1.安装必要的依赖在开始配置之前，我们需要确保安装了构建工具和必要的依赖库。这包括了CMake（用于构建系统）和g++（C++编译器）。步骤：打开终端并执行以下命令：sudoa
华为OD机试E卷 - 单词接龙（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c++C
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述单词接龙的规则是：可用于接龙的单词首字母必须要前一个单词的尾字母相同；当存在多个首字母相同的单词时，取长度最长的单词，如果长度也相等，则取字典序最小的单词；已经参与接龙的单词不能重复使用。现给定一组全部由小写字母组成单词数组，并指定其中的一个单词作为起始单词，进行单词接龙，请输出最长的单词串，单词串是单词拼接而成，中间
Java 大视界 -- Java 大数据平台迁移与升级策略：平滑过渡的方法（十四）青云交大数据新视界 Java 大视界大数据平台迁移升级大数据平台升级平滑过渡数据迁移应用程序适配性能测试 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 大数据测试框架与实践：确保数据处理质量（十二）青云交大数据新视界 Java 大视界大数据大数据测试框架 Java 大数据测试测试框架数据处理质量数据清洗数据采集 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Java 大视界 -- Java 分布式协调服务：Zookeeper 在大数据中的应用（十一）青云交 Java 大视界大数据新视界大数据 Zookeeper 分布式协调数据存储应用场景性能优化节点操作 java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag