XML(extensible markup language)可扩展标记语言,无所不在。XML 是各种应用程序之间进行数据传输的最常用的工具,并且在信息存储和描述领域变得越来越流行。
在java中常见的有四种解析XML的方式 DOM、SAX、JDOM、DOM4J。下面方便简单介绍下,最后会有一个DOM4J解析、修改XML的例子,因为DOM4J是目前这4种方法里性能最好,功能最强、最经常使用的。
DOM(document object model)是html和xml的应用程序接口(API),以层次结构(类似于树型)来组织节点和信息片段,映射XML文档的结构,允许解析和操作文档的任意部分,是W3C的官方标准,
优点:1.允许应用程序对数据和结构做出更改;
2.访问是双向的,可以在任何时候在树中上下导航,获取和操作任意部分的数据;
缺点:1.在解析前需要把整个XML文档载入内存,比较耗内存;
2.性能不好;
3.操作起来比较繁琐
Sax(simple API for XML)拥有通过事件驱动API,每发现一个节点就引发一个事件,事件推给事件处理器,通过回调方法完成解析工作,SAX只能解析XML不能对XML进行修改删除操作。
优点:1.SAX在某些方面要优于DOM,在内存使用方面比DOM少,因为它不需要把整个XML文件载入内存;
2.相对于DOM解析器,SAX的解析效率更高,可以解析大于系统内存的文件;
缺点:1.单向导航,无法定位文档层次,很难同时访问同一文档的不同部分数据,不支持XPath。
JDOM(java document object model)Java特定的文档对象模型。自身不包含解析器,一般使用SAX解析xml。使用时需要映入jdom.jar包 。
优点:1.使用具体类而不是接口,简化了DOM的API;
2.大量使用了Java集合类,方便了Java开发人员;
3.速度快
缺点:1.不能处理大于内存的文档;
2.灵活性不高
Dom4j(documentobject model for java)是个非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,是dom4j.org出品的一个开源XML解析包,一个易用的、开源的库,用于XML,XPath和XSLT。它应用于Java平台,采用了Java集合框架并完全支持DOM,SAX和JAXP。
现在很多java软件都使用DOM4J解析XML,包括hibernate。使用DOM4J时需要导入DOM4J.jar 和jaxen.jar两个包,
(如果没有导入jaxen.jar包,而在代码中使用了selectNodes()会报java.lang.NoClassDefFoundError: org/jaxen/JaxenException错误)
DOM4J解析、修改XML的例子:(关于xpath的用法可以点击看这里)
xml文件
<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="students.xsl"?> <students> <student sn="01" flag="ok"> <name>sam</name> <age>18</age> </student> <student sn="01"> <name>sam</name> <age>18</age> </student> <student sn="02"> <name>lin</name> <age>20</age> </student> <s>ss</s> <complex att="att1"> <node1>node1</node1> </complex> </students>
package com.dxswzj.dom; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.util.Iterator; import java.util.List; import org.dom4j.Attribute; import org.dom4j.Document; import org.dom4j.DocumentException; import org.dom4j.Element; import org.dom4j.Node; import org.dom4j.io.SAXReader; import org.dom4j.io.XMLWriter; public class xmlCRUDDOM4J { public void modifyDocument(File inputXml) { try { SAXReader saxReader = new SAXReader(); Document document = saxReader.read(inputXml); Node node = document.selectSingleNode("//students/s"); System.out.println(node.getText()); Node node2 = document.selectSingleNode("//students/complex"); node2.setName("ff");//修改节点的名称 //查询节点为student 属性sn=“01”的节点, 如果过滤多个属性的话 这样写 "//students/student[@sn='01' and @flag='ok']" List list0 = document.selectNodes("//students/student[@sn='01']"); Iterator iter0 = list0.iterator(); while(iter0.hasNext()){ Element elm = (Element)iter0.next(); Iterator iterAge = elm.elementIterator("age"); while(iterAge.hasNext()){ Element elmAge = (Element)iterAge.next(); elmAge.setText("202"); } } //后面加个@标示是找属性的 list里保存是属性 迭代的时候 Attribute attribute = (Attribute) iter.next(); List list = document.selectNodes("//students/student/@sn"); Iterator iter = list.iterator(); while (iter.hasNext()) { Attribute attribute = (Attribute) iter.next(); if (attribute.getValue().equals("01")) attribute.setValue("001"); } list = document.selectNodes("//students/student"); iter = list.iterator(); while (iter.hasNext()) { Element element = (Element) iter.next(); Iterator iterator = element.elementIterator("name"); while (iterator.hasNext()) { Element nameElement = (Element) iterator.next(); if (nameElement.getText().equals("sam")) nameElement.setText("jeff"); } } XMLWriter output = new XMLWriter(new FileWriter(new File( "modified.xml"))); output.write(document); output.close(); } catch (DocumentException e) { System.out.println(e.getMessage()); } catch (IOException e) { System.out.println(e.getMessage()); } } public static void main(String[] argv) { xmlCRUDDOM4J dom4jParser = new xmlCRUDDOM4J(); dom4jParser.modifyDocument(new File("students-gen.xml")); } }
<?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="students.xsl"?><students> <student sn="001" flag="ok"> <name>jeff</name> <age>202</age> </student> <student sn="001"> <name>jeff</name> <age>202</age> </student> <student sn="02"> <name>lin</name> <age>20</age> </student> <s>ss</s> <ff att="att1"> <node1>node1</node1> <k>sfsss</k> </ff> <k>sf</k> </students>