DOM4J学习笔记

DOM4J简单介绍
基本使用
读取XML文档
Import org.dom4j.io.SAXReader;
Import org.dom4j.Document;
Import org.dom4j.DocumentException;

private Document doc;

public void setDocument(File xmlFile) throws DocumentException{
      SAXReader sax = new SAXReader();
      /**
      Read的参数类型,可为:java.net.URL、String、java.io.InputStream等
      */
      This.doc = sax.read(xmlFile);
}


创建XML文档
Import org.dom4j.DocumentFactory;
Import org.dom4j.Document;
Import org.dom4j.Element;

Document doc = DocumentFacotry.getInstance().createDocument();
Element root = Doc.addElement(rootElementName);//添加根节点,返回根节点元素

Element author1 = root.addElement(“author”)
                .addAttribute(“name”,”tom”)//添加属性
                .addAttribute(“location”,”上海”)//添加属性
                .addText(“这是第一个”);//添加文本节点

保存XML
Import org.dom4j.io.XMLWriter;
Import org.dom4j.io.OutputFormat;
Import java.io.OutputStream;
Import org.dom4j.Document;

OutputFormat format = OutputFormat.createPrettyPrint();
Format.setEncoding(“GB2312”);//不设置,默认使用UTF-8
XMLWriter writer = new XMLWriter(outputStream,format);
Writer.write(document);
Writer.flush();

文档元素访问方法
Iterator
Public void vistorElement(Element e){
Iterator elementIterator = e.elementIterator();
//Iterator elementIterator = root.elementIterator(aFilterElementName);

    while(elementIterator.hasNext()){
      Element elmeent = (Element)elementIterator.next();
      System.out.println(element.getName());
     
    
     
     }
}

Index
public void treeWalk(Element element) {
    for ( int i = 0, size = element.nodeCount(); i < size; i++ ) {
      Node node = element.node(i);
      if ( node instanceof Element ) {
        treeWalk( (Element) node );
      }
      else {
        // do something....
      }
    }

List

XPATH
Import org.dom4j. DocumentHelper;
Import org.dom4j.XPath;
Import org.dom4j.Document;

Public void selectByXPath(){
      XPath path = DocumentHelper.createXPath(“/people/dj[@name=’joys’]”);

List list = Path.selectNodes(doc);

For(Iterator it = list.iterator();it.hasNext();){
     Element e = (Element)it.next();

}

//Path.selectSingleNode(doc);
//doc.valueOf(“xpath expression”);
}
部分API介绍
DocumentFactory
getInstance()
createDocument()、createDocument(String encoding)、createDocument(Element root)
创建文档,可以无参数,或者参数为字符串(编码方式),或者为(根目录)
createXPath(String xpathExpression)
解析xpathExpression,创建一个XPath对象
DocumentHelper
createDocument()、createDocument(Element root)
createXPath(String xpathExpression)
parseText(String text)
解析提供的文本为XML DOCUMENT,返回一个新的DOCUMENT对象
XPath
selectNodes(Object context)
context—是一个Node对象或者是一个Node对象的List集E合,DOCUMENT,ATTRIBUTE、ELEMENT,都实现了NODE接口
执行XPath表达式,并返回一个单独的LIST<Node>
selectSingleNode(Object context)
Node
asXML()
getName()
getText()
selectNodes(String xpathExpression)
selectSingleNode(String xpathExpression)
valueOf(String xpathExpression)

Branch
normalize()
格式化所有的节点及其所有深层的子树,包含attribute等,节点之间不能是连接的文本节点或者是内容为空的文本节点
nodeCount()
该对象包含的节点数
node(int index)
一般连同nodeCount()使用,
index ---- 索引
remove(Node node)
remove(Element element)
add(Node node)
add(Element element)
addElement(String name)
nodeIterator()
Element
addAttribute(String name,String value)
attributeIterator()
elementIterator()
remove(Text text)
remove(Attribute attribute)
getText()
getTextTrim()
Boolean isRootElement()

Attribute
getValue()
XPATH介绍
<AAA>
          <BBB/>
          <CCC/>
          <BBB/>
          <BBB/>
          <DDD>
               <BBB/>
          </DDD>
          <CCC/>
     </AAA>

一、基本的XPATH语法和文件系统相似,如果它是以斜线“/”开始,它是描述请求元素的绝对路径。
范例结构:
访问元素“AAA”---- “/AAA” 。
访问元素“CCC” --- “/AAA/CCC”,访问根目录AAA下面的子节点CCC,本例会得到两个节点的集合。
访问根节点AAA的子节点DDD的子节点BBB:“/AAA/DDD/BBB”,本例会得到一个节点(标红色的节点)”<DDD><BBB/></DDD>”


二、如果路径表达式以“//”开始,它会查找所有符合规则的元素
范例结构:
“//BBB”,选择所有的元素<BBB/>,本例中共有四处
“//DDD/BBB”,选择元素节点“DDD”下的子节点“BBB”,只要满足元素“BBB”为“DDD”的子元素,就会被选择,

三、“*”选择所有由前面路径定位的元素
范例:
“/AAA/*”表示选择根节点下所有的元素
“/*/CCC”选择有一个父元素的“CCC”元素,“/*/*/BBB”选择第三级的根节点下的所有的“BBB”元素
“//*”表示匹配所有的元素

四、在方括号中的表达式可以进一步的指定元素,方括号中的数字表示被选择元素集合的位置,last()函数表示被选择元素集的最后一个元素
“/AAA/BBB[2]” 表示根节点下“BBB”元素集合的第二个元素
“/AAA/BBB[last()]” 表示根节点下“BBB”元素集合的最后一个元素

五、“@”表示属性
<AAA>
          <BBB id = "b1"/>
          <BBB id = "b2"/>
          <BBB name = "bbb"/>
          <BBB/>
     </AAA>
“//@id”表示所有的名为“id”属性

“//BBB[@id]”表示所有含有ID属性的BBB元素

“//BBB[@*]”表示含有属性的所有的BBB元素,本例中的<BBB/>不会被选择,其它三个被选中

“//BBB[not(@*)]”表示没有属性的元素,本例中<BBB/>被选中,其它的三个元素不被选择

六、属性的值可以做为选择标准,函数“normalize-space”可以移掉头部和尾部的空格,或者用单个的空格替换

“//BBB[@id=’b1’]”:选择属性值为“b1”的元素“BBB”
<AAA>
          <BBB id = "b1"/>
          <BBB name = " bbb "/>
          <BBB name = "bbb"/>
     </AAA>

“//BBB[@name=’bbb’]”:选择属性值为“bbb”的元素,注意由于每一个属性名为name的元素“BBB”,其值有空格,不会被选择。
“//BBB[normalize-space(@name)='bbb']”:选择名称为“name”的,其值为“bbb”,值前后可以有空格,本例则会选择两个“BBB”元素

七、函数count(*):计算选择元素的个数
“//*[count(BBB)=2]”,选中含两个“BBB”子元素的元素

“//*[count(*)=2]”,选中含有两个子元素的元素

其它的规则暂时不介绍,详情见:http://www.zvon.org/xxl/XPathTutorial/General/examples.html

你可能感兴趣的:(xml,.net)