xml解析神器PK,花落谁家?Jsoup Or Xpath?

原文:点击打开链接

今天简单测了下使用Jsoup和Xpath解析XML的文件的方便程度,两者都可以完成解析,提取特定的元素或节点内容,但明显Jsoup更胜一筹,我们都知道Xpath是专业的xml结构化文档的查询语言,虽然语法功能强大,但是代码还是比较繁琐。虽然jsoup的出现,并不是专门用来解析XML使用的,但是使用jsoup这个轻巧的类库,我们可以完成网页抓取,HTML解析,模拟登陆等一些功能,jsoup完全仿Jquery的语法,提供了强大的操作DOM的能力,即高效又灵活,本篇,散仙仅仅通过一个简单的例子,来说明,jsoup如何以更少的代码,来完成更多的事。 


解析的xml的例子如下: 


Xml代码   收藏代码
  1. <?xml version="1.0" encoding="UTF-8"?>  
  2.   
  3. <inventory>  
  4.     <book year="2000">  
  5.         <title>Snow Crash</title>  
  6.         <author>Neal Stephenson</author>  
  7.         <publisher>Spectra</publisher>  
  8.         <isbn>0553380958</isbn>  
  9.         <price>14.95</price>  
  10.     </book>  
  11.    
  12.     <book year="2005">  
  13.         <title>Burning Tower</title>  
  14.         <author>Larry Niven</author>  
  15.         <publisher>Pocket</publisher>  
  16.         <isbn>0743416910</isbn>  
  17.         <price>5.99</price>  
  18.     </book>  
  19.    
  20.     <person year="2014">  
  21.         <title>你好</title>  
  22.         <author>星际旅行</author>  
  23.         <publisher>工业出版社</publisher>  
  24.         <isbn>2555555555</isbn>  
  25.         <price>53.5</price>  
  26.     </person>  
  27.    
  28.     <book year="1995">  
  29.         <title>Zodiac</title>  
  30.         <author>Neal Stephenson</author>  
  31.         <publisher>Spectra</publisher>  
  32.         <isbn>0553573862</isbn>  
  33.         <price>57.50</price>  
  34.     </book>  
  35. </inventory>  


测试功能如下:打印book下的标题和价格,先看下xpath的写法:  
Java代码   收藏代码
  1.  package com.testxpath;  
  2.   
  3. import javax.xml.parsers.DocumentBuilder;  
  4. import javax.xml.parsers.DocumentBuilderFactory;  
  5. import javax.xml.xpath.XPath;  
  6. import javax.xml.xpath.XPathConstants;  
  7. import javax.xml.xpath.XPathExpression;  
  8. import javax.xml.xpath.XPathFactory;  
  9.   
  10. import org.w3c.dom.Document;  
  11. import org.w3c.dom.Node;  
  12. import org.w3c.dom.NodeList;  
  13.   
  14. public class XpathDemo {  
  15.   
  16.       
  17.   
  18.     public static void main(String[] args) throws Exception{  
  19.           
  20.           
  21.           
  22.         //Jaxp解析文档  
  23.         DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();  
  24.         factory.setNamespaceAware(true);  
  25.         DocumentBuilder builder=factory.newDocumentBuilder();  
  26.         Document doc=builder.parse("a.xml");  
  27.           
  28.    
  29.         XPathFactory xft=XPathFactory.newInstance();  
  30.         XPath xpath=xft.newXPath();  
  31.         XPathExpression expr=xpath.compile("//book/title//text() | //book/price//text()");//某个元素下的所有元素  
  32.         Object result=expr.evaluate(doc, XPathConstants.NODESET);  
  33.         NodeList nodes=(NodeList)result;  
  34.         for(int i=0;i<nodes.getLength();i++){  
  35.             Node item = nodes.item(i);  
  36.             System.out.println("  节点名:   "+item.getNodeName()+"  节点值: "+item.getNodeValue());  
  37.         }  
  38.                   
  39.           
  40.           
  41.           
  42.     }  
  43.       
  44. }  



再看下jsoup的写法:  
Java代码   收藏代码
  1. package com.testxpath;  
  2.   
  3. import java.io.File;  
  4.   
  5. import org.jsoup.Jsoup;  
  6. import org.jsoup.nodes.Document;  
  7. import org.jsoup.nodes.Element;  
  8. import org.jsoup.select.Elements;  
  9.   
  10. public class JsoupDemo {  
  11.       
  12.     public static void main(String[] args) throws Exception{  
  13.           
  14. //      Document d=Jsoup.parse("a.xml");//无效  
  15.         Document d=Jsoup.parse(new File("a.xml"),"UTF-8");//必须使用这种方式解析  
  16.         for(Element el:d.select("book")){  
  17.             System.out.println("标题:"+el.select("title").text()+"  价格: "+el.select("price").text());  
  18.            
  19.         }  
  20.           
  21.     }  
  22.   
  23. }  



从上面一个简单的功能,就能看出jsoup的简单,快捷,强大之处了,而且操作的元素非常规整,而Xpath则比较乱,虽然可以拿到具体的文本,但是不规整,想把相关的元素的放在一行打印显示,还需要做一些工作。 

当然xpath和jsoup的功能,远远不如此,xpath在过滤关面,有很多用法,非常强大,但是节点的准确定位,遍历查询方面,比较弱,而jsoup则使用CSS Query的用法,非常贴切,只要你会用jquery,css,基本使用jsoup都是手到擒来的事,此外,jsoup的强大之处还在网页解析和抽取,有兴趣的朋友,可以了解一下,散仙在这里就不多涉及了. 

你可能感兴趣的:(xml)