解析神器PK,花落谁家?Jsoup Or Xpath?

阅读更多

今天简单测了下使用Jsoup和Xpath解析XML的文件的方便程度,两者都可以完成解析,提取特定的元素或节点内容,但明显Jsoup更胜一筹,我们都知道Xpath是专业的xml结构化文档的查询语言,虽然语法功能强大,但是代码还是比较繁琐。虽然jsoup的出现,并不是专门用来解析XML使用的,但是使用jsoup这个轻巧的类库,我们可以完成网页抓取,HTML解析,模拟登陆等一些功能,jsoup完全仿Jquery的语法,提供了强大的操作DOM的能力,即高效又灵活,本篇,散仙仅仅通过一个简单的例子,来说明,jsoup如何以更少的代码,来完成更多的事。

解析的xml的例子如下:





    
        Snow Crash
        Neal Stephenson
        Spectra
        0553380958
        14.95
    
 
    
        Burning Tower
        Larry Niven
        Pocket
        0743416910
        5.99
    
 
    
        你好
        星际旅行
        工业出版社
        2555555555
        53.5
    
 
    
        Zodiac
        Neal Stephenson
        Spectra
        0553573862
        57.50
    


测试功能如下:打印book下的标题和价格,先看下xpath的写法:
 package com.testxpath;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.xpath.XPath;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathExpression;
import javax.xml.xpath.XPathFactory;

import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;

public class XpathDemo {

	

	public static void main(String[] args) throws Exception{
		
		
		
		//Jaxp解析文档
		DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
		factory.setNamespaceAware(true);
		DocumentBuilder builder=factory.newDocumentBuilder();
		Document doc=builder.parse("a.xml");
		
 
		XPathFactory xft=XPathFactory.newInstance();
		XPath xpath=xft.newXPath();
		XPathExpression expr=xpath.compile("//book/title//text() | //book/price//text()");//某个元素下的所有元素
		Object result=expr.evaluate(doc, XPathConstants.NODESET);
		NodeList nodes=(NodeList)result;
		for(int i=0;i 
 


再看下jsoup的写法:
package com.testxpath;

import java.io.File;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupDemo {
	
	public static void main(String[] args) throws Exception{
		
//		Document d=Jsoup.parse("a.xml");//无效
		Document d=Jsoup.parse(new File("a.xml"),"UTF-8");//必须使用这种方式解析
		for(Element el:d.select("book")){
			System.out.println("标题:"+el.select("title").text()+"  价格: "+el.select("price").text());
		 
		}
		
	}

}



从上面一个简单的功能,就能看出jsoup的简单,快捷,强大之处了,而且操作的元素非常规整,而Xpath则比较乱,虽然可以拿到具体的文本,但是不规整,想把相关的元素的放在一行打印显示,还需要做一些工作。

当然xpath和jsoup的功能,远远不如此,xpath在过滤关面,有很多用法,非常强大,但是节点的准确定位,遍历查询方面,比较弱,而jsoup则使用CSS Query的用法,非常贴切,只要你会用jquery,css,基本使用jsoup都是手到擒来的事,此外,jsoup的强大之处还在网页解析和抽取,有兴趣的朋友,可以了解一下,散仙在这里就不多涉及了.


你可能感兴趣的:(xml解析,xpath,jsoup)