Java使用jsoup解析html

本文以 http://mobile.csdn.net/ 为例,解析出界面中的列表,代码如下:

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class Demo {
	public static void main(String[] args) {

		// 从 URL 直接加载 HTML 文档
		try {
			Document document = Jsoup.connect("http://mobile.csdn.net/").get();
			Elements elements = document.getElementsByClass("unit");
			System.out.println(elements.toString());
			for(Element element : elements){
				Document innerDocument = Jsoup.parse(element.html());
				Element link = innerDocument.select("a").first();
				String linkHref = link.attr("href"); // "http://example.com/"//取得链接地址
				String linkText = link.text(); // "example""//取得链接地址中的文本
				System.out.println("链接:" + linkHref);
				System.out.println("内容:" + linkText);
				Elements ago = innerDocument.getElementsByClass("ago");
				String agoText = ago.text().toString();
				System.out.println("发表时间:" + agoText);
				Elements viewTime = innerDocument.getElementsByClass("view_time");
				String viewTimeText = viewTime.text().toString();
				System.out.println("次数:" + viewTimeText);
				Elements numRecom = innerDocument.getElementsByClass("num_recom");
				String numRecomText = numRecom.text().toString();
				System.out.println("评论:" + numRecomText);
				System.out.println("================================");
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

jsoup api中文版地址: http://www.open-open.com/jsoup/ 

你可能感兴趣的:(java,JSoup,解析HTML)