joup完美抓取非登录网页并引用其样式文件

上一篇文章在处理抓取网页中链接时做的不是很好,当时没有很好理解jsoup的功能,在仔细阅读后发现,jsoup的功能真是强大的让人叹服。下面这段代码可以抓取任意非登录页面,并直接引用其css\js等样式文件的绝对路径。



package testRedBag;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;


public class HttpClientHtml {
public static void main(String[] args) throws IOException {
String url = "http://www.baidu.com";
Document doc = Jsoup.connect(url).get();
Elements imgs=doc.getElementsByTag("img");//获取所有标签
Elements a=doc.getElementsByTag("a");//获取所有标签
Elements link=doc.getElementsByTag("link");//获取所有标签
Elements script=doc.getElementsByTag("script");//获取所有

你可能感兴趣的:(joup完美抓取非登录网页并引用其样式文件)