利用jsoup实现网页内容的抓取

1、下载jsoup相关jar

  • 官网:https://jsoup.org/
  • 下载地址:http://jsoup.org/packages/jsoup-1.8.1.jar

2、目的

从百度新闻的页面上抓取红色方框里面的内容

利用jsoup实现网页内容的抓取_第1张图片

3、代码块

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class TestJsoup {
    public static void main(String[] args) {
         try {
                Document doc = Jsoup.connect("http://news.baidu.com/").get(); 
                Elements elements = doc.select("#pane-news > div > ul > li > strong > a");
                for (Element element : elements) {
                    System.out.println(element.text());
                }
            } catch (IOException e) {
                e.printStackTrace();
            } 
    }
}

4、运行结果

利用jsoup实现网页内容的抓取_第2张图片

你可能感兴趣的:(网页内容抓取)