Java使用jsoup爬取网页数据

前置说明

虽然可以爬取数据,但是不能获取网页的视频(tika包可以)、音乐、Ajax数据,只能获取页面渲染出的元素和数据。必须联网。

1、引入maven包


  org.jsoup</groupId>
  jsoup</artifactId>
  1.14.3</version>
</dependency>

2、链接网页及抓取代码

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;

public class JsoupTest {

    public static void main(String[] args) throws IOException {
        String url="https://blog.csdn.net/wohaipagui?type=blog";
        Document document= Jsoup.parse(new URL(url),30000);
        Elements divElements= document.getElementsByClass("mainContent");
        Element divElement=divElements.get(0);
        Elements articles=divElement.getElementsByTag("article");

        for (Element article:articles) {
           String text= article.getElementsByClass("blog-list-box-top").get(0).getElementsByTag("h4").get(0).text();
            System.out.println(text);
        }
    }
}

3、执行的结果

Java使用jsoup爬取网页数据_第1张图片

你可能感兴趣的:(java,jsoup)