java 爬虫 获取<ul>标签下<li>标签下的内容

1 网页内容 all 里面 --> ul -> li -> 指定div

  • 公告
    2023-07-06
  • 公告
    2023-07-05

2 完整代码 将每条数据设置属性 存入map 中 再将map 存入list中

public static void main(String[] args) {
    String url = "https://www.xxx.com";
    try {

     // 创建一个 List,用于存储多个 Map
      List> dataList = new ArrayList<>();

      // Document document = Jsoup.connect(url).get(); // 获取该网页的文档对象

      // 创建连接并设置请求头
      Connection connection = Jsoup.connect(url);
      connection.userAgent(
          "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36");
      connection.header("Accept-Language", "en-US,en;q=0.9");

      // 发起 HTTP 请求获取页面内容
      Document document = connection.get();

      // 选择具有 class 为 "all" 的 
元素 Element divElement = document.selectFirst("div.all"); // 选择所有的
    元素 Elements ulElements = divElement.select("ul"); // 遍历每个
      元素 for (Element ulElement : ulElements) { // 选择当前
        元素下的所有
      • 元素 Elements liElements = ulElement.select("li"); // 遍历每个
      • 元素并获取文字内容 for (Element liElement : liElements) { // 获取标题和日期的元素 Element titleElement = liElement.selectFirst("div.title"); Element dateElement = liElement.selectFirst("div.date"); // 获取标题和日期的文本内容 String title = titleElement.text(); String date = dateElement.text(); // 创建一个 Map,用于存储属性 Map item = new HashMap<>(); // 添加属性 item.put("title", title); item.put("date", date); // 将 Map 添加到 List 中 dataList.add(item); } } // 打印 Map 中的内容 System.out.println(dataList); } catch (IOException e) { e.printStackTrace(); } }

你可能感兴趣的:(java,爬虫,springboot,java,爬虫,前端)