jsoup 获取html中body内容_Java 进阶 & 利用Jsoup获取HTML页面的各分页中的标题信息...

简单介绍一下Jsoup

Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于Xpath,jQuery的操作方法来取出和操作元素和数据。

使用Jsoup,需要导入Jsoup所需Jar包,Maven工程,直接在pom.xml中引入以下依赖

org.jsoup

jsoup

1.11.3

以下用一个简单的例子使用JSoup,获取网页中各分页列表中文章的标题,并输出。这里用到testng,需要提前引入testng相关jar包。

新增测试类JsoupTest

package com.jsoup;

import com.mashape.unirest.http.HttpResponse;

import com.mashape.unirest.http.Unirest;

import com.mashape.unirest.http.exceptions.UnirestException;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import org.testng.annotations.Test;

public class JsoupTest {

Elements elements;

@Test

public void getAllPageTitle() throws UnirestException {

int page =1 ;

while(true) {

HttpResponse response = Unirest.get("https://blog.csdn.net/deng214/article/month/2018/05/" + page + "?").asString();

String body = response.getBody();

Document document = Jsoup.parse(body);

elements = document.select("div.article-list");

elements = elements.first().children().select("div:not(div[style=display: none;])").remove();

elements = elements.select("h4>a");

int size = elements.size();

System.out.println("-------------------- 第" + page + "页,显示"+size+"条数据-------------------- ");

if (size == 0) {

break;

}

if (size < 20 && size > 0) {

getElement();

break;

} else {

getElement();

page++;

}

}

}

public void getElement(){

for (int i = 0; i < elements.size(); i++) {

Element element = elements.get(i);

String href = element.attr("href");

String text = element.text();

System.out.println("标题:"+text+"\t 链接:"+href);

}

}

}

上述类中,getAllPageTitle方法中用到了unirest(使用Unirest发送POST请求),发送向html发送get请求,获取响应内容,通过Jsoup解析

坑一:因为有div是隐藏的或不属于标题链接,所以需要排除。这里有坑,花了点时间,可能也是因为对jsoup不熟。

image.png

elements = document.select("div.article-list");

elements = elements.first().children().select("div:not(div[style=display: none;])").remove();

elements = elements.select("h4>a");

坑二:在遍历到最后一页时,下一页并不是不显示,而是为只读无法点击,所以需要判断当前页是否为最后一页,如果是就需要跳出循环

if (size == 0) {

break;

}

if (size < 20 && size > 0) {

getElement();

break;

} else {

getElement();

page++;

}

最后输出结果是

-------------------- 第1页,显示20条数据--------------------

标题:转 史上最简单的 MySQL 教程 链接:https://blog.csdn.net/deng214/article/details/80318148

标题:转 用SQL语句去掉重复的记录 链接:https://blog.csdn.net/deng214/article/details/80430109

标题:转 java中进行二进制,八进制,十六进制,十进制间,压缩BCD编码进行相互转换 链接:https://blog.csdn.net/deng214/article/details/80429329

标题:转 java二进制,字节数组,字符,十六进制,BCD编码转换 链接:https://blog.csdn.net/deng214/article/details/80429273

标题:原 利用MySQL数据库自带加密函数进行加密 链接:https://blog.csdn.net/deng214/article/details/80429247

标题:原 mysql对密码进行加密,以及忘记加密后密码的解决 链接:https://blog.csdn.net/deng214/article/details/80429242

标题:转 java日期时间各种变换及处理 链接:https://blog.csdn.net/deng214/article/details/80417020

标题:转 MySQL查询语句测试练习题 链接:https://blog.csdn.net/deng214/article/details/80414565

标题:转 MySq常用l查询语句 链接:https://blog.csdn.net/deng214/article/details/80414523

标题:转 MySQL 复杂查询语句2 链接:https://blog.csdn.net/deng214/article/details/80414504

标题:原 Mysql复杂查询语句汇总 链接:https://blog.csdn.net/deng214/article/details/80414468

标题:转 MySQL 50条基础查询语句 链接:https://blog.csdn.net/deng214/article/details/80414458

标题:转 网络爬虫URLConnection的使用 链接:https://blog.csdn.net/deng214/article/details/80414359

标题:转 Java爬虫入门简介(五)——抓包工具的使用以及使用HttpClient模拟用户登录的访问 链接:https://blog.csdn.net/deng214/article/details/80414334

标题:转 Java爬虫入门简介(四)——HttpClient保存使用Cookie登录 链接:https://blog.csdn.net/deng214/article/details/80400998

标题:转 Java爬虫入门简介(三) —— Jsoup解析HTML页面 链接:https://blog.csdn.net/deng214/article/details/80400984

标题:转 Java爬虫入门简介(二) —— HttpClient详细使用方法 链接:https://blog.csdn.net/deng214/article/details/80400944

标题:转 Java爬虫入门简介(一) —— HttpClient请求 链接:https://blog.csdn.net/deng214/article/details/80400916

标题:转 Java读取和操作大数据文本数据 链接:https://blog.csdn.net/deng214/article/details/80400886

标题:转 Eclipse使用Maven插件的简单介绍 链接:https://blog.csdn.net/deng214/article/details/80400797

-------------------- 第2页,显示20条数据--------------------

标题:转 MySQL启用中文全文检索功能 链接:https://blog.csdn.net/deng214/article/details/80400636

标题:转 详述 MySQL 导出数据遇到 secure-file-priv 的问题 链接:https://blog.csdn.net/deng214/article/details/80400590

标题:转 详述查看 MySQL 数据文件存储位置的方法 链接:https://blog.csdn.net/deng214/article/details/80400585

标题:转 详述 MySQL 数据库输入密码后闪退的问题及解决方案 链接:https://blog.csdn.net/deng214/article/details/80400579

标题:转 详述 MySQL 数据库的安装及配置 链接:https://blog.csdn.net/deng214/article/details/80393015

标题:转 史上最简单的 MySQL 教程(四十四)「存储过程」 链接:https://blog.csdn.net/deng214/article/details/80392996

标题:转 史上最简单的 MySQL 教程(四十三)「函数」 链接:https://blog.csdn.net/deng214/article/details/80392990

标题:转 史上最简单的 MySQL 教程(四十二)「代码执行结构」 链接:https://blog.csdn.net/deng214/article/details/80392977

标题:转 史上最简单的 MySQL 教程(四十一)「触发器」 链接:https://blog.csdn.net/deng214/article/details/80392958

标题:转 史上最简单的 MySQL 教程(四十)「数据库变量」 链接:https://blog.csdn.net/deng214/article/details/80392946

标题:转 史上最简单的 MySQL 教程(三十九)「事务(下)」 链接:https://blog.csdn.net/deng214/article/details/80392931

标题:转 史上最简单的 MySQL 教程(三十八)「事务(上)」 链接:https://blog.csdn.net/deng214/article/details/80392913

标题:转 史上最简单的 MySQL 教程(三十七)「数据备份与还原(下)」 链接:https://blog.csdn.net/deng214/article/details/80392905

标题:转 史上最简单的 MySQL 教程(三十六)「数据备份与还原(中)」 链接:https://blog.csdn.net/deng214/article/details/80392892

标题:转 史上最简单的 MySQL 教程(三十五)「数据备份与还原(上)」 链接:https://blog.csdn.net/deng214/article/details/80359451

标题:转 史上最简单的 MySQL 教程(三十四)「视图(下)」 链接:https://blog.csdn.net/deng214/article/details/80359439

标题:转 史上最简单的 MySQL 教程(三十三)「视图(上)」 链接:https://blog.csdn.net/deng214/article/details/80359430

标题:转 史上最简单的 MySQL 教程(三十二)「子查询(下)」 链接:https://blog.csdn.net/deng214/article/details/80359427

标题:转 史上最简单的 MySQL 教程(三十一)「子查询(上)」 链接:https://blog.csdn.net/deng214/article/details/80359416

标题:转 史上最简单的 MySQL 教程(三十)「联合查询」 链接:https://blog.csdn.net/deng214/article/details/80359398

-------------------- 第3页,显示20条数据--------------------

标题:转 史上最简单的 MySQL 教程(二十九)「外键(下)」 链接:https://blog.csdn.net/deng214/article/details/80359388

标题:转 史上最简单的 MySQL 教程(二十八)「外键(上)」 链接:https://blog.csdn.net/deng214/article/details/80359379

标题:转 史上最简单的 MySQL 教程(二十七)「连接查询(下)」 链接:https://blog.csdn.net/deng214/article/details/80359369

标题:转 史上最简单的 MySQL 教程(二十六)「连接查询(上)」 链接:https://blog.csdn.net/deng214/article/details/80359361

标题:转 国密SM2算法密钥派生函数KDF的实现 链接:https://blog.csdn.net/deng214/article/details/80345570

标题:转 高速公路ETC卡签之我见9-常见算法 链接:https://blog.csdn.net/deng214/article/details/80345558

标题:转 高速公路ETC卡签之我见8-OBU发行 链接:https://blog.csdn.net/deng214/article/details/80345554

标题:转 高速公路ETC卡签之我见7-用户卡发行 链接:https://blog.csdn.net/deng214/article/details/80345552

标题:转 高速公路ETC卡签之我见6-省级密钥系统建设 链接:https://blog.csdn.net/deng214/article/details/80345534

标题:转 高速公路ETC卡签之我见5-国标密钥体系介绍 链接:https://blog.csdn.net/deng214/article/details/80345532

标题:转 高速公路ETC卡签之我见4-卡签结构说明 链接:https://blog.csdn.net/deng214/article/details/80345526

标题:转 高速公路ETC卡签之我见3-卡片圈存 链接:https://blog.csdn.net/deng214/article/details/80345521

标题:转 高速公路ETC卡签之我见2-卡片消费 链接:https://blog.csdn.net/deng214/article/details/80345517

标题:转 高速公路ETC卡签1-概述 链接:https://blog.csdn.net/deng214/article/details/80345513

标题:转 JAVA 数据表反射实体类,自动生成实体类 链接:https://blog.csdn.net/deng214/article/details/80337534

标题:转 java--生成实体类方法 链接:https://blog.csdn.net/deng214/article/details/80337517

标题:转 java--封装浅谈 链接:https://blog.csdn.net/deng214/article/details/80337474

标题:转 Java -- 20个非常有用的Java程序片段 链接:https://blog.csdn.net/deng214/article/details/80337453

标题:转 史上最简单的 MySQL 教程(二十五)「数据的高级操作 之 查询(下)」 链接:https://blog.csdn.net/deng214/article/details/80336875

标题:转 史上最简单的 MySQL 教程(二十四)「数据的高级操作 之 查询(中)」 链接:https://blog.csdn.net/deng214/article/details/80336858

-------------------- 第4页,显示20条数据--------------------

标题:转 史上最简单的 MySQL 教程(二十三)「数据的高级操作 之 查询(上)」 链接:https://blog.csdn.net/deng214/article/details/80336849

标题:转 史上最简单的 MySQL 教程(二十二)[数据的高级操作 之 更新 & 删除] 链接:https://blog.csdn.net/deng214/article/details/80336832

标题:转 史上最简单的 MySQL 教程(二十一)「数据的高级操作 之 蠕虫复制」 链接:https://blog.csdn.net/deng214/article/details/80336809

标题:转 史上最简单的 MySQL 教程(二十)「数据的高级操作 之 主键冲突」 链接:https://blog.csdn.net/deng214/article/details/80336797

标题:转 史上最简单的 MySQL 教程(十九)「范式」 链接:https://blog.csdn.net/deng214/article/details/80318092

标题:转 史上最简单的 MySQL 教程(十八)「关系」 链接:https://blog.csdn.net/deng214/article/details/80318084

标题:转 史上最简单的 MySQL 教程(十七)「索引」 链接:https://blog.csdn.net/deng214/article/details/80318073

标题:转 史上最简单的 MySQL 教程(十六)「列属性 之 唯一键」 链接:https://blog.csdn.net/deng214/article/details/80318064

标题:转 史上最简单的 MySQL 教程(十五)「列属性 之 自动增长」 链接:https://blog.csdn.net/deng214/article/details/80318053

标题:转 史上最简单的 MySQL 教程(十四)「列属性 之 主键」 链接:https://blog.csdn.net/deng214/article/details/80318033

标题:转 史上最简单的 MySQL 教程(十三)「列属性 之 空属性、列描述和默认值」 链接:https://blog.csdn.net/deng214/article/details/80318026

标题:转 史上最简单的 MySQL 教程(十二)「记录长度」 链接:https://blog.csdn.net/deng214/article/details/80318012

标题:转 史上最简单的 MySQL 教程(十一)「列类型 之 字符串型」 链接:https://blog.csdn.net/deng214/article/details/80318000

标题:转 史上最简单的 MySQL 教程(十)「列类型 之 日期时间型」 链接:https://blog.csdn.net/deng214/article/details/80277881

标题:转 史上最简单的 MySQL 教程(九)「列类型 之 数值型」 链接:https://blog.csdn.net/deng214/article/details/80277833

标题:转 史上最简单的 MySQL 教程(八)「校对集问题」 链接:https://blog.csdn.net/deng214/article/details/80277811

标题:转 史上最简单的 MySQL 教程(七)「中文数据问题」 链接:https://blog.csdn.net/deng214/article/details/80277795

标题:转 史上最简单的 MySQL 教程(六)「SQL 基本操作 之 数据操作」 链接:https://blog.csdn.net/deng214/article/details/80277784

标题:转 史上最简单的 MySQL 教程(五)「SQL 基本操作 之 表操作」 链接:https://blog.csdn.net/deng214/article/details/80277744

标题:转 史上最简单的 MySQL 教程(四)「SQL 基本操作 之 库操作」 链接:https://blog.csdn.net/deng214/article/details/80277711

-------------------- 第5页,显示3条数据--------------------

标题:转 史上最简单的 MySQL 教程(三)「 MySQL 数据库」 链接:https://blog.csdn.net/deng214/article/details/80277693

标题:转 史上最简单的 MySQL 教程(二)「关系型数据库」 链接:https://blog.csdn.net/deng214/article/details/80277669

标题:转 史上最简单的 MySQL 教程(一)「数据库」 链接:https://blog.csdn.net/deng214/article/details/80277623

===============================================

Default Suite

Total tests run: 1, Failures: 0, Skips: 0

===============================================

jsoup使用手册可参考文章:Jsoup详解(官方)

END

如果你喜欢我的分享,那就在右下角点个喜欢吧

你的鼓励是我最大的动力来源,在此深表感恩

软件测试的路上,我们可以互相关注,相互学习,共同进步,微信ID:929194573

你可能感兴趣的:(jsoup,获取html中body内容)