Java实现对Html文本的处理

 1.引入jsoup


    org.jsoup
    jsoup
    1.8.3

2. html示例

Java实现对Html文本的处理_第1张图片

示例代码: 


   
            
         
            个人信用报告
         
         
         

      
         
         
test99
1 20231030155315
test99
1 20231030155315
test99
1 20231030155315
test99
1 20231030155315
test99
1 20231030155315
test99
1 20231030155315
test99
1 20231030155315
test99
1 20231030155315
test99
1 20231030155315
个人信用报告
(授信机构版)
一 个人基本信息

(一)身份信息
性别 出生日期 婚姻状况 学历 学位 就业状况 国籍 电子邮箱
1980-06-30 -- 初中及以下 -- 在职 中国 [email protected]
通讯地址 户籍地址
福建省福州市平潭县苏澳镇斗魁村斗魁58号 --
编号 手机号码 信息更新日期
1 18855583001 2019-07-18
2 18855583002 2019-06-25
3 18855583003 2019-04-26
4 18855583004 2019-01-26
5 15105055999 2018-11-14
6 13023801517 2018-09-11
7 18250182015 2017-09-07
8 015105055999 2017-06-29

(二)居住信息
编号 居住地址 住宅电话 居住状况 信息更新日期
1 地址1 -- 未知 2019-07-18
2 地址2 -- 未知 2019-06-25
3 地址3 -- 未知 2019-04-26
4 地址4 -- 未知 2019-01-26
5 -- -- 未知 2018-11-14
6 福建省福州市平潭县苏澳镇斗魁村斗魁58号 -- 未知 2018-10-18
7 福建省福州市平潭县苏沃镇斗魁村斗魁58号 0591-23106098 其他 2018-06-09
8 福州市 -- 未知 2018-05-24
9 福建省福州市仓山区金山融信西班牙8—102 -- 亲属楼宇 2017-09-25






3.java代码实现

比如说我们想删掉某一个div  可以根据div的id class等进行操作处理

    public static void main(String[] args) throws IOException {

        String filePath = "/Users/xxxx/Downloads/a.html";

        File file = new File(filePath);

        // 解析HTML文本
        Document document = Jsoup.parse(file, "UTF-8");

        // 选择要移除的div元素(可以根据id、class或其他属性来选择)
        Elements divsToRemove = document.select("div#Header");

        Element table = divsToRemove.select("table").get(1);
        if (table != null) {
            Element rowToDelete = table.select("tr").get(0); // 获取第一行(索引从0开始)
            Element rowToDelete2 = table.select("tr").get(1); // 获取第二行(索引从0开始)

            // 删除表格行
            rowToDelete.remove();
            rowToDelete2.remove();
        }


        Elements divsToRemove2 = document.select("div#PersonalInfo");

        divsToRemove2.remove();


        // 输出更新后的HTML文本
        String updatedHtml = document.outerHtml();
        System.out.println(updatedHtml);
    }

根据class删除代码示例:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class RemoveDivsByClass {
    public static void main(String[] args) {
        // 输入的HTML文本
        String htmlText = "

子元素1

子元素2

子元素3

"; // 解析HTML文本 Document document = Jsoup.parse(htmlText); // 查找特定的
元素(这里使用id="content"作为示例) Element divElement = document.select("div#content").first(); if (divElement != null) { // 查找包含特定class属性值的子
元素并删除 Elements divsToDelete = divElement.select("div.delete-me"); divsToDelete.remove(); } // 输出更新后的HTML文本 String updatedHtml = document.outerHtml(); System.out.println(updatedHtml); } }

你可能感兴趣的:(java,html,前端)