java移除字符串里的html元素

java移除字符串里的html元素

百度查询的自己实现的方法很多,但是自己有时写的不是很全,用的第三方开源工具jsoup

  1. 添加maven依赖
	<dependency>
		<groupId>org.jsoup</groupId>
		<artifactId>jsoup</artifactId>
		<version>1.11.3</version>
	</dependency>
  1. 编写工具类,写入下面方法
	public static String removeTags(String htmlStr) {
     
        Document doc = Jsoup.parse(htmlStr);
        String text = doc.text();
        // remove extra white space
        StringBuilder builder = new StringBuilder(text);
        int index = 0;
        while(builder.length()>index){
     
            char tmp = builder.charAt(index);
            if(Character.isSpaceChar(tmp) || Character.isWhitespace(tmp)){
     
                builder.setCharAt(index, ' ');
            }
            index++;
        }
        text = builder.toString().replaceAll(" +", " ").trim();
        return text;
    }

然后调用即可。

你可能感兴趣的:(去除html标签,java,html,爬虫,后端)