java正则表达式去除html中所有的标签和特殊HTML字符

关于java正则表达式去除html中所有的标签和特殊HTML字符,结合我所做的项目总结的经验:

总共分为三种:第一种适用于适用短的文章,将文章用正则表达式的方式拼接到代码中,有些繁琐,其实不太实用。第二种就是直接将文档引入,进行更改,但是有一个小缺点,就是文档中的格式可能是utf-8格式的,需要更改成gbk格式的。第三种则是在代码中自动更改格式。由于是初学者,有很多不足,欢迎大家来补充。下面我分别给大家分享一下吧。

第一种:用于短数据,繁琐一些。

package day0703;  
  
import java.util.regex.Matcher;  
import java.util.regex.Pattern;  
  
public class HtmlUtil { 
    private static final String regEx_script = "]*?>[\\s\\S]*?<\\script>"; // 定义script的正则表达式  
    private static final String regEx_style = "