雨霁赤赤

java正则表达式去除html中所有的标签和特殊HTML字符

关于java正则表达式去除html中所有的标签和特殊HTML字符，结合我所做的项目总结的经验：

总共分为三种：第一种适用于适用短的文章，将文章用正则表达式的方式拼接到代码中，有些繁琐，其实不太实用。第二种就是直接将文档引入，进行更改，但是有一个小缺点，就是文档中的格式可能是utf-8格式的，需要更改成gbk格式的。第三种则是在代码中自动更改格式。由于是初学者，有很多不足，欢迎大家来补充。下面我分别给大家分享一下吧。

第一种：用于短数据，繁琐一些。

package day0703;  
  
import java.util.regex.Matcher;  
import java.util.regex.Pattern;  
  
public class HtmlUtil { 
    private static final String regEx_script = "]*?>[\\s\\S]*?<\\script>"; // 定义script的正则表达式  
    private static final String regEx_style = "