HTML字符Java转义 |"|&|<|>等

清洗数据时,发现数据中有一些HTML未转义的字符。需要先将其转义,在看这些符号是过滤还是保留。于是就找到了这个StringEscapeUtils工具类,这边记录一下。

StringEscapeUtils是在java.commons.lang3的2.0版本中加入的工具类,在3.6版本中被标注为@Deprecated,表明在之后的版本中则为过时状态,之后StringEscapeUtils类被移到java.commons.text包下。

功能用途

StringEscapeUtils的主要功能就是为Java,JavaScript,HTML,XML进行转义与反转义。

  • escapeJava(String input) / unescapeJava(String unionCodeString)
    将输入字符串转为unicode编码 / 将unicode字符串转为Utf-8格式的字符串
  • escapeHtml4(String input) / unescapeHtml4(String input)
    转义/反转义html脚本
  • escapeEcmaScript(String input) / unescapeEcmaScript(String input)
    转义/反转义js脚本
  • escapeXml(String input) / unescapeXml(String input)
    转义/反转义xml脚本

我这边主要使用的是HTML的转义

标题引入依赖


        <dependency>
            <groupId>org.apache.commonsgroupId>
            <artifactId>commons-lang3artifactId>
            
            <version>x.xversion>
        dependency>

样例:


import org.apache.commons.lang3.StringEscapeUtils;

public class HtmlTest {
    public static void main(String[] args) {
        String str = " "&<>";
        System.out.println(StringEscapeUtils.unescapeHtml3(str));
    }
}

结果:
在这里插入图片描述

你可能感兴趣的:(Java,java)