敏感词过滤

一、原句处理

1.去除原句中的所有空格

2.去除原句子中的所有标点符号,包含全角和半角的

3.将所有的繁体中文替换成简体中文,工具ZHConverter

4.所有的全角数字替换成半角数字,所有的全角字母替换成半角字母,所有的大写字母替换成小写字母

二、使用敏感词库过滤

1.敏感词库中所有空格和标点符号去除,大写字母替换成小写

2.使用HashMap构建敏感词库DFA算法模型,见:https://www.jianshu.com/p/88d0751e1608

3.使用DFA算法进行查找敏感词

4.将有敏感词的句子屏蔽或删除

三、替换敏感词

如果只是想替换句子中的敏感词,可根据情况再一二的步骤中进行删减,以达到可替换的目的,比如不替换标点符号和转换大写等

你可能感兴趣的:(敏感词过滤)