Java枫

DFA敏感词过滤算法

运用DFA算法加密。

首先我先对敏感词库初始化，若我的敏感词库为

冰毒
白粉
大麻
大坏蛋

初始化之后得到的是下面这样。：

{冰={毒={isEnd=1}, isEnd=0}, 白={粉={isEnd=1}, isEnd=0}, 大={麻={isEnd=1}, isEnd=0, 坏={蛋={isEnd=1}, isEnd=0}}}。

ok，我把初始化之后的数据用A来表示。假设待检测的文字为：张三是个大坏蛋，他竟然吸食白粉和冰毒。

后面检测文字中是否有敏感词的时候，先把要检测的文字迭代循环，并转换成charAt值，这样的话，

如果 A.get(charAt) 为空的话，说明这个字不在敏感词库中，比如 "张"，"三"，"是"，"个" ........

如果 A.get(charAt) 不为空的话，说明这个字存在敏感词库中，比如 "大"，"坏"，"蛋" ...........

假设我们检测到 "大" "坏" 的时候，发现这个字存在于敏感词库中，这个时候需要看项目需求，如果只是检测输入框内是否含有敏感词，

那这里就可以不进行判断了，已经含有敏感词了。

如果要把所有的敏感词用 "*" 号替换的话，那就要继续往下匹配，判断该敏感词是否是最后一个......

以上就是基本思路了，下面上代码，不懂的可以留言给我。。。

温馨提示：

初始化敏感词库的时候

1、加了redis缓存

2、敏感词库我是放在了服务器下面

3、编码格式注意，代码里的编码格式要与你的敏感词库的编码格式一致。utf-8或者gbk。（win下把txt另存为可以看到，linux下vim txt，:set fileencoding）

linux下文件编码格式转换，这里是gbk -> utf-8：iconv -f gb18030 -t utf-8 sensitiveword.txt -o sensitiveword.txt

你们用main方法测试的时候，要把缓存注释掉，敏感词库路径改为你们本地。

/*
 * Project: admin.common
 *
 * File Created at 2017年8月23日
 *
 * Copyright 2016 CMCC Corporation Limited.
 * All rights reserved.
 *
 * This software is the confidential and proprietary information of
 * ZYHY Company. ("Confidential Information").  You shall not
 * disclose such Confidential Information and shall use it only in
 * accordance with the terms of the license.
 */
package com.cmcc.admin.common.sensitive;

import java.util.HashSet;
import java.util.Iterator;
import java.util.Map;
import java.util.Set;

/**
 * @Type SensitiveWordFilter.java
 * @Desc
 * @author whb
 * @date 2017年8月23日 下午1:56:38
 * @version
 */
public class SensitiveWordFilter {
    @SuppressWarnings("rawtypes")
    private Map sensitiveWordMap = null;
    public static int minMatchType = 1; //最小匹配规则
    public static int maxMatchType = 2; //最大匹配规则

    /**
     * 构造函数，初始化敏感词库
     * @throws Exception
     * @since 1.8
     * @author whb
     */
    public SensitiveWordFilter() throws Exception {
        sensitiveWordMap = new SensitiveWordInit().initKeyWord();
    }

    /**
     * 检查文字中敏感词的长度
     * @param txt
     * @param beginIndex
     * @param matchType
     * @return 如果存在，则返回敏感词字符的长度，不存在返回0
     * @since 1.8
     * @author whb
     */
    @SuppressWarnings("rawtypes")
    public int checkSensitiveWord(String txt, int beginIndex, int matchType) {
        Map nowMap = sensitiveWordMap;
        boolean flag = false; //敏感词结束标识位：用于敏感词只有1位的情况
        char word = 0;
        int matchFlag = 0; //匹配标识数默认为0
        for (int i = beginIndex; i < txt.length(); i++) {
            word = txt.charAt(i);
            nowMap = (Map) nowMap.get(word); //获取指定key
            if (nowMap == null) {
                break;//不存在，直接返回
            }
            //输入的字(排列组合的匹配)出现在敏感词库中，判断是否为最后一个
            matchFlag++; //找到相应key，匹配标识+1
            if (isEnd(nowMap)) { //如果为最后一个匹配规则,结束循环，返回匹配标识数
                flag = true; //结束标志位为true
                if (SensitiveWordFilter.minMatchType == matchType) {
                    break;//最小规则，直接返回,最大规则还需继续查找
                }
            }
        }
        if (matchFlag < 2 || !flag) { //长度必须大于等于1，为词
            matchFlag = 0;
        }
        return matchFlag;
    }

    /**
     * 是否包含敏感词
     * @param txt
     * @param matchType
     * @return true：是；false：否
     * @since 1.8
     * @author whb
     */
    public boolean isContaintSensitiveWord(String txt, int matchType) {
        boolean flag = false;
        for (int i = 0; i < txt.length(); i++) {
            int matchFlag = this.checkSensitiveWord(txt, i, matchType);
            if (matchFlag > 0) {
                flag = true;
            }
        }
        return flag;
    }

    /**
     * 是否包含敏感词(重庆项目默认值，按最小匹配规则来，只要有敏感词就ok)
     * 如果敏感词库为：
     *          中
     *          中国
     *          中国人
     *  初始化之后为：{中={isEnd=1, 国={人={isEnd=1}, isEnd=1}}}
     *  测试的文字为：我是一名中国人。
     *  1、按最小规则匹配，  匹配 中 的时候，就为最后一个了 直接break。
     *  2、按最大规则匹配，  匹配 中 的时候，就为最后一个，继续匹配 国，人。
     * @param txt
     * @return true：是；false：否
     * @since 1.8
     * @author whb
     */
    public boolean isSensitive(String txt) {
        boolean flag = false;
        for (int i = 0; i < txt.length(); i++) {
            int matchFlag = this.checkSensitiveWord(txt, i, 1);
            if (matchFlag > 0) {
                flag = true;
            }
        }
        return flag;
    }

    /**
     * 获取文字中的敏感词
     * @param txt
     * @param matchType
     * @return
     * @since 1.8
     * @author whb
     */
    public Set getSensitiveWord(String txt, int matchType) {
        Set sensitiveWordList = new HashSet();
        for (int i = 0; i < txt.length(); i++) {
            int length = checkSensitiveWord(txt, i, matchType);
            if (length > 0) { //存在,加入list中
                sensitiveWordList.add(txt.substring(i, i + length));
                i = i + length - 1; //减1的原因，是因为for会自增
            }
        }
        return sensitiveWordList;
    }

    /**
     * 替换敏感字字符
     * @param txt
     * @param matchType
     * @param replaceChar
     * @return
     * @since 1.8
     * @author whb
     */
    public String replaceSensitiveWord(String txt, int matchType, String replaceChar) {
        String resultTxt = txt;
        Set set = this.getSensitiveWord(txt, matchType); //获取所有的敏感词
        Iterator iterator = set.iterator();
        String word = null;
        String replaceString = null;
        while (iterator.hasNext()) {
            word = iterator.next();
            replaceString = getReplaceChars(replaceChar, word.length());
            resultTxt = resultTxt.replaceAll(word, replaceString);
        }
        return resultTxt;
    }

    /**
     * 获取替换字符串
     * @param replaceChar
     * @param length
     * @return
     * @since 1.8
     * @author whb
     */
    private String getReplaceChars(String replaceChar, int length) {
        String resultReplace = replaceChar;
        for (int i = 1; i < length; i++) {
            resultReplace += replaceChar;
        }
        return resultReplace;
    }

    /**
     * 判断是否为最后一个
     * @param nowMap
     * @return
     * @since 1.8
     * @author whb
     */
    @SuppressWarnings("rawtypes")
    private boolean isEnd(Map nowMap) {
        boolean flag = false;
        if ("1".equals(nowMap.get("isEnd"))) {
            flag = true;
        }
        return flag;
    }

    public static void main(String[] args) throws Exception {
        SensitiveWordFilter filter = new SensitiveWordFilter();
        System.out.println("敏感词的数量：" + filter.sensitiveWordMap.size());
        String string = "王弘博是个大坏蛋，他竟然吸食白粉和冰毒";
        System.out.println("待检测语句的字数：" + string.length());
        long beginTime = System.currentTimeMillis();
        Set set = filter.getSensitiveWord(string, 1);
         String result = filter.replaceSensitiveWord(string, 1, "*");
        boolean flag = filter.isSensitive(string);
        System.out.println(flag);
        long endTime = System.currentTimeMillis();
          System.out.println("语句中包含敏感词的个数为：" + set.size() + "。包含：" + set);
         System.out.println("敏感词处理之后为："+result);
        System.out.println("总共消耗时间为：" + (endTime - beginTime));
    }
}

/**
 * Revision history
 * -------------------------------------------------------------------------
 *
 * Date Author Note
 * -------------------------------------------------------------------------
 * 2017年8月23日 whb create
 */

/*
 * Project: admin.common
 *
 * File Created at 2017年8月23日
 *
 * Copyright 2016 CMCC Corporation Limited.
 * All rights reserved.
 *
 * This software is the confidential and proprietary information of
 * ZYHY Company. ("Confidential Information").  You shall not
 * disclose such Confidential Information and shall use it only in
 * accordance with the terms of the license.
 */
package com.cmcc.admin.common.sensitive;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Map;
import java.util.Set;

import org.springframework.context.ApplicationContext;
import org.springframework.context.support.AbstractApplicationContext;
import org.springframework.context.support.ClassPathXmlApplicationContext;

import com.cmcc.aqb.cache.redis.RedisClient;

/**
 * @Type SensitiveWordInit.java
 * @Desc
 * @author whb
 * @date 2017年8月23日 下午1:57:03
 * @version
 */
public class SensitiveWordInit {

    private static final String ENCODING = "utf-8"; //字符编码

    @SuppressWarnings("rawtypes")
    public HashMap sensitiveWordMap;

    public SensitiveWordInit() {
        super();
    }

    static RedisClient redisClient = null;
    private static String SPILIT = "#";
    private static int EXPIRE_TIME = 3600;// seconds
    private static String SENSITIVE_WORD = SensitiveWordInit.class.getName();

    private String sensitiveWordKey(String type) {
        StringBuilder sb = new StringBuilder();
        sb.append(type).append(SPILIT).append("sensitiveWordInit");
        return sb.toString();
    }

    /**
     *
     * @return
     * @throws Exception
     * @since 1.8
     * @author whb
     */
    @SuppressWarnings({ "rawtypes", "resource" })
    public Map initKeyWord() {
        try {
            ApplicationContext ac = new ClassPathXmlApplicationContext(new String[] {
                    "spring/datasource.xml", "spring/cache.xml" });
            redisClient = (RedisClient) ac.getBean("redisClient");
            String key = sensitiveWordKey(SENSITIVE_WORD);
            sensitiveWordMap = redisClient.get(key);
            if (sensitiveWordMap == null) {
                Set set = readSensitiveWordFile();
                addSensitiveWordToHashMap(set);
                redisClient.put(key, sensitiveWordMap, EXPIRE_TIME);
            }
            ((AbstractApplicationContext) ac).registerShutdownHook();
            return sensitiveWordMap;
        } catch (Exception e) {
            throw new RuntimeException("初始化敏感词库错误");
        }
    }

    /**
     * 读取敏感词库，并把内容放到set里
     * @return
     * @throws Exception
     * @since 1.8
     * @author whb
     */
    private Set readSensitiveWordFile() throws Exception {
        Set set = null;
        File file = new File("/home/sensitiveword.txt");
        try (BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(
                new FileInputStream(file), ENCODING))) {
            if (file.isFile() && file.exists()) {
                set = new HashSet();
                String txt = null;
                while ((txt = bufferedReader.readLine()) != null) {
                    set.add(txt);
                }
            } else {
                throw new Exception("敏感词库文件不存在");
            }
        } catch (Exception e) {
            e.printStackTrace();
            throw e;
        }
        return set;

    }

    /**
     * 读取敏感词库，将敏感词放入HashSet中，构建一个DFA算法模型：

     * 中 = {
     *      isEnd = 0
     *      国 = {

     *           isEnd = 1
     *           人 = {isEnd = 0
     *                民 = {isEnd = 1}
     *                }
     *           男  = {
     *                  isEnd = 0
     *                   人 = {
     *                        isEnd = 1
     *                       }
     *               }
     *           }
     *      }
     *  五 = {
     *      isEnd = 0
     *      星 = {
     *          isEnd = 0
     *          红 = {
     *              isEnd = 0
     *              旗 = {
     *                   isEnd = 1
     *                  }
     *              }
     *          }
     *      }
     * @param keyWordSet
     * @since 1.8
     * @author whb
     */
    @SuppressWarnings({ "rawtypes", "unchecked" })
    private void addSensitiveWordToHashMap(Set keyWordSet) {
        sensitiveWordMap = new HashMap(keyWordSet.size()); //初始化敏感词容器，避免扩容操作
        String key = null;
        Map nowMap = null;
        Map newWorMap = null;
        Iterator iterator = keyWordSet.iterator();
        while (iterator.hasNext()) {
            key = iterator.next();
            nowMap = sensitiveWordMap;
            for (int i = 0; i < key.length(); i++) {
                char charKey = key.charAt(i); //转换成char型
                Object wordMap = nowMap.get(charKey);
                if (wordMap != null) {
                    nowMap = (Map) wordMap; //一个一个放进Map中
                } else { //不存在，则构建一个Map,同时将isEnd设置为0，因为它不是最后一个
                    newWorMap = new HashMap();
                    newWorMap.put("isEnd", "0");//不是最后一个
                    nowMap.put(charKey, newWorMap);//没有这个key，就把(isEnd，0) 放在Map中
                    nowMap = newWorMap;
                }
                if (i == key.length() - 1) { //最后一个
                    nowMap.put("isEnd", "1");
                }
            }
        }
    }

}

/**
 * Revision history
 * -------------------------------------------------------------------------
 *
 * Date Author Note
 * -------------------------------------------------------------------------
 * 2017年8月23日 whb create
 */

敏感词过滤器：利用DFA算法进行敏感词过滤缘不易 springboot spring boot
1、实现原理简单原理如下图所示，使用了DFA算法，创建结点类，里面包含是否是敏感词结束符，以及一个HashMap，哈希里key值存储的是敏感词的一个词，value指向下一个结点（即指向下一个词），一个哈希表中可以存放多个值，比如赌博、赌黄这两个都是敏感词。2、实现方法2.1敏感词库初始化敏感词库的初始化，这里主要工作是读取敏感词文件，在内存中构建好敏感词的Map节点packagecom.examp
java鉴黄视频/图片、敏感词过滤（黑名单，白名单，符号）（代码可直接使用）一名落魄的程序员 java工具类/架构 java 音视频后端
视频鉴黄我这边采用的是在原视频的基础上进行抽帧处理，也就是将视频按规定的秒数或帧数间隔截取图片并对其进行图片的鉴黄maven：org.bytedecojavacv1.0ws.schildjave-all-deps2.5.1视频抽帧：importjava.awt.*;importjava.awt.image
mybatis-plus团队新作：mybatis-mate 轻松搞定数据权限 Fightover
0、简介mybatis-mate为mp企业级模块，支持分库分表，数据审计、数据敏感词过滤（AC算法），字段加密，字典回写（数据绑定），数据权限，表结构自动生成SQL维护等，旨在更敏捷优雅处理数据。1、主要功能字典绑定字段加密数据脱敏表结构动态维护数据审计记录数据范围（数据权限）数据库分库分表、动态数据源、读写分离、数据库健康检查自动切换。2、使用2.1依赖导入SpringBoot引入自动依赖注解包
Java项目中实现敏感词过滤功能萧十一郎君 java 敏感词 DFA Trie树
前言在社交化的电商项目中，很多用户提交的信息涉及敏感性，比如：用户评论、用户发表的动态等。目前平台已经介入第三方平台的Saas服务，在线过滤用户提交的敏感词信息。然后，在实际使用过程中存在一些敏感词漏处理的情况，从而导致平台声誉受损。基于此，我们准备在平台增加一个自定义敏感词过滤的功能模块，对于第三方敏感词服务漏处理的敏感词，我们将通过后台配置在敏感词库中，并进行补充处理。需求详细分析基于上述需求
DFA有穷自动机敏感词过滤算法不知迷踪算法算法 DFA 敏感词过滤
1.EndTypepackagecom.example.utils.wordfilter;/***结束类型定义*/publicenumEndType{/***有下一个，结束*/HAS_NEXT,IS_END}2.WordTypepackagecom.example.utils.wordfilter;/***词汇类型*/publicenumWordType{/***黑名单/白名单*/BLACK,WH
sensitive-word敏感词过滤一个肥鲶鱼 SpringBoot 开发语言 java spring boot
sensitive-word基于DFA算法实现的高性能敏感词工具。在线体验特性6W+词库，且不断优化更新基于fluent-api实现，使用优雅简洁基于DFA算法，性能为7W+QPS，应用无感支持敏感词的判断、返回、脱敏等常见操作支持常见的格式转换全角半角互换、英文大小写互换、数字常见形式的互换、中文繁简体互换、英文常见形式的互换、忽略重复词等，DFA算法实现的高性能java敏感词工具框架。请勿发布
敏感词工具（sensitive word）的使用 weixin_48293596 java spring boot
敏感词工具（sensitiveword）的使用开始优点准备1.引入对应的包地址2.常用api盖览使用实例1.是否有敏感词存在2.返回所有敏感词3.默认的替换策略4.指定替换词新工具类测试新工具开始sensitiveword工具是一个快速的敏感词过滤工具,基于DFA算法实现的高性能敏感词工具。优点1.DFA算法是相比于其他算发性能更高,所读更改快2.其中包含默认的敏感词共6W3.支持自定替换,支持手
String.format(“%s“,msg) 爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ java 前端服务器
String.format(“%s”,msg)是一个用于格式化字符串的代码片段，它将变量msg的值插入到格式化字符串中。该代码的作用是生成一个包含敏感词的提示信息。其中%s是一个占位符，表示要插入字符串的位置。msg变量将替换该占位符的值，并生成最终的提示信息。例如，如果msg的值为“敏感词汇”，那么生成的提示信息将是“敏感词汇”。这段代码只是完成了字符串的格式化操作，并没有进行任何敏感词过滤或处
【设计模式-05】Facade门面Mediator调停者 | Decorator装饰器 | Chain Of Responsibility责任链飞鸽FlyGo MCA #设计模式设计模式门面模式装饰器模式责任链模式
Facade门面Mediator调停者1、Facade门面图解2、Mediator调停者一般是系统内部相互交错，比如消息中间件(MQ)就是这种设计模式，对各个功能或系统之间进行解耦。Decorator装饰器1、问题2、解决方案ChainOfResponsibility责任链一、例子场景业务场景：论坛或者博客发表帖子或者评论，对敏感词过滤处理。使用责任链的模式进行过滤处理。二、没有使用设计模式之前/
DFA算法实战-敏感词过滤 Stephen GS 算法项目Tips 算法 Hutool
前言这里的项目实战,我们使用的是SpringBoot2.x+JDK1.8搭建的,核心思想是借助了Hutool工具类的WordTree。想了解更多DFA算法的实现可以参考DFA算法的实现实战案例1.引入Hutool的工具类cn.hutoolhutool-all5.8.182.自定义铭感词过滤处理器Hutool工具类中定义了SensitiveProcessor接口,它的作用是把敏感词替换成*packa
DFA算法在敏感词过滤的应用 xdpcxq1029 算法 mysql 数据库
相信大家对于游戏里聊天框的以下内容已经不陌生了"我***"“你真牛*”“你是不是傻*”一个垃圾的游戏环境是非常影响玩游戏的心情的，看到这些，就知道游戏已经帮我们屏蔽掉了那些屏蔽字了，对于玩游戏而言，心里会好受很多。敏感词识别对于游戏的重要性不言而喻。当然，除了游戏，也有很多业务场景可能需要敏感词检测，如果你接到这样一个需求的时候，你会怎么做？*一、原生API作为Java程序员，我的第一反应，一定是
构建健康游戏环境：DFA算法在敏感词过滤的应用 Henry游戏开发游戏算法
现在的游戏有敏感词检测这一点，相信大家也不陌生了，不管是聊天，起名，签名还是简介，只要是能让玩家手动输入的地方，一定少不了敏感词识别，至于识别之后是拒绝修改还是星号替换，这个就各有各的做法了，但是绕不开的一定是需要高效的敏感词检测机制。相信大家对于游戏里聊天框的以下内容已经不陌生了“我***”“你真牛*”“你是不是傻*”一个垃圾的游戏环境是非常影响玩游戏的心情的，看到这些***，就知道游戏已经帮我
基于DFA算法实现敏感词过滤 YuuuZh。算法算法 java
何为DFADFA，全称为DeterministicFiniteAutomaton，即确定有穷自动机、确定有限状态自动机或确定有限自动机对于一个给定的属于该自动机的状态和一个属于该自动机字母表Σ的字符，它都能根据事先给定的转移函数转移到下一个状态（这个状态可以是先前那个状态)。确定：状态以及引起状态转换的事件都是可确定的，不存在“意外”。有穷：状态以及事件的数量都是可穷举的。简单来说就是存储字符串每
Pikachu靶场反射型xss（get） dawsw xss 学习
向框中输入”’这些敏感词过滤掉，因此可以尝试输入正确的JavaScript语句进去输入很多个2进去，发现长度是有限制的再次提交一个2进去，在源代码中查找2，发现输入框的长度收到了maxlength的长度限制，限制为20，我们将长度修改为10000此时再向输入框中输入JavaScript代码，发现没有受到长度的限制，点击submit出现弹窗
springboot项目使用过滤器统一进行参数校验，敏感词替换薛定谔的zhu 代码记录 springboot 参数校验过滤器
1.问题场景对入参进行敏感词过滤，去空格，去换行符等操作，可提高程序健壮性，减少由此带来的业务上的bug，是很普遍的需求。使用过滤器统一，不用每个接口进行处理，提高代码可维护性2.实现自定义ServletInputStream（只对post类型）获取流，校验并json参数，把去掉过滤参数后的参数传递回去3.实现自定义HttpServletRequestWrapperpackagecom.pld.c
javaweb-实验九补充练习--复盘 -Z_Nuyoah javaweb java
javaweb-实验九补充练习word资料自提，见文章末尾1、实现敏感词过滤。若输入的评论内容中没有敏感词，则返回标签“goodguy”以及原评论内容；若评论内容中有敏感词，则返回标签“badguy”以及使用“**”替换后的评论内容。【实验步骤】（1）新建一个名为”web9_extra”的项目（Web应用程序）。在项目中新建“JSP”文件，命名为“comment”。comment.jsp提供评论界
Hutool--DFA 敏感词工具类 knookda java
使用hutool的dfa工具类可以很好的帮助我们来实现敏感词过滤的功能，下面从用例入手来逐步地去j简单了解一下dfa工具类。字典树DFA算法的核心是建立了以敏感词为基础的许多敏感词树（字典树）。它的基本思想是基于状态转移来检索敏感词。字典树，是一种树形结构树形结构，主要用于统计，排序和保存大量的字符串。主要思想：利用字符串的公共前缀来节约存储空间，很好地利用了串的公共前缀，节约了存储空间，字典树主
Java实现敏感词过滤想寻
参考:https://blog.csdn.net/chenssy/article/details/26961957感谢作者的分享
数据结构与算法之美学习笔记：36 | AC自动机：如何用多模式串匹配实现敏感词过滤功能？浊酒南街数据结构与算法之美学习笔记数据结构算法
目录前言基于单模式串和Trie树实现的敏感词过滤经典的多模式串匹配算法：AC自动机解答开篇内容小结前言本节课程思维导图：很多支持用户发表文本内容的网站，比如BBS，大都会有敏感词过滤功能，用来过滤掉用户输入的一些淫秽、反动、谩骂等内容。你有没有想过，这个功能是怎么实现的呢？实际上，这些功能最基本的原理就是字符串匹配算法，也就是通过维护一个敏感词的字典，当用户输入一段文字内容之后，通过字符串匹配算法
CMS—评论功能设计 JunSouth 数据库数据挖掘人工智能
一、需求分析1.1、常见行为1.敏感词过滤2.新增评论（作品下、评论下）3.删除评论（作品作者、上级评论者、本级作者）4.上级评论删除关联下级评论5.逻辑状态变更（上线、下线、废弃...）6.上逻辑状态变更关联下级评论7.评论通知（作品作者、上级评论作者）8.点赞通知9.评论回复（下级品论者）10.评论的已读未读11.评论的媒体文件处理（包情包、图片）12.评论赞、踩13.一级评论查询（分页、倒排
55.手写实现grpc连接池以及gin和grpc交互百里守约学编程 go gin 交互
文章目录一、简介前置说明二、敏感词过滤服务1、定义sensitive.proto文件2、protoc生成pb.go文件3、sensitive服务端实现三、关键词匹配服务1、编写keywords.proto文件2、生成pb.go文件3、keywords服务端实现四、ginweb路由服务1、新建grpcpool服务作为ginweb服务2、根据proto文件，分别生成keywords服务和sensiti
敏感词过滤及反垃圾文本的相关知识（欢迎收藏） Funny_AI_LAB 计算机视觉自然语言处理数据挖掘算法
先介绍一下敏感词词库：1.funNLP敏感词库：2.chat-censorship与聊天客户端审查调查相关的数据，此存储库包含关键字黑名单以及其他内容的列表，例如用于触发在中国使用的应用程序中的审查制度的URL或图像（应用包括：微博，微信，Line,skype）3.网上整理的敏感词库及Java实现的代码请移步github敏感词过滤的相关算法：1.使用敏感词过滤系统。信息审核工作都是在信息审核平台上
Java手写字典树（Trie树），实现敏感词过滤 stu_kk java 算法数据结构
1.简介字典树：也叫做前缀树，是一种高效的存储、配对字符串的数据结构，存储过程如下：假设我们有单词：app、apple、cat。如果存在链表中：["app"、"apple"、"api"、"cat"]，要保存14个字符，使用字典树之后就变成了9个字符2.代码实现话不多说，代码很简洁，直接看注释就能看懂，如下：package算法;importsun.reflect.generics.tree.Tree
Trie字典树及内存占用优化卡了个卡算法 java 算法
概念Trie又叫字典树、前缀树，是一种数据结构。它将大量不同字符串以共享前缀的方式保存起来，形成一种树形的数据结构，由于共享字符前缀，按前缀逐级查找字符，所以检索效率极高。字典树本质上是DFA算法的一种实现。它的典型应用是文本词频统计、敏感词过滤。举个例子假设有一个字符串：中国人民银行，它的前缀集合为{中，中国，中国人，中国人民，中国人民银}，越到后面前缀越长，对于一个有序字符串来说，我们可以简单
敏感词过滤方案努力学习，努力爱你！ Java SpringBoot SpringCloud java
敏感词过滤方案敏感词过滤用的使用比较多的Trie树算法和DFA算法。Trie树Trie树也称为字典树、单词查找树，哈系树的一种变种，通常被用于字符串匹配，用来解决在一组字符串集合中快速查找某个字符串的问题。像浏览器搜索的关键词提示一般就是基于Trie树来做的。假如我们的敏感词库中有以下敏感词：高清视频高清CV东京冷东京热我们构造出来的敏感词Trie树就是下面这样的：当我们要查找对应的字符串“东京热
中英文敏感词过滤API推荐海碗吃饭 API 中英文敏感词过滤敏感词过滤API
敏感词库，包含中英文，当你输入的文本中含有敏感词，将会用特殊符号代替。现在基本上所有的网站都需要设置敏感词过滤，似乎已经成了一个网站的标配，如果你的网站没有，或者你没有做相应的处理，那可能是一个危险的行为。今天推荐中英文敏感词过滤API给大家，希望对大家的开发工作有所帮助~在APISpace上购买和使用API是极度方便的，接下来我就简单的给大家演示一下~1.订阅、购买APIAPISpace上的AP
APISpace 中英文敏感词过滤API 海碗吃饭 API
APISpace的中英文敏感词过滤API，包含中英文，当你输入的文本中含有敏感词，将会用特殊符号代替。APISpace还有很多免费通用的API接口，利用这些接口可以帮你实现去开发出很多功能丰富，服务稳定的网页、APP还有小程序，无论是练手还是实战都是不错的选择。应用场景网站应用游戏应用新闻报纸接口使用起来也是超级方便，仅需要以下短短几步，就能够实现了：到APISpace注册账户申请中英文敏感词过滤
（仿牛客社区项目）Java开发笔记3.1：过滤敏感词 Gerrar_d Java项目 java servlet spring 算法
文章目录过滤敏感词过滤敏感词本节使用敏感词过滤算法对帖子或评论中可能存在的敏感词进行屏蔽。1.在resources目录添加敏感词字典sensitive-words.txt2.直接在util包中添加SensitiveFilter类。packagecom.gerrard.community.util;importorg.apache.commons.lang3.CharUtils;importorg.
基于PHP + TRIE树实现敏感词过滤算法 weixin_33890526 php
公司新项目素材编辑功能需要提供敏感词过滤功能，于是上网查了下，很多都是基于trie算法的，但基于PHP写的却少有，或者部分存在bug。所以，自己在别人的基础上进行了完善。敏感词过滤算法实现classTreeMap{public$data;//节点字符public$children=[];//存放子节点引用（因为有任意个子节点，所以靠数组来存储）public$isEndingChar=false;/
php高效率敏感词屏蔽,高效的敏感词过滤方法(PHP) 徐志多 php高效率敏感词屏蔽
Unity导出的Xcode工程目录Classes文件夹:UnityRuntime和ObjectC代码main.mm和AppController.mm:应用程序入口点iPhone_Profiler.h:定义了启用内部分析器(In...ORA-04091:tableismutating,trigger/functionmaynotseeit今天在论坛里发现了一个关于OR
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

DFA敏感词过滤算法

你可能感兴趣的:(敏感词过滤)