iOS实现敏感词过滤 DFA算法

最近需要实现一项功能,对字符串进行敏感词、文字过滤。这里做下记录,便于后期学习。

一、DFA简介

在实现文字过滤的算法中,DFA是唯一比较好的实现算法。DFA即Deterministic Finite Automaton,也就是确定有穷自动机,它是是通过event和当前的state得到下一个state,即event+state=nextstate。下图展示了其状态的转换
iOS实现敏感词过滤 DFA算法_第1张图片
在这幅图中大写字母(S、U、V、Q)都是状态,小写字母a、b为动作。通过上图我们可以看到如下关系

                                    a b b 
                       S -----> U S -----> V U -----> V

在实现敏感词过滤的算法中,我们必须要减少运算,而DFA在DFA算法中几乎没有什么计算,有的只是状态的转换。

参考文献: http://www.iteye.com/topic/336577

二、iOS 运用DFA算法实现敏感词过滤

在iOS中实现敏感词过滤的关键就是DFA算法的实现。首先我们对上图进行剖析,例如我们的敏感词库中存在如下几个敏感词:斗罗大陆、唐门、唐三小舞。那么我需要构建的结构如下:
iOS实现敏感词过滤 DFA算法_第2张图片
这样我们就将我们的敏感词库构建成了一个类似与一颗一颗的树,这样我们判断一个词是否为敏感词时就大大减少了检索的匹配范围。比如我们要判断唐门,根据第一个字我们就可以确认需要检索的是那棵树,然后再在这棵树中进行检索。

但是如何来判断一个敏感词已经结束了呢?利用标识位来判断。即:每个树枝都增加一个结束标识。
iOS实现敏感词过滤 DFA算法_第3张图片
弊端——nextWord得以解决,具体参照程序
iOS实现敏感词过滤 DFA算法_第4张图片

关键程序实现如下:

//创建Node
- (void)addFilterWords: (NSArray *)filterWords {
    self.root = [NSMutableDictionary dictionary];
    for (NSString *str in filterWords) {
        if(str.length > 0)
            [self insertWords:str];
    }
}
//敏感词words 插入树枝, 
-(void)insertWords:(NSString *)words{
    NSMutableDictionary *node = self.root;
    /*
     1、当i==0, node == self.root
        当i>=1, node == self.root[word]
     */
    for (int i = 0; i < words.length; i ++) {
        NSString *word = [words substringWithRange:NSMakeRange(i, 1)];
        
        if (node[word] == nil) {
            node[word] = [NSMutableDictionary dictionary];
        }
        
        node = node[word]; //指向self.root[word]
    }
    
    //敏感词最后一个字符标识
    node[EXIST] = [NSNumber numberWithInt:1];
}

//过滤str中得敏感字
- (NSString *)filter:(NSString *)str {
    
    if (self.isFilterClose || !self.root) {
        return str;
    }
    
    NSMutableString *result = result = [str mutableCopy];
    
    for (int i = 0; i < str.length; i ++) {
        NSString *subString = [str substringFromIndex:i];
        NSMutableDictionary *node = [self.root mutableCopy] ;
        int num = 0;
        
        for (int j = 0; j < subString.length; j ++) {
            NSString *word = [subString substringWithRange:NSMakeRange(j, 1)];
            //解决上图弊端
            NSString *nextWord;
            if (j+1<subString.length) {
                nextWord = [subString substringWithRange:NSMakeRange(j+1, 1)];
            }
            
            if (node[word] == nil) {
                break;
            }else{
                num ++;
                node = node[word];
            }
            
            //有节点,并且不存在下一个枝干,则敏感词匹配成功
            if ([node[EXIST]integerValue] == 1 && node[nextWord] == nil) {
                
                NSMutableString *symbolStr = [NSMutableString string];
                for (int k = 0; k < num; k ++) {
                    [symbolStr appendString:@"*"];
                }
                
                [result replaceCharactersInRange:NSMakeRange(i, num) withString:symbolStr];
                
                i += j;
                break;
            }
        }
    }
    
    return result;
}

demo
https://www.jianshu.com/p/6921a550bf3a

你可能感兴趣的:(iOS)