使用BPE算法处理未登录词

BPE算法的输入是原始字典,其中每个单词被表示成一串字符,BPE算法迭代的执行k次,每次选择一个出现频率最高的符号对进行合并,生成一个新的符号,注意这种合并是不超过单词边界的。
例如原始词典中有张晨光张晨磊两个单词,频数均为3,但是没有出现张晨

张晨光:3
张晨磊:3

所以我们在使用最大匹配算法进行分词时,如果使用该字典,就会造成张晨被错误分割为两个词的情况,因为最大匹配算法无法正确处理未登录词:

max match cut result:
我/是/张/晨/,/我/爱/自然语言/处理

假设我们使用BPE算法时,k=1,并且第一次选中的符号对是(“张”,“晨”),那么我们将其合并后,会生成新的符号“张晨”,并且其出现的频数为6. 经过BPE算法处理后的词典中,将会包含原始词典中的单词和新生成的符号,那些没有合并的单字符符号也会包括其中,新的词典中会包括下面三个词:

张晨光:3
张晨磊:3
张晨:6

此时我们再使用最大匹配算法进行分词,并将经过BPE算法处理后新词典作为输入,我们就能得到正确的分词结果了(未登录词“张晨”被正确识别了):

max match cut(with BPE) result:
我/是/张晨/,/我/爱/自然语言/处理

BPE算法的核心代码如下:

def bpe(dic_of_words_with_space, num_merges):
    dic_to_merge = dic_of_words_with_space
    dic_merged = {}
    for i in range(num_merges):
        pairs = get_pair_stats(dic_of_words_with_space, char_separator=constants.space)
        # best_pair = max(pairs, key=pairs.get)
        best_pair = ("张", "晨")
        dic_merged = merge_vocab(best_pair, dic_to_merge)
        dic_to_merge = dic_merged
    return dic_merged

注意我们这里故意把best_pair设置成("张", "晨")以方便演示算法效果,其完整代码可以在我的github上下载.

你可能感兴趣的:(NLP,AI)