NLP | 文本匹配算法

01 贪婪策略

今天我们调用python中的一个自然语言处理包nltk,来实现一个MaxMatch文本匹配算法。

什么是MaxMatch文本匹配算法呢?顾名思义,就是取最长的字符作为一个分词结果,比如说:“我爱中华人民共和国”这个句子,分词后,可以有很多结果,如,

  • {‘我’,‘爱’,‘中华’,‘人民’,‘共和国’}
  • {‘我’,‘爱’,‘中华人民共和国’}

MaxMatch文本匹配算法更倾向于后者的分词结果,因为‘中华人民共和国’显然是一个专有名词。

所以你看出来了,MaxMatch文本匹配算法其实是一种基于贪婪策略的算法。

下面我们演示针对英文的maxmatch算法(中文的逻辑相同,只是需要中文词库)

02 算法逻辑

根据前述MaxMatch算法的思想,我们可以设计出以下逻辑来实现此算法:

  • 输入:无空格、无其他符号的英文句子

  • 输出:用空格合理隔开的句子,使得句子有意义

  • 算法逻辑:从字符串右侧开始逐渐减少字符串长度(-1),每次都去检查当前字符串能否匹配对应词库的词

    • 若能匹配,则取出该段字符串,放入空字符串中,剩余字符串继续执行第一步操作
    • 若不匹配,则将字符串长度-1,再去检查是否匹配词库的词

03 算法实现

根据算法逻辑,我们利用python的nltk模块,实现MaxMatch算法。

"""
输入:无空格、无其他符号的英文句子(否则会死循环)
输出:用空格合理隔开的句子,使得句子有意义
"""
def max_match(text):
    from nltk.stem import WordNetLemmatizer
    from nltk.corpus import words
    import time
    
    start_time=time.time()
    
    wordlist=set(words.words()) #利用词汇表语料库words建立单词列表
    lemmatizer=WordNetLemmatizer() #初始化词形还原函数
    
    position=len(text)
    result=""
    while len(text)>0:
        word=lemmatizer.lemmatize(text[:position]) #对输入的字符串进行词形还原,英文需要,中文不用
        if word in wordlist:
            result+=text[:position]+" "
            text=text[position:]
            position=len(text)
        else:
            position-=1 #若不匹配,则将字符串长度-1,再去重复前述步骤
    print ("MaxMatch Algorithm Time Taken:{0}s".format(time.time()-start_time))
    print ("MaxMatch result:",result)
    return result

下面我们来测试一下这个算法

告诉我,你是不是看不懂下面这个text在说什么?别急,MaxMatch算法来拯救你~

text="Indiapolicementoldtoslimdownorlosejob"
max_match(text)

输出

原来text说的是印度警察被要求减肥,否则就丢掉工作。

可以发现,算法处理后,有的词汇识别还是有些误差,比如or lose job 被判断为了orlo se job,原因很简单:nltk.corpus.words词库中包含大量词汇,orlo和or都在词库中,而我们的算法选择了更长的词(这也是算法核心),导致它最终分为了orlo而不是or

所以这也是最大匹配算法的一个缺点,它虽然保证了快速高效匹配文本,但准确率可能不够高。

04 总结

本文利用python的nltk模块实现了文本最大匹配算法,通过算法我们可以快速匹配句子中的文本,帮助我们快速理解语义,但最大匹配算法虽然保证了快速高效匹配文本,但准确率可能不够高。

希望对你有帮助~~

你可能感兴趣的:(NLP | 文本匹配算法)