NLP-统计语言模型

一、数学模型

1、由来

语言模型起初是为了计算句子的合理性。在我们看来一句话是否合理主要还是判断其是否合乎语法，表达清晰，通俗的来讲就是：说的是不是人话。人为地判断虽然具有可行性，但是对于计算机来说，这无疑是对牛弹琴！于是自然语言处理界殿堂级缔造者贾里尼克提出使用概率来判断句子合理性，即：一个句子是否合理，看该句子的可能性大小如何，那么问题就转变为了一个数学问题。
比如判断句子""是否合理，即是计算

的大小

进行词粒度的拆分:

根据联合概率链规则

那么

$P(\color{green}{我,喜欢 ,自然语言 ,处理})=P(\color{green}{我})*P(\color{green}{喜欢|我})*P(\color{green}{自然语言|我,喜欢})*P(\color{green}{处理|我,喜欢,自然语言})$

以上计算过程的核心就是假设一个词出现的概率和前面n个词出现的概率相关，通过该假设，可以通过计算句子中词的联合概率来得出句子的可能性，但是同时也带来一个问题：当一句话比较长时，的计算量无法估量，天国的大门好像在最后一秒被封上了，不过古人云车到山前必有路，地球人从无畏惧困难，只恐无法找到问题，这就是常说的提出问题有时候比解决问题更重要。问题有了，就出现如下解决方案：N-Gram（假设第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关），下面说其中主要的三种情况。

2、unigram

unigram在计算的过程中直接做了一种假设：组成句子的词之间相互独立，即第n个词的出现只与前面0个词相关，而与其它任何词都不相关，那么的联合概率为：

那么

这样计算量直接降到了最低，不过简单粗暴的方式效果不一定很好，仅仅考虑词之间的独立性，就无法顾及到整句话的上下文，势必造成句子的合理性较差。

3、bigram

bigram在计算的过程中做了一种假设：第n个词的出现只与前面1个词相关，而与其它任何词都不相关，那么的联合概率为：

那么

$P(\color{green}{我,喜欢 ,自然语言 ,处理})=P(\color{green}{我})*P(\color{green}{喜欢|我})*P(\color{green}{自然语言|喜欢})*P(\color{green}{处理|自然语言})$

该种计算方式计算量不是很复杂，且考虑到了上文的相关性，属于目前比较常用的方式之一。

4、trigram

trigram在计算的过程中做了一种假设：第n个词的出现只与前面2个词相关，而与其它任何词都不相关，具体处理方式和上面类似。
到此可以发现，n-gram其实就是单纯考虑了句子的上文信息，使用上文的多少个词，看具体情况而定。

5、概率计算

上面说了那么多的的之类的概率，那么如何计算这些概率呢，下面举一个小例子：
假设有语料库：

我喜欢大自然

自然语言是如何形成的呢

如何处理数据是很重要的

越来越多的人喜欢自然语言处理

语料库中共有16个单词，分别是

[我,喜欢,大自然,自然语言,是,如何,形成,的,呢,处理,数据,是,很,重要,越来越多,人]

这些词在语料库中一共出现过22次，那么

单个词的很容易计算，那么bigram的呢，以为例，喜欢在语料库中一共出现了两次，其中有一次在喜欢的后面出现自然语言，那么，其他的以此类推...
总结一下就是：

二、文本生成案例

本案例中使用bigram的假设，需要生成的第n个词只与前面一个词有关，那么每次生成的词只需要通过前面一个的词的先验来确定。

导入需要的包

from collections import Counter
from jieba import lcut
from random import choice

定义语料
借用一下方文山写的歌词

corpus = '''
这一生原本一个人，你坚持厮守成我们，却小小声牵着手在默认。
感动的眼神说愿意，走进我的人生。
进了门开了灯一家人，盼来生依然是一家人。
确认过眼神，我遇上对的人。
我挥剑转身，而鲜血如红唇。
前朝记忆渡红尘，伤人的不是刀刃，是你转世而来的魂。
青石板上的月光照进这山城，我一路的跟你轮回声，我对你用情极深。
谁在用琵琶弹奏一曲东风破，枫叶将故事染色，结局我看透。
篱笆外的古道我牵着你走过，荒烟漫草的年头，就连分手都很沉默。
'''

bigram模型训练

def get_model(corpus):
    '''
    :param corpus: 
    :return: { '我': Counter({'的': 2, '看透': 1}), '人生': Counter({'。': 1})}
    #           我 后面 的 出现2次 看透 出现1次
    '''
    # 将语料按照\n切分为句子
    corpus = corpus.strip().split('\n')
    # 将句子切分为词序列
    corpus = [lcut(line) for line in corpus]
    # 提取所有单词
    words = [word for words in corpus for word in words]
    # 构造一个存储每个词统计的字典{'你',count(),'我':count()}
    bigram = {w: Counter() for w in words}
    # 根据语料库进行统计信息填充
    for sentence in corpus:
        for i in range(len(sentence) - 1):
            bigram[sentence[i]][sentence[i + 1]] += 1
    return bigram

生成函数

ef generate_text(bigram,first_word, free=4):
    '''
    按照语言模型生成文本
    :param first_word: 提示词
    :param free: 控制范围  如果强制按照每个词后面最有可能出现的词进行生成，设置为1，需要一些灵活性，可以放宽一些
    :return:
    '''
    # 如果第一个词不在词典中 随机选一个
    if first_word not in bigram.keys():
        first_word = choice(bigram.keys())
    text = first_word
    # 将候选词按照出现概率进行降序排列
    next_words = sorted(bigram[first_word], key=lambda w: bigram[first_word][w],reverse=True)
    while True:
        if not next_words:
            break
        # 候选词前free个中随机选一个
        next_word = choice(next_words[:free])
        text += next_word
        if text.endswith('。') :
            print('生成文本：', text)
            break
        next_words = sorted(bigram[next_word], key=lambda w: bigram[next_word][w],reverse=True)

测试

bigram = get_model(corpus)
first_words = ['你','我们','确认']
for word in first_words:
    generate_text(bigram,word,free=4)

测试效果如下

生成文本： 你用琵琶弹奏一曲东风破，盼来生依然是一家人。
生成文本： 我们，却小小声牵着手在用琵琶弹奏一曲东风破，走进我一路的不是刀刃，你轮回声，走进我一路的人。
生成文本： 确认过眼神，你轮回声，盼来生依然是你用情极深。

看到最后一句:盼来生依然是你用情极深。我怀疑我电脑是不是恋爱了(⊙o⊙)…