从n-gram到Bert聊一聊词向量(一):n-gram

一元语法

从n-gram到Bert聊一聊词向量(一):n-gram_第1张图片

二元语法

对于一个句子s=w_1...w_n,近似认为一个词的概率只依赖于它前面的1个词。即一个状态只跟上一个状态有关,也称为一阶马尔科夫链

假设c(w_{i-1}w_i) 表示二元语法w_{i-1}w_i在给定文本中的出现次数,

p(w_{i-1}w_i)=\frac{c(w_{i-1}w_i)}{\sum_w c(w_{i-1}w_i)}

元语法

从n-gram到Bert聊一聊词向量(一):n-gram_第2张图片

n元语法

认为一个词出现的概率和它前面的n个词有关系,一般取n=2或者n=3。其概率计算公式为如下:

对于n>2的n元语法模型,条件概率要考虑前面n−1个词的概率,设wji表示wi⋯wj,则有:

从n-gram到Bert聊一聊词向量(一):n-gram_第3张图片

Add-one 平滑

对于bigram模型而言,可得:

对于n-Gram模型而言,可得:

M 是训练语料中所有的N-Gram的数量(token),而 V 是所有的可能的不同的N-Gram的数量(type),也就是就是语料库中的词汇量。

Add-k 平滑

k是小于1的正数

 

你可能感兴趣的:(阅读论文,NLP,深度学习)