首先举一个例子,扔骰子,有三种骰子,第一个是比较常见的6个面,每一个面的概率都是1/6。第二个只有4个面,,每一个面的概率是1/4。第三个有8个面,,每一个面的概率是1/8。
1.知道骰子有几种(知道隐含序列有多少种),也就是几种骰子,上面就有三种,每种骰子是什么(转换概率),根据骰子扔出的结果(可观测状态链),想知道每次投的是哪种骰子(隐含状态序列)?
这问题其实就是解码问题了,知道观测序列求隐含序列。其实有两种解法,一种就是暴力求解:其实就是maximum likelihood全部乘起来一起算即可。另一种就厉害带了,递推的方法,前向算法,后向算法,前向-后向算法。
2.还是知道骰子有几种隐含状态(隐含状态的数量),知道骰子是什么(知道转换概率),根据骰子投出的结果我想知道投出这个结果的概率是多少?
这个问题看起来貌似没有什么太大的作用,但是实际上是用于对于模型的检测,如果我们投出来的结果都对应了很小的概率,那么模型可能就是错误的,有人换了我们的骰子。
3.知道骰子有几种(知道隐含序列的种类),不知道每种骰子是什么(不知道转换概率),实验得到多次骰子的结果(可观测序列),现在想知道每种骰子是什么(转换概率)
这很重要,后面会用到来求解分词的状态。
到这里先引出一个比较简单的问题,0号问题:
0.知道骰子的种类,骰子是什么,每次扔什么骰子,根据这个结果,求投出这个结果的概率是多少。
其实就是该知道的都知道了,直接求概率。
这里解释的就是第一种解法了,最大似然估计,也就是暴力解法。首先我知道我有3个骰子,六面骰子,八面骰子,四面骰子,同时结果我也知道了(1 6 3 5 2 7 3 5 2 4),现在想知道我每一次投的哪一个骰子,是六面的还是四面的还是八面的呢?
最简单的方法就是穷举了,从零个一直到第最后一个一次把每一个概率算出来,链不长还行,链要是长了就算不了了,穷举的数量太大。
接下来是要讨论另一个比较牛逼的算法,viterbi algorithm。
首先只扔一次骰子:
这个算法在后面会细讲,Baum-welch算法。
下面正式开始讲解,上面只是过一个印象。
要看隐马尔科夫自然先动马尔科夫是什么。已知现在有N个有序的随机变量,根据贝叶斯他们的联合分布可以写成条件连乘:
再继续拆:
马尔科夫链就是指,序列中的任何一个随机变量在给定它的前一个变量的分布于更早的变量无关。也就是说当前的变量只与前一个变量有关,与更早的变量是没有关系的。用公式表示:
在这个假设的前提下:这个式子表示的就是一阶马尔科夫模型:
于是我们引入了隐变量,做到了一个变量可以和更早的变量关联起来。使用隐变量构成一阶马尔科夫模型,可观测变量和隐变量关联,这样就可以得到一类模型,也就是状态空间模型。
根据上面的描述,已经知道了隐马尔科夫模型是由三个部分构成,初始概率,转移概率,发射概率。那自然就对应着三个参数了:。π是初始矩阵,也就是一个Nx1的,N就是隐变量的数量;A是状态转移矩阵,,因为这是代表转移到每一个隐变量的概率,包括自己的。B就是发射概率了。
使用来代表隐含状态序列,使用
隐状态的种类:,有N种,每一种分别是。
所有可能观测到的集合:
最后就是隐马尔科夫模型的两个条件了,这两个条件前面可是提过的,这两个条件在后面大有作为:
①齐次假设:
②观测独立性假设:
这个问题,暴力求解,前向后向算法。首先要介绍的就是暴力求解。
这个算法没有什么卵用,只是用于理解这个模型而已。
按照概率公式,列举所有可能的长度为T的状态序列,求各个状态序列I和观测序列的联合概率。
还是常规操作,分解了再说:
那么现在就是要求解。
这上面用到了齐次假设。
这里就用到了观测独立假设。
所以,
所以这个就是暴力求解的过程了,没有什么太抽象的东西,都是直接公式的推导代入即可。如果马尔科夫链很长,一般都是做不完的,所以这个算法也就是助于理解而已。
在给定时刻,求出现了观测序列。假设表示的就是在观测到同时最后一个状态是的时候的概率。
求初值:
对于t = 1,2,3...T:。这个其实蛮好理解的,等于就是:(上一个节点转移的i个状态的和)*i状态到下一个状态的发送概率
最后:
前向算法很直观,比较好理解。
后向算法,顾名思义就是往前推的了。所以使用β来表示。
初值:
对于t=T-1,T-2,...1:
最终:
直观理解:这个东西有点骚,你得倒着看。首先既然是得到了未来的一个概率,那么要求之前的,肯定要回退到隐状态啊。怎么回退呢?怎么来的就怎么退,隐状态到观测序列用的是B矩阵发射概率,那自然是用B矩阵里面的来回退了,于是乘上回退到状态转移矩阵,然后再用A矩阵回到的上一个节点。但是这样只是做一条路,总共可不止这么多条,于是再加和即可。
额外补充一点,对于前向概率和后向概率之间的关系:
前向概率和后向概率的关系
我们定义一个概率表达,在参数给定了的情况下,求解出现了观测序列且当前状态是的概率是多少。分解并推导一下这个公式:
记:
表示的就是在给定了观测序列和参数的情况下,当前状态是的概率是多少。
还有另外一个比较重要的:给定了观测值和参数,求在时刻状态是,时刻状态是的概率,记为:
推导一下,这个在后面baum-welch算法大有作为。
主要就是怎么求。这个和前向算法有点像,直接画图理解:
对比图片其实很明显了:
所以
期望:
在观测状态已知,参数已知的情况下,状态出现的期望:
在观测状态已知,参数已知的情况下,状态转移到状态的期望:
这样的话那么第一个问题就解决了。
求极大,自然就是EM了。这里直接就使用Q函数:
还是再提一下,这里直接使用Q函数,这是李航老师里面的正式理解,和通俗理解就差log里面除一个隐变量的分布了。虽然式子不一样,但是求导之后下面这个常数Q分布是可以去掉的,没有任何影响,因为参数使用的是前一次迭代求出来的,所以两者没有区别。
稍微化简一下:
由于是已知的,所以是已知的,那么
虽然是可以求出来的,但是它是在加和里面,不可以提出来,所以是不能去掉的,而是和加和没有关系的,所以可以正比去掉,反正对整个函数的趋势没有影响的。
前面推导过:
代进去:
为什么要分成三个部分呢?因为求导一下就没一边了,开心。
求:
有一个条件:。既然是有条件了,拉格朗日乘子法就用上了。化简一下上式:拉格朗日乘子法:
求导:
上面那几条式子全部加起来:
所以
求A:
这里的条件就是,还是延用上面的方法,拉格朗日求导,其实就是改一下上面的公式就好了。所以有:
求B:
这里的条件就是,于是:
这样就是整个更新算法了。
如果已经有了一堆标注好的数据,那就没有必要再去玩baum-welch算法了。这个算法就很简单了,多的不说,直接上图:
上面骰子的例子已经举过了,再讲一个下雨天的例子:
day | rain | sun |
---|---|---|
rain | 0.7 | 0.3 |
sun | 0.4 | 0.6 |
转移概率如上
day | walk | shop | clean |
---|---|---|---|
rain | 0.1 | 0.4 | 0.5 |
sun | 0.6 | 0.3 | 0.1 |
发射概率入上
初始概率
已知模型参数和观测三天行为(walk,shop,clean),求天气。
①首先是初始化:
②第二天:
③最后一天:
接着就是回溯了,查看最后一天哪个最大,倒着找,最后就是2,1,1了,也就是(sun,rain,rain)。
class Tool(object):
infinite = float(-2**31)
@staticmethod
def log_normalize(a):
s = 0
for x in a:
s += x
if s == 0:
print('Normalize error,value equal zero')
return
s = np.log(s)
for i in range(len(a)):
if a[i] == 0:
a[i] = Tool.infinite
else:
a[i] = np.log(a[i]) - s
return a
@staticmethod
def log_sum(a):
if not a:
return Tool.infinite
m = max(a)
s = 0
for t in a:
s += np.exp(t - m)
return m + np.log(s)
@staticmethod
def saveParameter(pi,A, B, catalog):
np.savetxt(catalog + '/' + 'pi.txt', pi)
np.savetxt(catalog + '/' + 'A.txt', A)
np.savetxt(catalog + '/' + 'B.txt', B)
准备了几个静态方法,一个就是log标准化,也就是把所有的数组都归一化操作,变成一个概率,log算加和,保存矩阵。所有的操作都是使用log表示,如果单单是只用数值表示的话,因为涉及到很多的概率相乘,很多时候就变很小,根本检测不出。而用log之后下限会大很多。
其实就是根据上面的公式统计即可。
def supervised(filename):
'''
The number of types of lastest variable is four,0B(begin)|1M(meddle)|2E(end)|3S(sigle)
:param filename:learning fron this file
:return: pi A B matrix
'''
pi = [0]*4
a = [[0] * 4 for x in range(4)]
b = [[0] * 65535 for x in range(4)]
f = open(filename,encoding='UTF-8')
data = f.read()[3:]
f.close()
tokens = data.split(' ')
#start training
last_q = 2
old_process = 0
allToken = len(tokens)
print('schedule : ')
for k, token in enumerate(tokens):
process = float(k) /float(allToken)
if process > old_process + 0.1:
print('%.3f%%' % (process * 100))
old_process = process
token = token.strip()
n = len(token)
#empty we will choose another
if n <= 0:
continue
#if just only one
if n == 1:
pi[3] += 1
a[last_q][3] += 1
b[3][ord(token[0])] += 1
last_q = 3
continue
#if not
pi[0] += 1
pi[2] += 1
pi[1] += (n-2)
#transfer matrix
a[last_q][0] += 1
last_q = 2
if n == 2:
a[0][2] += 1
else:
a[0][1] += 1
a[1][1] += (n-3)
a[1][2] += 1
#launch matrix
b[0][ord(token[0])] += 1
b[2][ord(token[n-1])] += 1
for i in range(1, n-1):
b[1][ord(token[i])] += 1
pi = Tool.log_normalize(pi)
for i in range(4):
a[i] = Tool.log_normalize(a[i])
b[i] = Tool.log_normalize(b[i])
return pi, a, b
按照公式来,一个一个单词判断,如果是单个的那自然就是single,所以当的时候直接就是。初始状态是因为一开始肯定是结束之后才接着开始的,所以自然就是2,end。之后都是比较常规了。
def viterbi(pi, A, B, o):
'''
viterbi algorithm
:param pi:initial matrix
:param A:transfer matrox
:param B:launch matrix
:param o:observation sequence
:return:I
'''
T = len(o)
delta = [[0 for i in range(4)] for t in range(T)]
pre = [[0 for i in range(4)] for t in range(T)]
for i in range(4):
#first iteration
delta[0][i] = pi[i] + B[i][ord(o[0])]
for t in range(1, T):
for i in range(4):
delta[t][i] = delta[t-1][0] + A[0][i]
for j in range(1, 4):
vj = delta[t-1][j] + A[0][j]
if delta[t][i] < vj:
delta[t][i] = vj
pre[t][i] = j
delta[t][i] += B[i][ord(o[t])]
decode = [-1 for t in range(T)]
q = 0
for i in range(1, 4):
if delta[T-1][i] > delta[T-1][q]:
q = i
decode[T-1] = q
for t in range(T-2, -1, -1):
q = pre[t+1][q]
decode[t] = q
return decode
根据上面的例子来就好,先找到转移概率最大的,迭代到最后找到概率最大的序列之后倒着回来找即可。最后就得到一串编码,然后使用这段编码来进行划分。
def segment(sentence, decode):
N = len(sentence)
i = 0
while i < N:
if decode[i] == 0 or decode[i] == 1:
j = i+1
while j < N:
if decode[j] == 2:
break
j += 1
print(sentence[i:j+1],"|",end=' ')
i = j+1
elif decode[i] == 3 or decode[i] == 2: # single
print (sentence[i:i + 1], "|", end=' ')
i += 1
else:
print ('Error:', i, decode[i] , end=' ')
i += 1
这个就是根据编码划分句子的函数了。首先是通过有监督的学习得到参数,然后用viterbi算法得到编码序列,再用segment函数做划分即可。
if __name__ == '__main__':
pi = np.loadtxt('supervisedParam/pi.txt')
A = np.loadtxt('supervisedParam/A.txt')
B = np.loadtxt('supervisedParam/B.txt')
f = open("../Data/novel.txt" , encoding='UTF-8')
data = f.read()[3:]
f.close()
decode = viterbi(pi, A, B, data)
segment(data, decode)
执行代码。
效果当然可以了,毕竟是有监督。无监督的就没有这么秀了。
参考上面三个公式,除了B有点难更新之外其他的都很简单。
def cal_alpha(pi, A, B, o, alpha):
print('start calculating alpha......')
for i in range(4):
alpha[0][i] = pi[i] + B[i][ord(o[0])]
T = len(o)
temp = [0 for i in range(4)]
del i
for t in range(1, T):
for i in range(4):
for j in range(4):
temp[j] = (alpha[t-1][j] + A[j][i])
alpha[t][i] = Tool.log_sum(temp)
alpha[t][i] += B[i][ord(o[t])]
print('The calculation of alpha have been finished......')
def cal_beta(pi, A, B, o, beta):
print('start calculating beta......')
T = len(o)
for i in range(4):
beta[T-1][i] = 1
temp = [0 for i in range(4)]
del i
for t in range(T-2, -1, -1):
for i in range(4):
beta[t][i] = 0
for j in range(4):
temp[j] = A[i][j] + B[j][ord(o[t + 1])] + beta[t + 1][j]
beta[t][i] += Tool.log_sum(temp)
print('The calculation of beta have been finished......')
def cal_gamma(alpha, beta, gamma):
print('start calculating gamma......')
for t in range(len(alpha)):
for i in range(4):
gamma[t][i] = alpha[t][i] + beta[t][i]
s = Tool.log_sum(gamma[t])
for i in range(4):
gamma[t][i] -= s
print('The calculation of gamma have been finished......')
def cal_kesi(alpha, beta, A, B, o, ksi):
print('start calculating ksi......')
T = len(o)
temp = [0 for i in range(16)]
for t in range(T - 1):
k = 0
for i in range(4):
for j in range(4):
ksi[t][i][j] = alpha[t][i] + A[i][j] + B[j][ord(o[t+1])] + beta[t+1][j]
temp[k] = ksi[t][i][j]
k += 1
s = Tool.log_sum(temp)
for i in range(4):
for j in range(4):
ksi[t][i][j] -= s
print('The calculation of kesi have been finished......')
的更新按照公式即可。
def update(pi, A, B, alpha, beta, gamma, ksi, o):
print('start updating......')
T = len(o)
for i in range(4):
pi[i] = gamma[0][i]
s1 = [0 for x in range(T-1)]
s2 = [0 for x in range(T-1)]
for i in range(4):
for j in range(4):
for t in range(T-1):
s1[t] = ksi[t][i][j]
s2[t] = gamma[t][i]
A[i][j] = Tool.log_sum(s1) - Tool.log_sum(s2)
s1 = [0 for x in range(T)]
s2 = [0 for x in range(T)]
for i in range(4):
for k in range(65536):
if k%5000 == 0:
print(i, k)
valid = 0
for t in range(T):
if ord(o[t]) == k:
s1[valid] = gamma[t][i]
valid += 1
s2[t] = gamma[t][i]
if valid == 0:
B[i][k] = -Tool.log_sum(s2)
else:
B[i][k] = Tool.log_sum(s1[:valid]) - Tool.log_sum(s2)
print('baum-welch algorithm have been finished......')
最后再封装一把:
def baum_welch(pi, A, B, filename):
f = open(filename , encoding='UTF-8')
sentences = f.read()[3:]
f.close()
T = len(sentences) # 观测序列
alpha = [[0 for i in range(4)] for t in range(T)]
beta = [[0 for i in range(4)] for t in range(T)]
gamma = [[0 for i in range(4)] for t in range(T)]
ksi = [[[0 for j in range(4)] for i in range(4)] for t in range(T-1)]
for time in range(1000):
print('Time : ', time)
sentence = sentences
cal_alpha(pi, A, B, sentence, alpha)
cal_beta(pi, A, B, sentence, beta)
cal_gamma(alpha, beta, gamma)
cal_kesi(alpha, beta, A, B, sentence, ksi)
update(pi, A, B, alpha, beta, gamma, ksi, sentence)
Tool.saveParameter(pi, A, B, 'unsupervisedParam')
print('Save matrix successfully!')
初始化矩阵:
def inite():
pi = [random.random() for x in range(4)]
Tool.log_normalize(pi)
A = [[random.random() for y in range(4)] for x in range(4)]
A[0][0] = A[0][3] = A[1][0] = A[1][3] = A[2][1] = A[2][2] = A[3][1] = A[3][2] = 0
B = [[random.random() for y in range(65536)] for x in range(4)]
for i in range(4):
A[i] = Tool.log_normalize(A[i])
B[i] = Tool.log_normalize(B[i])
return pi , A , B
最后跑一遍就OK了。
无监督算法使用的是EM框架,肯定会存在局部最大的问题和初始值敏感,跑了56次,用的谷歌GPU跑,代码没有经过优化,跑的贼慢。
最后的效果也是惨不忍睹。
概率图模型大多都是围绕着三个问题展开的,求观测序列的概率最大,求隐含序列的概率最大,求参数。MEMM,RCF大多都会围绕这几个问题展开。求观测序列的概率,暴力求解是为了理解模型,前向后向算法才是真正有用的;概率最大的隐含序列viterbi算法,动态规划的思想最后回溯回来查找;求参数就是套用EM框架求解。
HMM是属于生成模型,首先求出,转移概率和表现概率直接建模,也就是对样本密度建模,然后才进行推理预测。事实上有时候很多NLP问题是和前后相关,而不是只是和前面的相关,HMM这里明显是只和前面的隐变量有关,所以还是存在局限性的。对于优化和模型优缺点等写了MEMM和RCF再一起总结。
最后附上GitHub代码:
https://github.com/GreenArrow2017/MachineLearning/tree/master/MachineLearning/HMM