自然语言处理学习(1)一部分概率论知识

从今天开始学习自然语言处理方面的知识。在这里做一些学习的记录

似然(likehood)


在概率统计中,经常见到“最大似然估计”这个词汇。
我们在学习时的一个很大的困难就是被一些陌生的且看起来高大上的词汇劝退。
这里的似然,与概率几乎是同义词。
《统计自然语言处理》中指出,当实验样本足够大的时候,某一件事发生的频率近似等于其发生的概率。通俗的说,当抛无数次硬币的时候,硬币某一面出现的频率就被看做这一面朝上的概率。
这种估计概率的方法就叫做最大似然估计,即用频率去近似概率。

条件概率:

条件概率公式不做叙述,记录其特性:
p(a1∩a2∩a3∩…an)=p(a1)p(a2|a1)p(a3|a2∩a1)p(a4|a3∩a2∩a1)…p(ak|a(k-1)∩a(k-2)…∩a1),这一特性叫做概率的乘法定理。

另一个是可列可加性:
如果事件Ai互不相容,那么有:
p(ΣAi|B)=Σp(Ai|b)
另外有,如果Ai和Ak条件独立
*则有p(Ai,Ak|B)=p(Ai|B)p(Ak|B)
意思就是在Ai与Ak互相独立时,B发生的条件下,Ai和Ak都发生的概率=二者各自的条件概率相乘

**

贝叶斯公式

贝叶斯公式是概率统计中非常重要的一个公式,下面举一个例子来理解

公式: p(Bj|A)=p(A|Bj)p(Bj)/Σ[p(A|Bj)p(Bj)

可以理解为Bj为事件A发生时,事件B发生的可能情况。

下面给出《统计自然语言处理中的一个例题》
自然语言处理学习(1)一部分概率论知识_第1张图片
对于贝叶斯问题,困难主要在于逻辑能力较弱的同学可能搞不清楚谁是公式里的A,谁是B。
其实我们只需要牢记,如果事件x在事件y发生时有多种取值可能,那么事件X就是公式中的B。

在这个题中,注意这一句:句子中使用这一义项时预测为“使用“”的概率为0.95。句子中没有使用这一义项,而预测为“使用”的 概率为0.005。这里我们思考哪一个事件有多个取值情况?显然是“是否使用该义项”这个事件,因为他有 确实使用该义项 和 没有使用该义项 两个取值,那么他就是事件B,则“预测为使用”就是事件A。因为他只有“预测为使用”这一种情况。
所以根据题中信息,句子中使用该义项的概率P(B1)=0.00001,则P(B2)为其对立事件,概率为1-0.00001=0.99999。

那么在确实使用该义项情况下,预测为使用,就是事件P(A|B1)=0.95
这里我们题目问的是 程序判断句子使用了这一义项 这个结论的正确概率,
也就是求 在预测为“使用”的情况下,确实使用了这一义项的概率,即P(B1|A)=P(A|B1)P(B1)/(P(A|B1)P(B1)+P(A|B2)P(B2)
= 0.95
0.00001/0.95
0.00001+0.005
0.99999=0.002.

第一篇文章就到这里,接下来按照书中的内容将要学习机器学习中的贝叶斯决策算法。这里仅仅是个人学习时的一些记录,语言不够精简,理解也可能有偏差,如果发现错误欢迎评论区指正。

你可能感兴趣的:(统计自然语言处理学习,概率论,自然语言处理,学习)