《统计自然语言处理基础》笔记(1)固定搭配词组/习语 识别方法

Chapter5

固定搭配词组/习语 ,如:“饕”和“餮”,“虽然”和“但是”,

以2元词组为例,常用识别方法:

1. 统计2个词汇同时出现的频率,频率越大则越有可能是固定搭配;如”打“和”水“经常同时出现,

   那么”打水”就是一个固定搭配或习语。

 2. 如果对于两个词不相邻的情况,如“虽然”和“但是”之间肯定会有其他词,则不能用上述方法,这时需要考虑两个词的距离。

  以”虽然“出现的位置为参考,将“但是“和其之间的词汇数作为距离的度量,如果“但是”出现在”虽然“前,则

  距离为负,在不同距离上分别统计两个词同时出现的次数,得到一个 距离-次数 直方图,如果该直方图

  比较平坦,则说明这两个词很可能不是固定搭配,反之则是。

3.假设检验。按方法1得到频率很大的2个同时出现的词,如果这2个词各自都是高频词,那么2个词即便经常同时出现,也很有可能只是巧合,因此通过假设检验 对其作进一步确认:这2个词究竟确实是天生一对,还是大量随机出现的结果?


    t检验 和 卡方检验。因为t检验需要作出正态分布的假设,常常与实际场景不符,因此卡方检验一般更为常用。

   a)以t检验为例: 

   先给定假设H0 :两个词的出现是独立的,即 P1(W1 ,W2) = P(W1)*P(W2),这就是期望值,

    再通过统计得到 P2(W1W2) 和方差Delta,最后用公式和查表得到 t值,根据t值判别该假设是否成立(详见概率与统计相关材料)。

   b)其他的假设检验还包括 似然比率,即关于两个词出现概率的 假设:H0-独立,H1-不独立,计算Lamda = log[L(H0)/L(H1)],其中L为似然函数。

      score = -2*Lmada   即体现了两个词的相关程度。


4. 互信息。通过两个词的互信息I(W1,W2)衡量 两个词的相关性。I(W1,W2)  = log2 (P(W1,W2)/(P(W1)*P(W2)));

    缺陷 :a) 具有高互信息的两个词并不一定就是强相关的,b) 对词汇的稀疏性 敏感。互信息 可以很好地衡量独立性,但不能很好地依赖性。

   不常用。



你可能感兴趣的:(机器学习,自然语言处理,NLP)