Chapter5
固定搭配词组/习语 ,如:“饕”和“餮”,“虽然”和“但是”,
以2元词组为例,常用识别方法:
1. 统计2个词汇同时出现的频率,频率越大则越有可能是固定搭配;如”打“和”水“经常同时出现,
那么”打水”就是一个固定搭配或习语。
2. 如果对于两个词不相邻的情况,如“虽然”和“但是”之间肯定会有其他词,则不能用上述方法,这时需要考虑两个词的距离。
以”虽然“出现的位置为参考,将“但是“和其之间的词汇数作为距离的度量,如果“但是”出现在”虽然“前,则
距离为负,在不同距离上分别统计两个词同时出现的次数,得到一个 距离-次数 直方图,如果该直方图
比较平坦,则说明这两个词很可能不是固定搭配,反之则是。
3.假设检验。按方法1得到频率很大的2个同时出现的词,如果这2个词各自都是高频词,那么2个词即便经常同时出现,也很有可能只是巧合,因此通过假设检验 对其作进一步确认:这2个词究竟确实是天生一对,还是大量随机出现的结果?
t检验 和 卡方检验。因为t检验需要作出正态分布的假设,常常与实际场景不符,因此卡方检验一般更为常用。
a)以t检验为例:
先给定假设H0 :两个词的出现是独立的,即 P1(W1 ,W2) = P(W1)*P(W2),这就是期望值,
再通过统计得到 P2(W1W2) 和方差Delta,最后用公式和查表得到 t值,根据t值判别该假设是否成立(详见概率与统计相关材料)。
b)其他的假设检验还包括 似然比率,即关于两个词出现概率的 假设:H0-独立,H1-不独立,计算Lamda = log[L(H0)/L(H1)],其中L为似然函数。
score = -2*Lmada 即体现了两个词的相关程度。
4. 互信息。通过两个词的互信息I(W1,W2)衡量 两个词的相关性。I(W1,W2) = log2 (P(W1,W2)/(P(W1)*P(W2)));
缺陷 :a) 具有高互信息的两个词并不一定就是强相关的,b) 对词汇的稀疏性 敏感。互信息 可以很好地衡量独立性,但不能很好地依赖性。
不常用。