短语挖掘发现2

短语挖掘1中,通过凝聚程度和自由程度,能够比较有效的挖掘新短语;在实际工作中,还有优化的方式:

Mining Quality Phrases from Massive Text Corpora, Jialu Liu †∗ Jingbo Shang †∗

Github: https://github.com/shangjingbo1226/SegPhrase

经过测试,效果确实很不错。

思路如下:

凝聚程度和自由程度计算后,设定阈值获得短语,是一个很简单快捷的无监督学习方式;换个方式思考,凝聚程度和自由程度是判断是否为短语的重要特征,是否还有别的特征?能否将这些特征放在一起训练模型获得特征权重?如果样本比较少,如何自动增加样本?

1)是否还有别的特征?有

a、出现次数

b、完整性,比如“vector machine” vs. “support vector machine”

c、信息量,比如“this paper” (词频高,但是没有信息量)?是否以停用词结尾或者开头,IDF大小,是否在双引号,()等符号中

2)能否将特征放在一起训练?可以

RF或者GBDT都非常适合

3)如果样本少,如何增加样本?

Bootstrap,不断加入上轮预测的正样本;负样本可以自动生成

4)创新点?

在统计词频的过程中,会遇到这种情况:

A standard ⌈feature vector⌋ ⌈machine learning⌋ setup is used to describe...

“feature vector”和“machine learning”是两个候选短语,但是vector machine也是候选短语,此时如何消歧?通常的算法,会三个短语都加一次,显然不对,更合理的方式是确认一种分词方案。需要考虑的指标有:短语质量分,长度惩罚,预料概率等

你可能感兴趣的:(短语挖掘发现2)