这是《AutomaticKeyphrase Extraction:A Survey of the State of th Art》一文的笔记。
影响短语提取的四个要素
1. 短语的长度
2. 文档结构的一致性
3. 文章主题的变化性
4. 短语之间主题的关联性
短语提取方法
短语提取的步骤:
1. 提取出候选词语
2. 使用(非)监督学习方法进行筛选
选择候选词语:
1. 去除停用词
2. 词性标注
3. 使用n-gram选择候选词
4. 筛选掉不符合lexico-syntactic模式的短语
监督学习方法:
1. 任务重构(task reformulation)
2. 特征设计(feature design)
任务重构:
把问题重铸(recast)为二元分类问题:是否是候选词。
特征:
Within-Collection特征:
1. tf*idf
2. 短语距离(这个词语与它第一次出现的位置的距离)
3. 监督式短语(在训练集里这个词语作为关键短语的次数)
4. 短语的长度和扩展性(这个词语第一次出现的位置和最后出现的位置之间有多少个word)
结构性特征:
短语在文档里所属的部分(摘要、正文、结尾等)。经验表明这个特征对于关键短语提取是有用的。
句法特征:
词性序列、后缀序列等。经验表明这个特征对于关键短语提取是无用的。
外部机遇资源的特征(External Resource-Based Features):
例如:一个短语被认为是候选的,如果它经常在Wikipedia里被当做一个链接。
一个短语被认为是候选的,如果它出现在搜索引擎的搜索日志里。
非监督学习方法:
基于图的排序:
比如TextRank算法,但是它不保证在提取出的短语里,包含了所有的主题。
但是由于它要对整篇文档构建一个图,所以很耗费资源。
基于主题聚类:
KeyCluster:
基于Wikipedia和co-occurrence-based statistics聚类,并假设聚出来的类对应文档的主题,在每个类里选取中心短语作为此篇文档的关键短语。
效果比TextRank好,但是它本质上给了每个主题相同的权重。
Topical PageRank(TPR):
使用LDA获得主题,在获得的主题集里,对每个主题运行一遍TextRank算法。最后每个候选词的得分,是这个候选词在每个主题里的得分,乘以该主题的权重(概率),的和。
效果比TextRank和tif*idf好。
CommunityCluster:
给重要的主题更多的权重,但是不像TPR,它保留重要主题的所有候选词。
在不损失准确率的情况下,召回率比TextRank和tf*idf还有Yahoo ! term extractor高。
即时学习:
构建三个图:word-word,sentence-word,sentence-sentence。
语言模型:
有两个特征项:phraseness和informativeness。
根据训练集,由KL距离计算候选词的权重并排序。