文本关键字提取算法归纳

关键字提取算法

  • 1、基于统计特征的关键词提取算法
    • 1.1 TF-IDF
    • 1.2 PKEA (Patent Keyword Extraction Algorithm)
    • 1.3 文档位置信息
    • 1.4 词跨度
    • 1.5 互信息
  • 2、基于词图模型的关键词抽取算法
    • 2.1 PageRank
    • 2.2 TextRank算法
    • 2.3 Rake
  • 3、基于主题模型的关键词抽取
    • 3.1 LDA

1、基于统计特征的关键词提取算法

基于于统计特征的关键词抽取算法的思想是利用文档中词语的统计信息抽取文档的关键词。通常将文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到关键词。基于统计特征的关键词抽取方法的关键是采用什么样的特征值量化指标的方式。

1.1 TF-IDF

详参TF-IDF与余弦相似性的应用(一):自动提取关键词。

1.2 PKEA (Patent Keyword Extraction Algorithm)

具体实施步骤:
(1)将所有专利的摘要提取出来进行skip-gram词向量训练。min wordcount:3,window_size:5,dim:200
(2)利用预先定义的与类有关的单词,使用k-means计算各个类的形心词向量 s i s_i si
(3)对每一份专利的摘要中存在于skip-gram词库的词计算 c o s ( w i j , s i ) cos(w_{ij},s_i) cos(wij,si)
(4)按 c o s cos cos的值从高到低排序即可得到提取的关键字

1.3 文档位置信息

1.4 词跨度

词跨度是指一个词或者短语字文中首次出现和末次出现之间的距离,词跨度越大说明这个词对文本越重要,可以反映文本的主题。一个词的跨度计算公式如下:
在这里插入图片描述
其中, l a s t i last_i lasti表示词 i i i在文本中最后出现的位置, f i r s t i first_i firsti表示词 i i i 在文本中第一次出现的位置, s u m sum sum表示文本中词的总数。

词跨度被作为提取关键词的方法是因为在现实中,文本中总是有很多噪声(指不是关键词的那些词),使用词跨度可以减少这些噪声。

1.5 互信息

详参基于统计特征的关键词提取算法

2、基于词图模型的关键词抽取算法

PageRank算法是整个google搜索的核心算法,是一种通过网页之间的超链接来计算网页重要性的技术,其关键的思想是重要性传递。在关键词提取领域, Mihalcea 等人所提出的TextRank算法就是在文本关键词提取领域借鉴了这种思想。

2.1 PageRank

PageRank是一种网页排名算法,网页质量的评估是遵循以下两个假设的:

  1. 数量假设:一个节点(网页)的入度(被链接数)越大,页面质量越高
  2. 质量假设:一个节点(网页)的入度的来源(哪些网页在链接它)质量越高,页面质量越高

详参PageRank算法简介及Map-Reduce实现

2.2 TextRank算法

当TextRank应用到关键字抽取时,每个词不是与文档中所有词都有链接。那么如何界定链接关系?学者们提出了一个窗口的概念。在窗口中的词相互间都有链接关系。得到了链接关系,就可以套用TextRank的公式,对每个词的得分进行计算。最后选择得分最高的n个词作为文档的关键词。
在这里插入图片描述
节点 i 的权重取决于节点 i 的邻居节点中 i-j 这条边的权重 / j 的所有出度的边的权重 * 节点 j 的权重,将这些邻居节点计算的权重相加,再乘上一定的阻尼系数,就是节点 i 的权重,阻尼系数 d 一般取 0.85。

TextRank 用于关键词提取的算法如下:

(1)把给定的文本 T 按照完整句子进行分割,即:
在这里插入图片描述
(2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,其中 ti,j 是保留后的候选关键词。
在这里插入图片描述
(3)构建候选关键词图 G = (V,E),其中 V 为节点集,由(2)生成的候选关键词组成,然后采用共现关系(Co-Occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为 K 的窗口中共现,K 表示窗口大小,即最多共现 K 个单词。

(4)根据 TextRank 的公式,迭代传播各节点的权重,直至收敛。

(5)对节点权重进行倒序排序,从而得到最重要的 T 个单词,作为候选关键词。

(6)由(5)得到最重要的 T 个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

2.3 Rake

Rake算法的实现,请点击:https://github.com/zelandiya/RAKE-tutorial

3、基于主题模型的关键词抽取

3.1 LDA

基于主题关键词提取算法主要利用的是主题模型中关于主题的分布的性质进行关键词提取。

参考文献:
技术干货 | 如何做好文本关键词提取?从三种算法说起
关键词提取算法

你可能感兴趣的:(深度学习)