TextRank——关键词提取

TextRank 算法可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。

PageRank 算法

TextRank 算法基于 PageRank 算法的。PageRank 算法是一种网页排名算法,其基本思想有两条:

  • 链接数量:一个网页被越多的其他网页链接,说明这个网页越重要。
  • 链接质量:一个网页被一个越高权值的网页链接,也能表明这个网页越重要。
TextRank——关键词提取_第1张图片
image.png

d 表示阻尼系数,为了解决没有入链网页的得分。在 0.85 的阻尼系数下,大约 100 多次迭代 PR 值就能收敛到一个稳定的值,而当阻尼系数接近 1 时,需要的迭代次数会陡然增加很多,且排序不稳定。

链接网页的初始分数如何确定:算法开始时会将所有网页的得分初始化为 1,然后通过多次迭代来对每个网页的分数进行收敛。收敛时的得分就是网页最终得分。若不能收敛,也可以通过设定最大迭代次数来对计算进行控制,计算停止时的分数就是网页的得分。

TextRank 算法

TextRank——关键词提取_第2张图片
image.png

参考链接

https://www.zybuluo.com/evilking/note/902585

你可能感兴趣的:(TextRank——关键词提取)