项目实训-关键词提取-论文研读-RaKUn算法(1)

项目实训记录系列博客

一马当先,争做国家栋梁。

博客说明

本博客初衷是用于学校项目实训知识梳理、工作内容、收获感悟的记录。
若能在您的学习之路上有所帮助,不胜荣幸。但若需转载,也请注明出处。

博客包含以下内容(也是开篇提到的),但不意味着每一篇都会囊括所有;同时,也并非意味着博客的目录结构就是如此。每篇博客内容请看后文中具体的目录。
知识梳理:为了完成目标算法,将会广泛地查阅有关文献资料。将所学知识、资料进行整理。会加入个人理解,一起进行分享。
工作内容:作为项目参与者,在整个项目中所担任的角色、完成的任务。包括个人任务,团队沟通与合作。
收获感悟:您可以简单理解为鸡汤。不过,不同于空洞的话语,在这里所记录的感悟和总结都是结合自身实际、结合项目实际的,相信您能看到博主是怎样的人,也愿您能从中获得启发和前进的动力。

项目实训系列博客目录

1-关键词提取-任务理解&工作分配
2-关键词提取-代码运行云平台colab的使用
3-关键词提取-论文研读-RaKUn算法(1)
4-关键词提取-论文研读-RaKUn算法(2)
5-关键词提取-论文研读-betweenness centrality相关算法(1)
6-关键词提取-论文研读-betweenness centrality相关算法(2)
7-关键词提取-论文研读-load centrality的合理性探讨
8-在IDEA或Pycharm中解决编码问题
9-python:sort()和sorted()使用及对比
10-python:set的使用
11-python:most_common()函数
12-python:enumerate()函数
13-networkx的基础使用
14-收尾工作-答辩内容整理
15-收尾工作-组织协调


本博客目录

  • 项目实训记录系列博客
    • 博客说明
    • 项目实训系列博客目录
    • 监督学习
      • 无监督学习
        • 统计法
        • 基于图法
      • 本论文方法
        • 有竞争力的主要特点
  • 感想收获


# Introduction and related work ## 背景 1.keyword extraction 的重要性

2.目前最好的解决方案,所达到的效果也不如其他NLP领域的核心问题现状

监督学习

**KEA:**目前(论文发表时,下同)监督学习最好的模型。基于朴素贝叶斯的ML算法

无监督学习

统计法

YAKE(统计法中目前最好,同时也是所有关键词提取算法中表现最好的), KP-MINER and RAKE

基于图法

Topic Rank(图法中目前最好), TextRank, Topical PageRank and Single Rank

本论文方法

基于图的方法,基于聚合方法。将多余、类似的顶点聚合,有卷积网络的特征,但是没有用到卷积网络。原文中还提到这跟传感器网络中的子网络聚合,还有生物学中大分子蛋白质层次表达很像,不过跨学科领域有点远,这里先不去深究这两样事物。

有竞争力的主要特点

**加载中心点:**在这个领域还没有被充分利用,本方法跟很多其他用了中心点的方法,如PageRank都有相当的表现

**元顶点:**本文是首个以聚合相似点为目的而提出此概念的。有类似想法的是YAKE

**拓展:**解决了一元语法、二元语法、三元语法的问题

**泛用性:**泛用性好,任意的文本语料都可以转化为权重图,并且保证全局的序列信息,挖掘潜在的内容,这点比统计法的自然状态呈现要更好。

感想收获

对于目前关键词提取这个领域的进展有了初步的认识和了解。实际上很多方法和概念之前都从未听说过,读到这里还是收获颇丰的。当然,这些方法到底如何,本论文的方法到底好在哪里,还需要更深入的研读和论证。

你可能感兴趣的:(项目实训,论文研读,算法,人工智能,自然语言处理)