文本关键字提取

文本关键字提取

用途:

  • 用核心信息代表原始文档
  • 在文本聚类、分类、自动摘要等领域又很重要的作用

需求:针对一篇文章,在不加入人工干预的情况下提取出关键词(自动提取)

  1. 当然,首先需要进行分词!
  2. 关键词匹配:事先给定关键词库,然后在文档中进行关键词检索
  3. 关键词提取:根据某种准则,从文档中提取最重要的词作为关键字
  • 有监督:提取出候选词并标记是否为关键词,然后训练相应的模型
  • 无监督:给词条打分,并基于最高分值提取

无监督方式的分析思路:基于词频

  • 分析思路1:按照词频高低进行提取(存在弊端)
    • 大量的高词频词并无意义(例如停用词)
    • 即使出现频率相同,常见词的价值也明显低于不常见词
  • 分析思路2:按照词条在文档中的重要性进行提取
    • 如何确定词条在该文档中的重要性?TF-IDF算法
    •  基于网络图

你可能感兴趣的:(算法,聚类,java,自然语言处理,编程语言)