jieba分词详解和实践

jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念:

  • 最常用的TF-IDF

什么是TF-IDF呢?要分成2个部分来理解。

  1. TF,词频——一个词在文章中出现的次数
  2. IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。

这是什么意思呢?我们来看个例子。

这是一条财经类新闻
上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / ……

在这篇文章中
上周:出现 1 次
时间:出现 2 次
白酒股:出现 1 次
的:出现 2 次
股价:出现 1 次

在以上的信息中,1、2、1、2、1等等这些次数就是TF词频
通常来说,一个词越重要,就会在文章中出现多次,这个词也就能反映出这篇文章的特性,但是你会发现,这篇文章出现最多次数的是 时间、的,它们反映出文章的特性了吗?当然没有!所以,我们还要对每个词进行分类赋予权重:
最常见的词(“的”,“是”,“了”)权重最小
比较常见的词(“时间”,“上周”,“中国”)权重比较小
很少见的词(“白酒股”,“股价”,“养殖”)权重最大
这里的权重就是IDF
将TF和IDF相乘,就得到了TF-IDF值,某个词对文章越重要,该值越大,于是排在前面的几个词,就是这篇文章的关键词。

当然,这个TF-IDF值不用我们自己算,在jieba里面,已经帮我们算好了TF-IDF,直接拿来用就好了。

jieba分词源码地址:https://github.com/fxsjy/jieba

你可能感兴趣的:(数据分析,自然语言处理,数据挖掘,机器学习,python,人工智能)