【python学习手册】02|使用Python提取中文关键词?

【需求】
小陈同学想知道30篇文档里,出现频次最高的关键词有哪些?
【环境】
Mac python3.6
用Anaconda配置的环境
【开始】
Step1

  • 安装要用到的库:结巴分词
pip install jieba

Step2

  • 终端里输入
jupyter notebook
  • 打开jupyter (用完觉得可以一行一行执行好适合初学者,可以发现哪里有bug,比sublime里写完整体执行再回去找bug要友善
    Step3
  • 准备要分析的文本,这时候有个巨坑就是编码问题,之前直接在写,就遇到了编码问题,也不知道怎么解决。
  • 因而,正确的使用中文文本数据方式,是你在Jupyter Notebook里面,新建一个文本文件。
  • 把文本复制进去,修改文件名,按File里的保存,就可以返回上一个菜单。


  • 返回后,同样新建一个python3文件,开始写提取关键词的代码。


  • 用了2种方式提取关键词,个人觉得第二种更准确一些,代码如下:


  • 如果你需要修改关键词数量,就需要指定topK参数。例如你要输出10个关键词,可以这样执行:
for keyword, weight in extract_tags(data, topK=10, withWeight=True):
    print('%s %s' % (keyword, weight))

【参考】
这篇是根据这篇教程 做的,感谢分享者,靠谱!

你可能感兴趣的:(【python学习手册】02|使用Python提取中文关键词?)