jieba中文分词安装使用报告

查询到电脑中是python2.7版本
于是登入服务器中,直接使用 pip install jieba 代码来实现自动安装jieba
![Paste_Image.png](http://upl oad-images.jianshu.io/upload_images/5886630-0270fec04f4aeae4.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
安装好之后开始写一个简单文档进行测试并输出结果为txt文件下载

Paste_Image.png

full mode 指全模式 也就是将所有可以构成词语的都显示出来
默认的话是精确模式 也就是不增加字数 只在自身分词出来
jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式
jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
安装过程及代码解释参考 http://www.tuicool.com/articles/QV36ru以及老师上传的jieba的pdf
然后输出结果
Paste_Image.png

Paste_Image.png

但是这里可以看出 全模式中没有展示出我预期的 苏聪/是/四川大学/学生 因为没有输入自定义字典的原因 毕竟机器分词 需要人的辅助
于是开始进入自定义字典的学习

Paste_Image.png

这是原文档

Paste_Image.png

这是字典 词语和词频

Paste_Image.png

输入字典和原文件到同一目录

Paste_Image.png

然后发现 大学生 这个词 确实单独分开了 成功!

Paste_Image.png
Paste_Image.png

然后我在四川新闻网上找到一篇新闻来进行词频分析和关键词提取
并保存为csv文件

Paste_Image.png

以上为部分截图,可以观察出出现了中文的乱码现象

Paste_Image.png

但在使用tableau之后 就正常显示了
通过这次作业,自己对python的操作能力得到了很大提升,并掌握理解了大部分代码的含义,虽说还不能做到脱机写全代码,但是感觉自己在一次次的实验报告中收获颇丰!最后由衷的感谢范炜老师及同学们的热心解答!

你可能感兴趣的:(jieba中文分词安装使用报告)