中文分词:python-jieba-安装及使用样例

前言(关于分词)


最开始知道jieba是(为了完成Data Mining课程作业)在收集新闻文本分类的资料的时候:新闻上的文本分类。通过传统的机器学习方法和深度学习方法来做新闻短文本分类,并对这些方法进行对比。

同时收集到的其他资料还有:

  • Weka初体验——中文文本分类
  • 数据挖掘 文本分类(一) 综述

在数据挖掘 文本分类(一) 综述中,知道了另一个分析工具:中科院张华平博士的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。链接:http://ictclas.nlpir.org/

ICTCLAS在线分析平台:http://ictclas.nlpir.org/nlpir/     (但是每次不能超过3000字)

---------------------------------------------------------------


1,jieba 安装


1.1  先下载Jieba,

           官网地址:http://pypi.python.org/pypi/jieba/


1.2  然后在windows的命令提示符中输入(假设解压在D盘) :

C:\Users\Administrator>D:
D:\>  cd D:\jieba-0.35
D:\TDDownload\jieba-0.35>  python setup.py install


资料参考:

  • 在Python里安装Jieba中文分词组件
  • Python 文本挖掘:jieba中文分词和词性标注

---------------------------------------------------------------


2, 代码示例

 

2.1  初见

#encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") #默认是精确模式
print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") #搜索引擎模式
print ", ".join(seg_list)


2.2  jieba分词并统计词频

  

资料参考:

  •      使用python对中文文档进行词频统计
  •      python jieba分词并统计词频后输出结果到Excel和txt文档     【推荐】


大部分都是参考着别人的资料做的,一步一脚印来吧。

你可能感兴趣的:(python,中文分词)