最开始知道jieba是(为了完成Data Mining课程作业)在收集新闻文本分类的资料的时候:新闻上的文本分类。通过传统的机器学习方法和深度学习方法来做新闻短文本分类,并对这些方法进行对比。
同时收集到的其他资料还有:
- Weka初体验——中文文本分类
- 数据挖掘 文本分类(一) 综述
在数据挖掘 文本分类(一) 综述中,知道了另一个分析工具:中科院张华平博士的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。链接:http://ictclas.nlpir.org/。
ICTCLAS在线分析平台:http://ictclas.nlpir.org/nlpir/ (但是每次不能超过3000字)
---------------------------------------------------------------
1.1 先下载Jieba,
官网地址:http://pypi.python.org/pypi/jieba/1.2 然后在windows的命令提示符中输入(假设解压在D盘) :
C:\Users\Administrator>D:
D:\> cd D:\jieba-0.35
D:\TDDownload\jieba-0.35> python setup.py install
- 在Python里安装Jieba中文分词组件
- Python 文本挖掘:jieba中文分词和词性标注
---------------------------------------------------------------
2.1 初见
#encoding=utf-8
import jieba
seg_list = jieba.cut("我来到北京清华大学",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式
seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") #默认是精确模式
print ", ".join(seg_list)
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") #搜索引擎模式
print ", ".join(seg_list)
2.2 jieba分词并统计词频
资料参考:
大部分都是参考着别人的资料做的,一步一脚印来吧。