jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2）cut_all参数用来控制是否采用全模式；jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。

待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8。

jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list

代码示例：

#encoding=utf-8
import jieba

seg_list = jieba.cut("范炜是川大信管专业的老师",cut_all=True)
print"Full Mode:","/ ".join(seg_list)#全模式

seg_list = jieba.cut("范炜是川大信管专业的老师",cut_all=False)
print"Default Mode:","/ ".join(seg_list)#精确模式

seg_list = jieba.cut("范炜是川大信管专业的老师")#默认是精确模式
print", ".join(seg_list)

seg_list = jieba.cut_for_search("范炜是川大信管专业的老师")#搜索引擎模式
print", ".join(seg_list)

结果显示：

2)自定义词典

用法： jieba.load_userdict(file_name) # file_name 为自定义词典的路径。

词典格式和dict.txt一样，一个词占一行；每一行分三部分，一部分为词语，另一部分为词频（可省略），最后为词性（可省略），用空格隔开。

词频可省略，使用计算出的能保证分出该词的词频。

更改分词器的 tmp_dir 和 cache_file 属性，可指定缓存文件位置，用于受限的文件系统。

自定义词典示例：

范炜 5 nr
川大 5 j
信管 5 j

代码示例：

#encoding=utf-8
import sys
sys.path.append("C:\Python27\Lib\site-packages\jieba")
import jieba
jieba.load_userdict("D:/jieba/jieba/userdict.txt")
seg_list= jieba.cut("范炜是川大信管专业的老师")
print("Revise: "+"/".join(seg_list))

结果显示：

3）调整词典

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。

代码示例：

#encoding=utf-8
import sys 
sys.path.append("C:\Python27\Lib\site-packages\jieba")
import jieba
jieba.load_userdict("D:/jieba/jieba/userdict.txt")
jieba.add_word("江大桥",freq=20000,tag=None)
print"/".join(jieba.cut("江州市长江大桥参加了长江大桥的通车仪式。"))

结果显示：

4）关键词提取（基于 TextRank 算法的关键词提取）

基本思想:

将待抽取关键词的文本进行分词；

以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图；

计算图中节点的PageRank，注意是无向带权图。

jieba.analyse.textrank(sentence, topK = 20, withWeight = False, allowPOS = ('ns', 'n', 'v', 'nv')) 注意默认过滤词性。

jieba.analyse.TextRank() 新建自定义TextRank实例。

代码示例：

#encoding=utf-8
import sys 
sys.path.append('C:\Python27\Lib\site-packages\jieba')

import jieba
import jieba.analyse
from optparse import OptionParser

s="此外，公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元，增资后，吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年，实现营业收入0万元，实现净利润-139.13万元。"
for x, w in jieba.analyse.textrank(s,topK=5,withWeight=True):
    print("%s %s"% (x, w))

结果显示：

5）词性标注

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。

标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。

代码示例：

#encoding=utf-8
import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门。")
for w in words:
    print("%s %s"%(w.word, w.flag))

结果显示：

Python 分词工具 jieba

目录

1.jieba下载安装

2.算法实现

3.分词功能

1.jieba下载安装

2.算法实现

3.分词功能

你可能感兴趣的:(Python 分词工具 jieba)