Python笔记_6_jieba 分词自定义词典问题

自定义长词,能够被jieba分出来。

自定义短词,和重新组合字的新词,不能被结巴分出。

即,自定义词典中的词只能是结巴分出的词的组合,否则没有任何效果。

测试代码:

#encoding=utf-8  

import jieba  

import os  

import sys  

test_text="电话号码查询"  

#精确模式  

seg_list = jieba.cut(test_text,cut_all=False)  

seg_list =" ".join(seg_list)  

print "cut_all=False: "+seg_list  

#全模式  

seg_list2 = jieba.cut(test_text,cut_all=True)  

seg_list2 =" ".join(seg_list2)  

print "cut_all=True: "+seg_list2  

# 搜索引擎模式  

seg_list3 = jieba.cut_for_search(test_text)  

seg_list3 =" ".join(seg_list3)  

print "cut_for_search: "+seg_list3  

自定义三个字的词:

jieba.add_word("电话号") 

结果:

cut_all=False: 电话号码 查询  

cut_all=True: 电话 电话号 电话号码 号码 查询  

cut_for_search: 电话 号码 电话号 电话号码 查询 

自定义短词:

jieba.add_word("电") 

结果:

cut_all=False: 电话号码 查询  

cut_all=True: 电话 电话号码 号码 查询  

cut_for_search: 电话 号码 电话号码 查询 

自定义长词:

jieba.add_word("电话号码查询") 

结果:

cut_all=False: 电话号码查询  

cut_all=True: 电话 电话号码 电话号码查询 号码 查询  

cut_for_search: 电话 号码 查询 电话号码查询 

你可能感兴趣的:(Python笔记_6_jieba 分词自定义词典问题)