Python jieba 中文分词

jieba库主要有三种方法

1 lcut(data) 精确模式

2 lcut(data,cut_all=True) 全模式

3 lcut_for_search(data) 搜索引擎模式

import jieba
txt = "花半开最美,情留白最浓,懂得给生命留白,亦是一种生活的智慧。"
modle1 =jieba.lcut(txt)
print(modle1)
modle2 =jieba.lcut(txt,cut_all=True)
print(modle2)
modle3 =jieba.lcut_for_search(txt)
print(modle3)

打印结果

['花', '半开', '最美', ',', '情', '留白', '最', '浓', ',', '懂得', '给', '生命', '留白', ',', '亦', '是', '一种', '生活', '的', '智慧', '。']

['花', '半开', '最美', ',', '情', '留白', '最', '浓', ',', '懂得', '给', '生命', '留白', ',', '亦', '是', '一种', '生活', '的', '智慧', '。']

['花', '半开', '最美', ',', '情', '留白', '最', '浓', ',', '懂得', '给', '生命', '留白', ',', '亦', '是', '一种', '生活', '的', '智慧', '。']

有时候分隔的并不是我们想要的如下

import jieba
txt ="欧阳娜娜真的很漂亮"
modle1 =jieba.lcut(txt)
print(modle1)

打印的结果

['欧阳', '娜娜', '真的', '很漂亮']

这里想把欧阳娜娜放在一起,这个时候就需要新增词汇使用add_word如下

import jieba
txt ="欧阳娜娜真的很漂亮"
# 新增词语
jieba.add_word("欧阳娜娜")
modle1 =jieba.lcut(txt)
print(modle1)

打印结果:

['欧阳娜娜', '真的', '很漂亮']

你可能感兴趣的:(Python,python)