NLP常用工具包实战 (5)jieba中文分词器:全模式/精确模式切分词、添加自定义词典、关键词抽取、词性标注、wordcloud词云展示

1 全模式/精确模式切分词

import jieba
import jieba.analyse
import jieba.posseg as pseg

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

2 添加自定义词典

text = "故宫的著名景点包括乾清宫、太和殿和黄琉璃瓦等"
# 全模式
seg_list = jieba.cut(text, cut_all=True)
print(u"[全模式]: ", "/ ".join

你可能感兴趣的:(数据可视化,nlp,自然语言处理,jieba,jieba分词)