Python——jieba库

jieba库是Python中重要的第三方中文分词函数库,其原理是利用一个中文分词词库,将带分词的内容和分词词库进行比对,通过图结构和动态规划方法找到最大概率词组,除了分词外,jieba库还提供了增加自定义中文单词的功能。
jieba库支持三种分词模式:
1.精确模式:将句子最精确的切开,适合文本分析。
2.全模式:把句子中所有可以成词的词汇都扫描出来,速度很快,但是不能消除歧义。
3.搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,适合用于搜索引擎分词。
jieba库主要提供分词功能,可以辅助自定义分词词典。
jieba库常用的分词函数:
jieba.cut(s) 精确模式,返回一个可迭代的数据类型。
jieba.cut(s,cut_all = True) 全模式,返回文本s中所有可能的单词。
jieba.cut_for_search(s) 搜索引擎模式,适合搜索引擎建立索引的分词结果。
jieba.lcut(s) 精确模式,返回一个列表类型,建议使用此种精确模式。
jieba,luct_for_search(s) 搜索引擎模式,返回一个列表类型,建议使用此种搜索引擎模式。
jieba,add_word(w) 向分词词典中添加新词w

import jieba
jieba.lucut('中华人民共和国是一个伟大的国家') 输出 ['中华人民共和国','是','一个','伟大','的','国家']
jieba.lucut('中华人民共和国是一个伟大的国家',cut_all = True) 
输出 ['中华','中华人民','中华人民共和国','华人','人民','人民共和国','共和','共和国','国是','一个','伟大','的','国家']
jieba,luct_for_search('中华人民共和国是一个伟大的国家')
输出 ['中华','华人','人民','共和','共和国','中华人民共和国','是','一个','伟大','的','国家']

你可能感兴趣的:(Python)