结巴分词基础

1.jieba.cut()

接受三个参数(sentence, cut_all=False, HMM=True)

Parameter:
  - sentence: The str(unicode) to be segmented.
  - cut_all: Model type. True for full pattern, False for accurate pattern.
  - HMM: Whether to use the Hidden Markov Model.

sentence,要被分隔的字符串,Unicode编码,utf-8是Unicode编码的一种,在这里默认时utf-8。
cut_all,模式类型。true是完全模式,false是精确模式,默认精确模式。
HMM,是否使用隐马尔科夫模型。

2.jieba.cut_for_search(),搜索引擎的细分。

接受两个参数(sentence, HMM=True)
jieba.cut以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用
jieba.lcut 以及jieba.lcut_for_search 直接返回 list


image.png

image.png

3.jieba.load_userdict(),加载用户自定义的字典,以提高检测正确率。

image.png

f是一个纯文本文件,包含单词和频率。可以是一个类似文件的对象,或者是一个字典型的文件路径,他们必须是utf-8编码。
自定义字典的结构:
词语 频率 词性,用空格分开,顺序不能改变。
词性可以省略。

4.jieba.add_word(),在字典里添加一个单词。

image.png

单词,频率,词性(tag)。频率和词性都可以省略,freq默认为一个计算出来的值,以确保单词可以被删除。

5.jieba.del_word(),删除一个单词的方便方式。

image.png

从上图可以看出,把一个单词的频率变成0.

6.jieba.suggest_freq(),建议单词的频率来强迫一个单词中的字符合并或者分裂。

image.png

segment,这个词被期望被切成的部分,如果这个词应该被当作一个整体来对待,那就使用一个str。
tune,如果是true则调整单词的频率。

你可能感兴趣的:(结巴分词基础)