Python 基础 中文文本分析——jieba库的主要函数

文本分析的定义

文本分析是指对文本的表示以及特征项的选取,可以把文本中抽取出的特征词进行量化表示文本信息。

中文分词jieba库

在进行自然语言处理的时候,为了更好的处理驹子,往往需要驹子拆分成一个个词语,而中文的句子存在着各种各样的词组,从而使中文分词有一定的难度。

因此需要jieba库等等组件的引入安装。

jieba库的主要函数

1.jieba.cut()和jieba.lcut()的精确模式

jieba.cut生成的是一个生成器,generator,也就是可以通过for循环来取里面的每一个词。

word_list= [word for word in jieba.cut(text)]

jieba.lcut 直接生成的就是一个list.

Prefix dict has been built succesfully.
 
Full Model 我//北京/上学
['我', '来', '北京', '上学']

2.jiebe.cut()和jieba.lcut()的全模式

即输出所有可能的词组。

3.jieba.cut()和jieba.lcut()的搜索引擎模式

即输出适合搜索引擎的分词结果。

4.自定义词典

如果有些词组jieba库识别不出来,那么我们就可以自己添加词,来帮助中文的识别。

例如:“流浪地球”无法被识别,我们可以自定义词组,以免其被分割为“流浪”“地球”。

jieba.load_userdict(r"C:\Users\ASUS\Desktop\user_dict.txt")
print([i for i in jieba.cut("大连圣亚在大连")])
#输出:['大连圣亚', '在', '大连']

你可能感兴趣的:(python,基础,python,自然语言处理)