python有一个中文分词工具叫Jieba

Jieba是一个中文分词工具

Jieba是一个中文分词工具,它能够将中文文本切分成词语。以下是Jieba的入门用法:

  1. 安装jieba

您可以使用pip工具来安装jieba模块:

pip install jieba
  1. 分词

导入jieba模块,然后使用jieba.cut()函数将中文文本分词。jieba.cut()函数返回一个生成器,该生成器生成一个个分词结果。可以使用for循环来遍历分词结果。

import jieba

# 分词
text = '今天是个好日子,天气也不错。'
seg_list = jieba.cut(text)

# 遍历分词结果
for word in seg_list:
    print(word)

在这个例子中,我们使用jieba.cut()函数将文本分词,然后遍历分词结果并打印每个分词结果。

  1. 加载自定义词典可以通过add_word函数向jieba中添加自定义词汇。如果想要添加多个自定义词汇,可以将它们放在一个文本文件中,每个词汇占一行,然后使用load_userdict函数加载该文件。
自然语言处理
深度学习

jieba模块有一个默认的词典,但是有时候您可能需要加载自己的词典。您可以使用jieba.load_userdict()函数加载自定义词典。自定义词典应该是一个文本文件,每行包含一个词语和它的词频,用空格或制表符分隔。

import jieba

# 加载自定义词典
jieba.load_userdict('userdict.txt')

# 分词
text = '今天是个好日子,天气也不错。'
seg_list = jieba.cut(text)

# 遍历分词结果
for word in seg_list:
    print(word)

在这个例子中,我们使用jieba.load_userdict()函数加载自定义词典。自定义词典的文件名为“userdict.txt”。然后我们使用jieba.cut()函数将文本分词,并遍历分词结果。

  1. 关键词提取

jieba模块还提供了一个关键词提取的功能。可以使用jieba.analyse.extract_tags()函数从一段中文文本中提取关键词。该函数返回一个包含关键词的列表。

import jieba.analyse

# 关键词提取
text = '今天是个好日子,天气也不错。'
keywords = jieba.analyse.extract_tags(text)

# 打印关键词
print(keywords)

在这个例子中,我们使用jieba.analyse.extract_tags()函数从文本中提取关键词,并将结果存储在一个列表中,然后打印列表。

你可能感兴趣的:(python,python,中文分词,自然语言处理)