第一节:Jieba分词

在我们的日常工作与学习当中,最常用的两种语言就是汉语和英语了。在做文本分析的时候,第一步都是分词。在英语文章中,每个词都是天然的用空格分开的,所以我们就不讨论英语的分词了。在汉语分词中,我们最常用的就是jieba分词分词库了。jieba是一款开源的分词工具包,广泛应用于文本分析,词云绘制,关键词提取,自然语言处理等领域。

1.安装

pip install jieba

2.Jieba常用函数

  • 精确模式:精确的切分句子中的每个词语,没有冗余词。
  • 全模式:把所有可能的词语全部切分开,切分得到的词语是有冗余的。
  • 搜索引擎模式:在全模式的基础上,对长的词语再次切分,得到适合搜索引擎的最简单明了的词语。
#导入jieba分词工具包
import jieba

#随便创建一句话
words = '哈工大材料科学与工程学院焊接技术与工程专业的学生'

#精确模式切分
jieba.lcut(words)
#['哈工大', '材料科学', '与', '工程学院', '焊接', '技术', '与', '工程', '专业', '的', '学生']

#全模式切分
jieba.lcut(words,cut_all = True)
#['哈工大','工大','材料','材料科','材料科学','科学','与','工程','工程学','工程学院','学院','焊接',
# '技术','与','工程','专业','的','学生']

#搜索引擎模式切分
jieba.lcut_for_search(words)
#['工大','哈工大','材料','科学','材料科','材料科学','与','工程','学院','工程学','工程学院','焊接',
# '技术','与','工程','专业','的','学生']

#我们也可以向jieba添加新的词语
jieba.add_word('材料科学与工程学院')
jieba.add_word('焊接技术与工程专业')

#再使用jieba的精确模式对词语进行切分
jieba.lcut(words)
#['哈工大', '材料科学与工程学院', '焊接技术与工程专业', '的', '学生']

你可能感兴趣的:(自然语言处理)