当下流行的中文分词模块jieba

当前流行的中文分词模块包括

  1. Jieba 分词:Jieba 是用 Python 实现的开源中文分词库,支持三种分词模式:精确模式、全模式和搜索引擎模式,并且支持自定义词典。
  2. THULAC 分词:THULAC 是由清华大学自然语言处理实验室开发的开源中文分词工具,可以对中文进行分词、词性标注和命名实体识别。
  3. LTP 分词:LTP (Language Technology Platform) 是由中科院自然语言处理研究所开发的开源自然语言处理工具包,包含中文分词、词性标注、句法分析、命名实体识别等功能。
  4. SnowNLP 分词:SnowNLP 是一个基于 Python 的轻量级中文自然语言处理工具包,提供了中文分词、情感分析、文本摘要等功能。
  5. PyHanLP 分词:PyHanLP 是用 Python 实现的开源中文自然语言处理工具包,支持中文分词、词性标注、命名实体识别、情感分析、文本聚类、文本分类、文本摘要等功能。

这些中文分词模块都有自己的特点和优劣,你可以根据自己的需求来选择适合的工具。

这里对于中文语料来说应用最广的就是 jiba 分词了。
当下流行的中文分词模块jieba_第1张图片

文章目录

  • jieba 最好文分词组件
  • jieba 中文词法分析引擎
    • 安装
    • 文本分割
    • 添加自定义词典

你可能感兴趣的:(Python,数据科学,Python,数据分析师,中文分词,自然语言处理,python,jieba)