isnowfy/snownlp · 基于pathon 中文自然语言处理库

SnowNLP: Simplified Chinese Text Processing

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。

Features

  • 中文分词(TnT 3-gram 隐马)
  • 词性标准(TnT 3-gram 隐马)
  • 情感分析
  • 文本分类(Naive Bayes)
  • 转换成拼音
  • 繁体转简体
  • 提取文本关键词(TextRank算法)
  • 提取文本摘要(TextRank算法)
  • tf,idf
  • Tokenization(分割成句子)
  • 文本相似(BM25)
  • 支持python3(感谢erning)

阅读全文……

你可能感兴趣的:(NLP,tech)