[读书笔记] 《中文自然语言处理》

摘要

学习中文NLP,记录学习历程,顺便弄个WIKI
持续更新中。。。。


Chapter 1

中文分词

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/
ansj分词器 https://github.com/NLPchina/ansj_seg
哈工大的LTP https://github.com/HIT-SCIR/ltp
清华大学THULAC https://github.com/thunlp/THULAC
斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml
Hanlp分词器 https://github.com/hankcs/HanLP
结巴分词 https://github.com/yanyiwu/cppjieba
KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws
ZPar https://github.com/frcchang/zpar/releases
IKAnalyzer https://github.com/wks/ik-analyzer

详情请看知乎文章: 其中竹间智能 Emotibot的回答最有参考价值
https://www.zhihu.com/question/19578687

PS: 实测我的MBA Yosemite装不了HIT-LTP (T.T)


Chapter3: 分词技术

语料库链接(在百度上搜索了一些,发现能用的还是挺多):
1. 《某位不知名NLPer的整理》


常见的三种分词技术

  1. 机械式分词法(基于词典)
  2. 基于语法和规则的分词法
  3. 基于统计的分词法(要考虑词粒度等)

你可能感兴趣的:(机器学习,自然语言处理)