一、基本工具集
1.分词工具
a.jieba
结巴中文分词
https://github.com/fxsjy/jieba
b.HanLP
自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁 http://hanlp.hankcs.com/
https://github.com/hankcs/HanLP
c.盘古分词-开源中文分词组件
盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。
https://archive.codeplex.com/
d.pullword
Pullword-永久免费的可自定义的中文在线分词API
http://pullword.com/
e.BosonNLP
玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。
https://bosonnlp.com/
f.HIT-SCIR/ltp
Language Technology Platform http://ltp.ai
https://github.com/HIT-SCIR/ltp
2.关键词提取
TF-IDF
技术原理:https://dl.acm.org/citation.cfm?id=866292
gensim
https://radimrehurek.com/gensim/models/tfidfmodel.html
TextRank
技术原理:https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf
TextRank4ZH-从中文文本中自动提取关键词和摘要
https://github.com/letiantian/TextRank4ZH
3.词向量
word2vec-gensim
Topic modelling for humans - Radim Řehůřek
https://radimrehurek.com/gensim/index.html
GloVe
Global Vectors for Word Representation
https://nlp.stanford.edu/projects/glove/
4.距离计算
word2vec-gensim
Topic modelling for humans - Radim Řehůřek
https://radimrehurek.com/gensim/index.html
二、常用算法
1.中文分词+TF-IDF+word2vec+cosine 距离计算
2.doc2vec
原理介绍:https://cs.stanford.edu/~quocle/paragraph_vector.pdf
技术实现:https://cs.stanford.edu/~quocle/paragraph_vector.pdf
3.simhash
原理介绍:http://www.cnblogs.com/maybe2030/p/5203186.html
技术实现:https://github.com/yanyiwu/simhash
三、文本相似度计算综述
A Survey of Text Similarity Approaches
https://pdfs.semanticscholar.org/5b5c/a878c534aee3882a038ef9e82f46e102131b.pdf
《中文信息处理发展报告(2016)》
http://cips-upload.bj.bcebos.com/cips2016.pdf
以上论文下载地址:
http://www.tensorflownews.com/