NLP方法

分词
MM法(正向最大匹配法)
RMM法(逆向最大匹配法)
BMM法(双向最大匹配法)
HMM(隐马尔可夫模型)
CRF(条件随机场)

jieba中文分词工具

词性标注
jieba中文词性标注工具
北大词性标注集
宾州词性标注集

命名体识别(NER)
正则化表达式+jieba分词
CRF(条件随机场)

Spacy NER模型(最先进的NER模型)
Stanford NER

关键词提取
TF-IDF算法
TextRank算法
主题模型算法(LSA、LSI、LDA、word2vec)

哈工大停用词表

句法分析
PARSEVAL评价体系

PCFG(基于概率的短语结构分析方法)
MMMN(基于最大间隔马尔可夫网络的句法分析)
基于CRFDE句法分析
SRA(移进-归约方法)

PBT(英文宾州树库)
CTB(中文宾州树库)
TCT(清华树库)
Sinica TreeBank(台湾中研院树库)

Stanford Parser句法分析器

文本向量化
BOW(词袋模型)

Word2vec词向量算法
NNLM(神经网络语言模型)
C&W模型
CBOW模型
Skip-gram模型

Doc2vec基于句子的文本向量算法
Str2vec基于文章的文本向量算法
DM模型
DBOW模型

情感分析技术
词法分析
机器学习方法
混合分析
PMC(Polling多项式分类,多项式朴素贝叶斯)
文本表示(BOW词袋模型、topic model主题模型)
文本分类(SVM支持向量机、LR逻辑回归、NB朴素贝叶斯)
LSTM(长短时记忆网络)

IMDB情感分析数据集

NLP中用到的机器学习算法
文本分类:NB(朴素贝叶斯)、SVM(支持向量机)/SVM高斯核函数、LR(逻辑回归)、KNN(K近邻居)、DT(决策树)/随机森林、
文本聚类:K-means、DBScan、BIRCH、CURE
降维:PCA(主成分分析法)
特征提取:BOW(词袋模型)、TF-IDF、N-Gram

基于深度学习的NLP算法
Word2vec词向量算法
NNLM(神经网络语言模型)
C&W模型
CBOW模型
Skip-gram模型

Gensim版本Word2vec
opencc繁体字处理

LSTM
GRU
Depth Gated RNN
Clockwork RNN

Attention
Seq2Seq
NLG(自然语言生成)
NLU(自然语言理解)
NIC(图说模型)

COCO图像标注数据集
Pascal VOC 2008
Flickr8K和30K
MSCOCO
SBU

参考来源
[1] Python自然语言处理实战:核心技术与算法, 涂铭,刘祥,刘树春 著
[2] https://github.com/wolf-bailang/AI-Book-Source-Code/tree/master/Natural%20Language%20Processing%20Core%20Technology%20and%20Algorithm%20with%20Python_Tu%20Ming/learning-nlp-master

你可能感兴趣的:(自然语言处理,自然语言处理,人工智能)