我的nlp学习路线

一、机器学习框架

(一)三大深度学习框架比较

1.tensorflow–使用数据流图进行数值计算的开源软件库

2.Keras–目前封装有全连接网络、卷积神经网络、RNN和LSTM等算法。

3.Caffe–考虑了代码清洁、可读性及速度的深度学习框架

4.NLTK–用来编写处理人类语言数据的Python程序

(二) 原版文档

5.scikit-learn–基于SciPy的机器学习模块

6.gensim–主题建模工具

7.pytorch

8.两个数据分析常用库:pandas、numpy

9.python绘图常用库:matplotlib


二、机器学习算法

1.朴素贝叶斯

2.决策树

3.Logistic回归

4.K邻近算法=KNN

5.SVM

6.聚类算法(k-means算法)

7.提升算法(Adaboost、GBDT回归算法)

8.LDA主题模型

9.EM算法


三、nlp的应用和对应算法

(一) 中文自然语言处理流程

0.语料获取:公用语料集、爬虫技术

1.中文分词:jieba工具包

2.提取关键词:tf-idf

3.相似度计算:word2vec等

4.文本分类算法:朴素贝叶斯、SVM、FastText等

5.句子生成:Seq2Seq

6.命名实体识别:隐马模型、条件随机场、RNN等


四、nlp研究内容

1.信息检索

2.机器翻译

3.文本分类

4.问答系统

5.命名实体识别

6.自动文摘

7.信息抽取

8.舆情分析

9.机器写作

10.OCR或语音识别


五、其他

5.1 git操作

5.2 数据库安装及使用

  • mysql

  • MongoDB

  • Redis

5.3 json、xml格式处理

5.4 Linux

你可能感兴趣的:(nlp,python)