NLP:自然语言处理技术最强学习路线之NLP简介(岗位需求/必备技能)、早期/中期/近期应用领域(偏具体应用)、经典NLP架构(偏具体算法)概述、常用工具/库/框架/产品、环境安装(更新中)
目录
NLP自然语言处理技术最强学习路线
NLP市场岗位要求
Interview之NLP:人工智能领域求职岗位—自然语言处理NLP算法工程师职位的简介、薪资介绍、知识结构之详细攻略
NLP应用领域
AI:人工智能领域具体应用场景案例介绍之以领域划分(CV领域/DS领域/NLP领域/金融领域/爬虫领域)、以项目划分(AI推荐/AI推断/AI法律咨询/AI挖掘)目录来理解技术交互流程
AI:人工智能领域之国内外人工智能产业应用图谱应用层/基础层详解—AI八大应用领域之医疗/家居/驾驶/零售/城市/教育/金融/交通、(AI三大基础(算法【计算机视觉/自然语言处理/机器学习、科研院所/开源社区】、数据【IOT/互联网/手机/传感器/音视频】、计算【计算芯片/服务器及存储器/AI软件框架/云服务】)
NLP基本必备技能
NLP领域英语缩写词、术语等概念简介
要掌握正则表达式在NLP中的基本应用;
NLP公开课笔记
AI公开课之NLP:19.03.06何晓冬博士《自然语言与多模态交互前沿技术》课堂笔记以及个人感悟
AI公开课:19.04.03周明—MSRA副院长《NLP的进步如何改变搜索的体验》课堂笔记以及个人感悟
AI公开课之NLP:19.04.04李航—字节跳动AILab总监《深度学习与自然语言处理:评析与展望》课堂笔记以及个人感悟
AI之NLP:2020年6月22日北京智源大会演讲分享之《语音与自然语言处理》之基于深度上下文词表征的语言结构的发现、基于显式上下文表征的语言处理、多语言及多模态任务中的预训练模型、可微分的加权有限状态机及其机器学习应用、启动“智源-京东”任务导向多模态对话大赛、AI新疆域:多模态自然语言处理
AI之NLP:2020年6月21日北京智源大会演讲分享之15:15-15:40黄萱菁教授《自然语言处理中的表示学习》
AI开发者大会之语音语义技术实践与应用:2020年7月3日《NLP在教育行业的应用》、《AI防疫-语音语义技术在政务联络场景中的应用》、《智能客服机器人在售前导购场景中的应用实践》
NLP相关竞赛
Competition之ML/DL:机器学习、深度学习各种计算机视觉、自然语言处理、科学预测等等比赛竞赛简介
NLP算法工程师基本技能
一、自然语言处理技术的简介
NLP:自然语言处理技术的简介、领域方向-细分任务及其评估标准、发展历史、案例应用之详细攻略
NLP:自然语言处理技术近十年发展技术更迭的简介、案例之详细攻略(持续更新)
NLP:自然语言领域NLP模型发展(ELmo→GPT/BERT→MT-DNN→XLNet→RoBERTa→ALBERT)l历程简介、重要算法介绍之详细攻略
NLP:Transformer在NLP自然语言领域的简介(预训练技术)、NLP模型发展(ELmo/GPT/BERT/MT-DNN/XLNet/RoBERTa/ALBERT)、经典案例之详细攻略
Paper之ACL&EMNLP:2009年~2019年ACL计算语言学协会年会&EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读
NLP:《NLP Year in Review 2019&NLP_2019_Highlights》2019年自然语言处理领域重要进展回顾及其解读
NLP:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文献
二、自然语言处理技术相关概念简介
三、传统的自然语言处理技术之……
NLP:利用python编程语言的split函数结合if判断(T1自定义函数或T2封装函数)实现提取两人对话内容(***分隔txt文档),并各自保存为txt文档
四、NLP具体应用领域(偏具体应用)及其应用案例
正则表达式相关
NLP:利用re模块对字符串数据实现多个关键词模糊匹配,模糊匹配测试数据并统计个数输出字典
NLP:利用re和collections模块进行词频统计之关键词匹配并统计个数以字典形式输出,利用正则表达式findall、split、match函数对字符串组成的列表数据,进行关键词定位匹配并统计输
NLP:对字符串按照一个、多个自定义分隔符进行分割、将列表转为字符串同时自定义连接符
NLP:以周杰伦的《Mojito》歌词为例字符串切分之清除一段由列表组成的字符串文本中的所有杂乱符号
数据集处理
NLP之TFTS读入数据:TF之TFTS读入时间序列数据的几种方法
NLP:文本特征表示/字典特征抽取之对字典型数据通过特征抽取和向量化进而实现特征数字化(one-hot编码/仅有值稀疏矩阵,如对类别型特征转换数字型)代码实现
NLP:自然语言处理技术中常用的文本特征表示方法(整数编码、one-hot编码法、BOW法、TF-IDF法、N-Gram法等)及其代码案例实现
NLP:文本特征表示/字典特征抽取之对字典型数据通过特征抽取和向量化进而实现特征数字化(one-hot编码/仅有值稀疏矩阵,如对类别型特征转换数字型)代码实现
NLP之nltk:基于nltk库实现句子分词及标注对应词性、句子分割、波特词干算法进行词干提取代码案例实现
词向量/词云图
NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情)
NLP之gensim:基于fetch_20newsgroups数据集利用word2vec算法进行词向量训练并推理(输出指定单词最相关的10个词汇)
NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量
NLP之TF之LSTM:基于Tensorflow框架采用PTB数据集建立LSTM网络的自然语言建模
关键词提取/摘要提取
NLP:基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要
NLP:基于snownlp库对文本实现提取文本关键词和文本摘要
NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary)
文本分类
NLP之NB:基于sklearn库利用不同语种数据集训练NB(朴素贝叶斯)算法,对新语种进行语种检测
主题模型TM
NLP之TM:基于gensim库调用20newsgr学习doc-topic分布并保存为train-svm-lda.txt、test-svm-lda.txt
NLP之TM之Dirichlet:朴素贝叶斯NB的先验概率之Dirichlet分布的应用
NLP之TM之LDA:利用LDA算法瞬时掌握文档的主题内容—利用希拉里邮件数据集训练LDA模型并对新文本进行主题分类
文本情感分析TEA
NLP之TEA之CNN:利用CNN算法实现对句子分类+进行情感分析(预测句子情感)
NLP之TEA:自然语言处理之文本情感分析的简介、算法、应用、实现流程方法、案例应用之详细攻略
NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试)
NLP之TEA之NB/LoR:基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类
NLP之TEA之NB/LoR:利用NB(朴素贝叶斯)、LoR(逻辑斯蒂回归)算法(+TfidfVectorizer)对Rotten Tomatoes影评数据集进行文本情感分析—五分类预测
NLP之TEA之NB/LoR:利用NB(朴素贝叶斯)、LoR(逻辑斯蒂回归)算法(+CountVectorizer)对Rotten Tomatoes影评数据集进行文本情感分析—五分类预测
NLP之TEA之NB/GBT:基于朴素贝叶斯(count/tfidf+网格搜索+4fCrva)、梯度提升树(w2c+网格搜索+4fCrva)算法对IMDB影评数据集进行文本情感分析(情感二分类预测)
机器翻译
语音识别ASR
NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介、发展历史、案例应用之详细攻略
NLP之ASR:基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略
NLP之ASR:基于python和机器学习算法带你玩转的语音实时识别技术
五、经典NLP算法(偏具体算法)简介及其应用案例
基准相关
NLP:GLUE和SuperGLUE基准的简介、任务分类、使用方法之详细攻略
具体算法
NLP之WE之CBOW&Skip-Gram:CBOW&Skip-Gram算法概念相关论文、原理配图、关键步骤之详细攻略
NLP之WE之Skip-Gram:基于TF利用Skip-Gram模型实现词嵌入并进行可视化、过程全记录
NLP:NLP领域没有最强,只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略
NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略
NLP:Transformer的简介(优缺点/架构详解)、使用方法、案例应用之详细攻略
NLP之Transformer:Transformer结构的详细简介(纯用attention搭建的模型→计算速度更快)之详细攻略
六、NLP领域常用工具、库/框架、现有产品
AI之DS/CV/NLP:Python与人工智能相关的库/框架(机器学习&深度学习&数据科学/计算机视觉/自然语言处理)的简介、案例应用之详细攻略
Py之word2vec:word2vec的简介、安装、案例应用之详细攻略
Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略
Py之nltk:nltk包的简介、安装、使用方法、代码实现之详细攻略
Py之gensim:gensim的简介、安装、使用方法之详细攻略
Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略
Py之textrank4zh:textrank4zh的简介、安装、使用方法之详细攻略
NLP之ModelScope:基于ModelScope框架的afqmc数据集利用StructBERT预训练模型的文本相似度算法实现文本分类任务图文教程之详细攻略
七、NLP环境安装
八、NLP领域常用数据集
Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)
九、NLP编程代码技巧
Interview之NLP:人工智能领域求职岗位—自然语言处理NLP算法工程师职位的简介、薪资介绍、知识结构之详细攻略_一个处女座的程序猿的博客-CSDN博客
AI:人工智能领域具体应用场景案例介绍之以领域划分(CV领域/DS领域/NLP领域/金融领域/爬虫领域)、以项目划分(AI推荐/AI推断/AI法律咨询/AI挖掘)目录来理解技术交互流程_一个处女座的程序猿的博客-CSDN博客
AI:人工智能领域之国内外人工智能产业应用图谱应用层/基础层详解—AI八大应用领域之医疗/家居/驾驶/零售/城市/教育/金融/交通、(AI三大基础(算法【计算机视觉/自然语言处理/机器学习、科研院所/_一个处女座的程序猿的博客-CSDN博客_ai应用层
SOTA:state-of-the-art,目前最好、最先进、最优的模型;
token(符号):包括单词和标点。给定句子,如何用一串数字来表示它;
Sentence Order Prediction,SOP语序预测任务;
Next Sentence Prediction,NSP判断两句话是否有顺序关系;
CBOW:Continuous Bag-Of-Words Model;
PTMs:Pre-trained Models,预训练模型;
AI公开课之NLP:19.03.06何晓冬博士《自然语言与多模态交互前沿技术》课堂笔记以及个人感悟_一个处女座的程序猿的博客-CSDN博客
AI公开课:19.04.03周明—MSRA副院长《NLP的进步如何改变搜索的体验》课堂笔记以及个人感悟_一个处女座的程序猿的博客-CSDN博客
AI公开课之NLP:19.04.04李航—字节跳动AILab总监《深度学习与自然语言处理:评析与展望》课堂笔记以及个人感悟_一个处女座的程序猿的博客-CSDN博客_李航字节跳动
AI之NLP:2020年6月22日北京智源大会演讲分享之《语音与自然语言处理》之基于深度上下文词表征的语言结构的发现、基于显式上下文表征的语言处理、多语言及多模态任务中的预训练模型、可微分的加权有限状_一个处女座的程序猿的博客-CSDN博客
AI之NLP:2020年6月21日北京智源大会演讲分享之15:15-15:40黄萱菁教授《自然语言处理中的表示学习》_一个处女座的程序猿的博客-CSDN博客
AI开发者大会之语音语义技术实践与应用:2020年7月3日《NLP在教育行业的应用》、《AI防疫-语音语义技术在政务联络场景中的应用》、《智能客服机器人在售前导购场景中的应用实践》_一个处女座的程序猿的博客-CSDN博客
Competition之ML/DL:机器学习、深度学习各种计算机视觉、自然语言处理、科学预测等等比赛竞赛简介_一个处女座的程序猿的博客-CSDN博客
一、自然语言处理技术的简介
二、自然语言处理技术相关概念简介
三、传统的自然语言处理技术之……
四、NLP早期、中期、近期具体应用领域(偏具体应用)及其应用案例
五、经典NLP算法(偏具体算法)简介及其应用案例
六、NLP领域常用工具、库/框架、现有产品
七、NLP环境安装
八、NLP领域常用数据集
九、NLP编程代码技巧
NLP:自然语言处理技术的简介、领域方向-细分任务及其评估标准、发展历史、案例应用之详细攻略_一个处女座的程序猿的博客-CSDN博客
NLP:自然语言处理技术近十年发展技术更迭的简介、案例之详细攻略(持续更新)daiding待更新_一个处女座的程序猿的博客-CSDN博客_自然语言处理前沿技术
NLP:自然语言领域NLP模型发展(ELmo→GPT/BERT→MT-DNN→XLNet→RoBERTa→ALBERT)l历程简介、重要算法介绍之详细攻略_一个处女座的程序猿的博客-CSDN博客
NLP:Transformer在NLP自然语言领域的简介(预训练技术)、NLP模型发展(ELmo/GPT/BERT/MT-DNN/XLNet/RoBERTa/ALBERT)、经典案例之详细攻略_一个处女座的程序猿的博客-CSDN博客
Paper之ACL&EMNLP:2009年~2019年ACL计算语言学协会年会&EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读_一个处女座的程序猿的博客-CSDN博客
NLP:《NLP Year in Review 2019&NLP_2019_Highlights》2019年自然语言处理领域重要进展回顾及其解读_一个处女座的程序猿的博客-CSDN博客
NLP:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文献_一个处女座的程序猿的博客-CSDN博客
NLP:利用python编程语言的split函数结合if判断(T1自定义函数或T2封装函数)实现提取两人对话内容(***分隔txt文档),并各自保存为txt文档_一个处女座的程序猿的博客-CSDN博客
https://yunyaniu.blog.csdn.net/article/details/114991842
https://yunyaniu.blog.csdn.net/article/details/115005872
NLP:对字符串按照一个、多个自定义分隔符进行分割、将列表转为字符串同时自定义连接符_一个处女座的程序猿的博客-CSDN博客
NLP:以周杰伦的《Mojito》歌词为例字符串切分之清除一段由列表组成的字符串文本中的所有杂乱符号_一个处女座的程序猿的博客-CSDN博客
NLP之TFTS读入数据:TF之TFTS读入时间序列数据的几种方法_一个处女座的程序猿的博客-CSDN博客
NLP:文本特征表示/字典特征抽取之对字典型数据通过特征抽取和向量化进而实现特征数字化(one-hot编码/仅有值稀疏矩阵,如对类别型特征转换数字型)代码实现_一个处女座的程序猿的博客-CSDN博客_ai 生命科学
NLP:自然语言处理技术中常用的文本特征表示方法(整数编码、one-hot编码法、BOW法、TF-IDF法、N-Gram法等)及其代码案例实现_一个处女座的程序猿的博客-CSDN博客
NLP:文本特征表示/字典特征抽取之对字典型数据通过特征抽取和向量化进而实现特征数字化(one-hot编码/仅有值稀疏矩阵,如对类别型特征转换数字型)代码实现_一个处女座的程序猿的博客-CSDN博客_ai 生命科学
NLP之nltk:基于nltk库实现句子分词及标注对应词性、句子分割、波特词干算法进行词干提取代码案例实现_一个处女座的程序猿的博客-CSDN博客
NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情)_一个处女座的程序猿的博客-CSDN博客
NLP之gensim:基于fetch_20newsgroups数据集利用word2vec算法进行词向量训练并推理(输出指定单词最相关的10个词汇)_一个处女座的程序猿的博客-CSDN博客
NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量_一个处女座的程序猿的博客-CSDN博客
NLP之TF之LSTM:基于Tensorflow框架采用PTB数据集建立LSTM网络的自然语言建模_一个处女座的程序猿的博客-CSDN博客_ptb数据集
NLP:基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要_一个处女座的程序猿的博客-CSDN博客
NLP:基于snownlp库对文本实现提取文本关键词和文本摘要_一个处女座的程序猿的博客-CSDN博客
NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary)_一个处女座的程序猿的博客-CSDN博客_jieba 文本摘要
NLP之NB:基于sklearn库利用不同语种数据集训练NB(朴素贝叶斯)算法,对新语种进行语种检测_一个处女座的程序猿的博客-CSDN博客
NLP之TM:基于gensim库调用20newsgr学习doc-topic分布并保存为train-svm-lda.txt、test-svm-lda.txt_一个处女座的程序猿的博客-CSDN博客
NLP之TM之Dirichlet:朴素贝叶斯NB的先验概率之Dirichlet分布的应用_一个处女座的程序猿的博客-CSDN博客
NLP之TM之LDA:利用LDA算法瞬时掌握文档的主题内容—利用希拉里邮件数据集训练LDA模型并对新文本进行主题分类_一个处女座的程序猿的博客-CSDN博客
NLP之TEA之CNN:利用CNN算法实现对句子分类+进行情感分析(预测句子情感)_一个处女座的程序猿的博客-CSDN博客_句子分类算法
NLP之TEA:自然语言处理之文本情感分析的简介、算法、应用、实现流程方法、案例应用之详细攻略_一个处女座的程序猿的博客-CSDN博客
NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码_一个处女座的程序猿的博客-CSDN博客
NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)_一个处女座的程序猿的博客-CSDN博客_jieba分词情感分析
NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试)_一个处女座的程序猿的博客-CSDN博客
NLP之TEA之NB/LoR:基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类_一个处女座的程序猿的博客-CSDN博客
NLP之TEA之NB/LoR:利用NB(朴素贝叶斯)、LoR(逻辑斯蒂回归)算法(+TfidfVectorizer)对Rotten Tomatoes影评数据集进行文本情感分析—五分类预测_一个处女座的程序猿的博客-CSDN博客
NLP之TEA之NB/LoR:利用NB(朴素贝叶斯)、LoR(逻辑斯蒂回归)算法(+CountVectorizer)对Rotten Tomatoes影评数据集进行文本情感分析—五分类预测_一个处女座的程序猿的博客-CSDN博客_文本情感分析逻辑斯蒂回归
NLP之TEA之NB/GBT:基于朴素贝叶斯(count/tfidf+网格搜索+4fCrva)、梯度提升树(w2c+网格搜索+4fCrva)算法对IMDB影评数据集进行文本情感分析(情感二分类预测)_一个处女座的程序猿的博客-CSDN博客
NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介、发展历史、案例应用之详细攻略_一个处女座的程序猿的博客-CSDN博客
NLP之ASR:基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略_一个处女座的程序猿的博客-CSDN博客
NLP之ASR:基于python和机器学习算法带你玩转的语音实时识别技术_一个处女座的程序猿的博客-CSDN博客_asr python
NLP:GLUE和SuperGLUE基准的简介、任务分类、使用方法之详细攻略_一个处女座的程序猿的博客-CSDN博客_superglue
NLP之WE之CBOW&Skip-Gram:CBOW&Skip-Gram算法概念相关论文、原理配图、关键步骤之详细攻略_一个处女座的程序猿的博客-CSDN博客_cbow论文
NLP之WE之Skip-Gram:基于TF利用Skip-Gram模型实现词嵌入并进行可视化、过程全记录_一个处女座的程序猿的博客-CSDN博客
NLP:NLP领域没有最强,只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略_一个处女座的程序猿的博客-CSDN博客_gpt3使用
NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略_一个处女座的程序猿的博客-CSDN博客_plug模型
NLP:Transformer的简介(优缺点/架构详解)、使用方法、案例应用之详细攻略_一个处女座的程序猿的博客-CSDN博客_transformer的优点
NLP之Transformer:Transformer结构的详细简介(纯用attention搭建的模型→计算速度更快)之详细攻略_一个处女座的程序猿的博客-CSDN博客_nlp系统架构
AI之DS/CV/NLP:Python与人工智能相关的库/框架(机器学习&深度学习&数据科学/计算机视觉/自然语言处理)的简介、案例应用之详细攻略_一个处女座的程序猿的博客-CSDN博客_python 人工智能库
Py之word2vec:word2vec的简介、安装、案例应用之详细攻略_一个处女座的程序猿的博客-CSDN博客_word2vec 词典
Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略_一个处女座的程序猿的博客-CSDN博客
Py之nltk:nltk包的简介、安装、使用方法、代码实现之详细攻略_一个处女座的程序猿的博客-CSDN博客
Py之gensim:gensim的简介、安装、使用方法之详细攻略_一个处女座的程序猿的博客-CSDN博客
Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略_一个处女座的程序猿的博客-CSDN博客_snownlp安装失败
Py之textrank4zh:textrank4zh的简介、安装、使用方法之详细攻略_一个处女座的程序猿的博客-CSDN博客_textrank4zh
NLP之ModelScope:基于ModelScope框架的afqmc数据集利用StructBERT预训练模型的文本相似度算法实现文本分类任务图文教程之详细攻略_一个处女座的程序猿的博客-CSDN博客
https://yunyaniu.blog.csdn.net/article/details/98477747
更新中……