NLP学习总结

NLP是什么呢?
1.语言是生物同类之间由于沟通需要而制定的具有统一编码解码标准的声音(图像)指令。包含手势、表情、语音等肢体语言,文字是显像符号。
2.自然语言通常是指一种自然地随文化演化的语言。例如英语、汉语、日语等。有别于人造语言,例如世界语、编程语言等。
3.自然语言处理包括自然语言理解和自然语言生成。自然语言理解是将自然语言变成计算机能够理解的语言,及非结构化文本转变为结构化信息。
4.NLP的 四大经典“AI 完全 ” 难题:问答、复述、文摘、翻译,只要解决其中一个,另外三个就都解决了。问答就是让机器人很开放的回答你提的各种各样问题,就像真人一样;复述是让机器用另外一种方式表达出来;文摘就是告诉你一篇很长的文章,让你写一个100字的文摘,把它做出来是非常难做的;翻译也是很困难的,英语思维方式和中文思维方式转换过来,中间会涉及到很多复杂的问题。


NLP学习总结_第1张图片
NLP技术的应用及思考

图为整个自然语言处理平台最核心的框图,底层是各种各样的基础数据,中间层包含基本的词法分析、句法分析、语义分析、文档分析,还有其他各种各样跟深度学习相关的一些技术;上层是自然语言处理能够直接掌控和变革的一些算法和业务,比如内容搜索、内容推荐、评价、问答、文摘、文本理解等等一系列问题,最上层我们直接支持大业务的单元,比如商品搜索、推荐、智能交互、翻译。商业翻译和普通机器翻译是不一样的,还有广告、风控、舆情监控等等。这个层次结构是比较传统的方式,为了让我们平台具有非常好的落地能力,右边有一列平台工程,专门解决如何让算法能够快速的用到业务里面去。
NLP算法归类整理
下面对我们的算法做一些比较简单的举例。
1.词法分析(分词、词性、实体):
–算法:基于Bi-LSTM-CRF算法体系,以及丰富的多领域词表
–应用:优酷、YunOS、蚂蚁金服、推荐算法、资讯搜索等
2.句法分析(依存句法分析、成分句法分析):
–算法:Shift-reduce,graph-based,Bi-LSTM
–新闻领域、商品评价、商品标题、搜索Query
–应用:资讯搜索、评价情感分析
3.情感分析(情感对象、情感属性、情感属性关联):
–算法:情感词典挖掘,属性级、句子级、篇章级情感分析
–应用:商品评价、商品问答、品牌舆情、互联网舆情
4.句子生成(句子可控改写、句子压缩):
–算法:Beam Search、Seq2Seq+Attention
–应用:商品标题压缩,资讯标题改写,PUSH消息改写
5.句子相似度(浅层相似度、语义相似度):
–算法:Edit Distance,Word2Vec,DSSM
–应用:问大家相似问题、商品重发检测、影视作品相似等
6.文本分类/聚类(垃圾防控、信息聚合):
–算法:ME,SVM,FastText
–应用:商品类目预测、问答意图分析、文本垃圾过滤、舆情聚类、名片OCR后语义识别等
7.文本表示(词向量、句子向量、篇章向量、Seq2Seq):
–Word2Vec、LSTM、DSSM、Seq2Seq为基础进行深入研究
8.知识库
–数据规模:电商同义词,通用同义词,电商上下位,通用上下位,领域词库(电商词、娱乐领域词、通用实体词),情感词库
–挖掘算法:bootstrapping,click-through mining,word2vec,k-means,CRF
–应用:语义归一、语义扩展、Query理解、意图理解、情感分析
9.语料库
–分词、词性标注数据,依存句法标注数据


NLP学习总结_第2张图片
NLP技术的应用及思考

有这样一句话叫“我要买秋天穿的红色连衣裙”,这句是电商领域中比较常见的,词法分析结果会把中间“我要”拆开。分词要分的很准,它不是每个单字都是一个词,比如秋天是一个词,连衣裙是一个词。下面这一层标签是对应的词性。上面这一层就是句子树型结构,它会比较深入的把句子比较深度的结构化。只有把它结构化之后才能导到数据库里面去,才能做后续的各种机器学习研究和应用,这种叫结构句法分析。

你可能感兴趣的:(NLP学习总结)