自然语言处理总概括

自然语言处理

自然语言处理是什么

自然语言处理(Natural Language Process)就是利用计算机来处理人类语言的学科,属于计算机与语言学的交叉学科。

自然语言处理有哪些技术

大致包括如下技术:
1.分词(Word Segmentation或Word Breaker,WB)
在英文文本当中每个词之间都有间隔好分,但在中文文本当中一句话之间每个词是没有间隔的,所以需要对一个句子当中每个字进行切分,句子的基本语义单元就变成了词,这就是分词任务。
2.句法分析(Parsing)
句法分析指的是将句子中每个部分的组块(也就是每个词、字的归属类)标注出来。

  • 组块分析:标出句子的短语块,如“This is a dog(NP)” 超级标签分析:给每个句子加上超级标签,超级标签是一个树形结构图
  • 成分句法分析:分析句子成分,给出一颗由终结符和非终结符构成的成分句法树
  • 依存句法分析:分析句中词的依存关系,给出一颗由词语依存关系构成的依存句法树。

3.信息抽取(Information Extraction,IE):命名实体识别和关系抽取(Named Entity Recognition & Relation Extraction,NER):我们从一段文本中抽取关键信息即从无结构的文本中抽取结构化的信息,
4.词性标注(Part Of Speech Tagging,POS):对词语的词性进行标注
5.指代消解(Coreference Resolution):消除一些对文本处理没有意义的指代名词,减轻程序对语言的处理。
6.词义消歧(Word Sense Disambiguation,WSD):一个词他可能会有歧义,该任务是用来消除歧义的。
7.机器翻译(Machine Translation,MT):要实现文本的自动翻译
8.自动文摘(Automatic Summarization):摘要是一大段文字,我们需要将里面的梗提取出来然后缩短方便阅读或方便提取信息。
9.问答系统(Question Answering):你提出一个问题机器给予你准确的答案
10.OCR:也属于视觉模块内容,将图片当中的文字通过机器识别图像翻译成文本形式
11.信息检索(Information Retrieval,IR):用户进行信息查询和获取的主要方式,是查找信息的方法和手段。

自然语言处理核心问题是什么

  • 文本分类
  • 关键词提取
  • 情感分析
  • 语义消歧
  • 主题模型
  • 机器翻译
  • 问题问答
  • 汉语分词
  • 垂直领域的对话机器人

自然语言处理有哪些应用方向

搜索引擎
文本主题/标签分类
文本创作与生成
机器翻译
情感分析
舆情监控
语音识别系统
对话机器人

自然语言处理的难点是什么

歧义问题:很多话的意思说的模棱两可,具有歧义
知识问题:知识稀疏或者词汇稀疏,词汇稀疏导致了搭配稀疏,然后导致了语义稀疏,它有一个递进关系。一个比较出名的定律叫齐夫定律(Zipf Law),这个定律是说在自然语言语料当中,一个单词出现的频率和它在频率表当中的排名基本成一个反比关系。
离散符号计算问题:我们看到的文本其实都是一些符号,对计算机来说,它看的其实也是一些离散的符号,但我们知道计算机其实最擅长的是数值型的运算,而不是符号的推理,并且符号之间的逻辑推理会非常复杂。
语义本质的问题:到底什么是语义?什么是语义?语言里面到底是什么东西?符号背后真正的语义怎么来表示?语言学家他走的路子就是我构建好多形式化的、结构化的图之类的,这种结构去做语义或者是一些符号推导系统,认为它可以接近语义本质。但是,这些其实走得越远离计算机就越远,因为它越符号,语义的可解释性就会很差。拿数字来表示语义,我们也不知道这个数字到底它是什么东西。所以目前为止现在研究领域对这个问题解决得比较差。

自然语言处理学习路线

  • 熟悉基本知识、基本操作
    如文本操作、正则、掌握一些基本文本处理框架英文有NLTK、spaCy,中文有中科院计算所NLPIR、哈工大LTP、清华大学THULAC、Hanlp分词器、Python jieba工具库
  • 知道什么是语言模型、利用语言模型来完成一些项目
  • 文本表示:将文本中的字符串转化为计算机当中的向量
  • 文本分类:分类模型传统的一个解决方法就是标带标注的语料,再特征提取,然后训分类器进行分类。这个分类器就会用比如说逻辑回归、贝叶斯、支持向量机、决策树等等。
  • 主题模型:使用无监督学习的方式对文本中的隐含语义进行聚类的统计模型
  • seq2seq模型:通过深度神经网络将一个序列作为映射为另外一个输出的序列。
  • 文本生成:GAN文本生成,也叫机器人写作。

你可能感兴趣的:(深度学习,自然语言处理)