NLP进阶之路——CS224n(一)

NLP绪论

  • 什么是自然语言处理?
  • NLP的层次
  • NLP的应用
  • 人类语言的特殊之处
  • 什么是深度学习
  • 为什么NLP很难?
  • NLP语义层面的表示
  • Reference

什么是自然语言处理?

自然语言处理(NLP natural language processing)是一门计算机科学、人工智能和语言学的交叉学科。是人工智能领域的重要分支!
人工智能有机器视觉、语音识别、和NLP。自然界拥有视觉的生物有很多,但是拥有高级语言的生物只有人类。

NLP的层次

NLP输入源有两种:语音与文本,涉及到的技术有:语音识别和OCR。
NLP领域的任务大致分为三个层次:

  1. 词法分析:包括分词和词性标注。
  2. 句法分析:对文本以句子为单位进行分析,主流的分析方式有:短句结构句法体系,依存结构句法体系、深层文法句法分析。
  3. 语义分析:理解语句的真正含义。

NLP的应用

大致的由易到难的顺序为:

  1. 拼写检查、关键词检索
  2. 文本挖掘(实体识别)
  3. 文本分类
  4. 机器翻译
  5. 客服系统
  6. 复杂对话系统

人类语言的特殊之处

自然语言的随机性小、目的性强,语言使用来传递有意义的信息。
人类的语言是离散的,明确的符号系统,但有允许出现各种变种。如Duang、I looooooove you !

语言的符号有多种形式:声音、手势、文字。但多种形式锁表达的含义却可以是一致的。

NLP进阶之路——CS224n(一)_第1张图片

什么是深度学习

深度学习(Deep Learning)是机器学习(Machine Learning)的一个子集,与机器学习的最大的不同之处在于,DL是深层的可以学习高层表达的系统。

为什么NLP很难?

人类的语言是充满了歧义的,不像编程语言那样明确。编程语言有各种变种,但是人类仅有少数几个代词可以使用。
人类语言的解读依赖于现实世界、常识以及上下文。由于说话速度与书写速度的限制,人类的语言相当简练,省略了大量的背景知识。

NLP语义层面的表示

传统的方法,手工编写大量的规则函数。
情感分析:手工搜集“情感极性词典”在词袋模型上做分类器。
QA:编写大量的逻辑规则,如:正则表达式。

现在基于深度学习则都表示为向量,可能是因为向量是最灵活的形式,维度自由,可以组合成矩阵。

Reference

[1] http://www.hankcs.com/nlp/cs224n-introduction-to-nlp-and-deep-learning.html

你可能感兴趣的:(NLP)