Stanford CS224n 第一讲:深度自然语言处理

第一节课主要是介绍了NLP(尤其是Deep NLP)的背景知识。
主要有一下几点:

  1. 什么是NLP?
  2. NLP的应用
  3. NLP的难点
  4. Machine Learning vs. Deep Learning

接下来,根据课程视频+自己的理解,我将一一详细介绍以上的4部分。

1. 什么是NLP?
Natural language processing (NLP) 是 计算机科学+AI+语言学 的交叉产物;
它的目标是让机器能够处理或者明白自然语言(text/speech),从而让机器完成对人类有用的服务。但是让机器完全明白自然语言(即AI-complet)还是有困难的,在接下来的第三点中将对此做详细介绍;
自然语言处理的处理层级包括以下四个部分:形态分析(Morphological analysis)、句法分析(Syntactic analysis)、语义分析(Semantic Interpretation)、 对话处理(Discourse Processing)
Stanford CS224n 第一讲:深度自然语言处理_第1张图片

2. NLP的应用
NLP的一些应用包括:拼写检错、关键字查找、NER(命名实体识别)、机器翻译、文本分类、自动问答系统,还有一些为其他AI任务服务的应用。
ps:本人在实验室中主要做的是任务是从网页上抽取学术信息(期刊的影响因子、ISSN号,简介等;论文作者的邮箱、电话、头像、机构等)的任务,有点类似于智能爬虫,相当于NER的一个应用。项目链接:http://www.acheadline.com/ 欢迎下载使用。

3.NLP的难点
对于现实世界的知识的表示、学习和应用是复杂的;
人类语言存在歧义性,同一句话可以衍生出不同的意思;
对于人类语言的理解,很多时候依赖于说话时的 场景、常识以及上下文。
ps:个人觉得语言的歧义是一个比较大的问题。
下雨/天留客/天留/我不留
下雨天/留客天/留我不/留

4.Machine Learning vs. Deep Learning
在课程中Christopher Manning一直强调深度学习在NLP任务中以及其他机器学习任务中的重要性。我认为最重要的一点是,传统的机器学习方法需要花费大量的人力物力进行特征工程,真正让机器自动学习的过程只占用了很少的时间;而深度学习在 一些任务中不需要进行特别多的特征工程,甚至可以直接将raw data作为输入,深度学习模型会自动选择较好的特征对输入进行表示,并且给出输出。
ps:个人觉得深度学习模型虽好,但是它需要大量的数据和较好的硬件环境作支撑,才能取得较好的效果;而且深度学习模型在可解释性上也没有传统的机器学习方法好。

第一次写博客,以上内容皆来自于本人Stanford CS224n的学习笔记,如有错误,欢迎各路大神批评指正;
下一节课是单词的向量化表示word2vec,未完待续…

你可能感兴趣的:(Stanford,CS224n,NLP,Stanford,CS224n,学习笔记)