西湖大学张岳老师NLP课程大纲

西湖大学张岳老师NLP课程大纲_第1张图片
  第一部分为基本概念(自然语言处理的基础):

  • Overview,介绍课程的整体框架,NLP是什么、NLP研究的主要对象、为什么要以机器学习的角度去研究NLP。
  • Counting frequencies,介绍数数的基本统计方法和数学建模的思想,这里的模型基本上都是通过统计意义上的频率、相对数量来对概率进行建模。
  • Feature vectors,介绍判别式模型的自然语言处理建模方法,其中最重要的统计知识叫做特征向量,会以向量空间为最基本的数学模型,对自然语言处理的任务进行建模。那我们将讨论以这个切入点为核心的所有相关的机器学习方法。
  • Unified linear models,我们会把上几节课介绍的这些基于特征向量的模型和概率统计的模型统一到完全相同的一个框架,我称它为泛化的感知机模型即单层的神经网络。我们会讨论这个最基本的线性模型的优化方式,以及相关的机器学习的一些最基本的概念,比如过拟合和泛化性。
  • Information theory in NLP,我们会把上节课的泛化的感知机模型,进行一个理论上的升华,我们会对数数的模型也进行一个理论的升华。最后发现所有这些模型背后的数学意义都可以归结于信息论的范畴。在这节课里呢,我们将会研究怎么用信息论里面的基本概念比如信息、熵、困惑度等等这些概念推出前面几节课的各大类模型。并且我们还介绍这些基本的信息论概念在自然语言处理里面的大体应用方向。
  • Hidden variables,隐变量指的是机器学习的训练数据里并不能直接观察到的一些数据和变量。我们会介绍解决隐变量问题的最基本的思想。并且引入一个叫做期望最大Expectation-Maximization,也就是EM的算法。我们会看到这个算法在自然语言处理领域的一些典型应用,并且呢我们会根据前面学到的基本概率和信息论的知识来推导出EM算法本身。

  第二部分介绍自然语言处理非常独特的一些机器学习算法(有别于图像处理等其他机器学习应用领域)。我们发现自然语言里面很多现象都是结构现象,比如一句话,它就是一个词的序列。它本身是一个结构,你要深入理解这句话呢,你需要一些句法上的、语义上的结构表达。这些语言学的结构呢也属于结构问题。如何让机器学习算法处理好这些结构是我们第二部分所讲述的内容。

  • Generative sequence labeling,首先把概率的数数的模型从简单的分类的问题推演成如何解决序列结构的问题,我们称这些模型叫生成模型。其中最为典型的模型是HMM,

  • Discriminative sequence labeling,讨论向量空间模型对于同样的问题的处理方式。也就是说我们会把判别模型用到序列标注上,其中最为典型的模型为条件随机场。

  • Sequence segmentation,序列切分问题,其中典型的例子就是对句子进行分词(字符序列切成词的序列)。把过去学过的概率的生成模型和基于向量的判别模型都分别对它进行建模。这里面一个典型的模型叫做半条件随机场。

  • Tree structure prediction,继续进行结构的演化,讨论树状结构是如何去进行生成的。我们会把同样的生成式模型和判别式模型改造成对于树状结构的预测模型。典型的结构是句法结构,一个典型的模型是概率的上下文无关语法模型。另外条件随机场也会被范化成树状的条件随机场。

  • Transition-based methods,我们会研究一下结构预测里面算法复杂度和模型精度或者说你的特征向量空间之间的关系。并且我们将讨论一类能够综合算法复杂度和限量空间复杂度的内在矛盾的算法,也就是基于转移的结构预测算法。

  • Bayesian learning,讨论生成式的结构预测模型的一个很泛化的普遍的版本叫做贝叶斯学习或者叫做贝叶斯网络。我们会了解到当训练数据里面有隐变量的时候,贝叶斯网络如何去学习,我们也会对比贝叶斯学习和前面基于数数的统计学习之间的相同点和不同点。

  第三部分介绍神经网络对于自然处理建模的作用,这一部分将以第一部分所介绍的概率知识、信息论知识、隐变量知识为基础,把第一部分介绍的单层的感知机模型以及它的优化算法扩展到多层感知机模型,也就是MLP以及更复杂的网络结构里。我们会发现所有这些模型内在上是统一的和整体的。

  • From one layer to stacked layers,讨论如何把一个线性的模型通过层数堆叠的方法变成一个非线性的模型,我们会介绍一个最基本的、最简单的神经网络去进行文本分类。
  • Representation learning,通过对比单层模型和多层模型背后的能力差别,着重的讨论神经网络的一个关键技术叫做表示学习。我们会了解表示学习的含义,以及不同的实现自然语言处理表示学习的神经网络架构,以及这些架构的不同优化方法。
  • Neural structured prediction,针对第二部分所讨论的不同的特点的结构进行神经网络的建模。我们会把基于转移的方法和非基于转移的方法都神经网络化,并通过对比来观察到神经网络解决结构预测问题的特点。
  • Sequence to sequence learning,介绍神经网络由于它的强大表达能力,所能做到的传统统计模型难以做到的一些任务:其中很经典的任务就是对两个不同的文本进行复杂建模的任务,比如我们将研究序列到序列,sequence to sequence这样的模型。它可以把一个文本转换成另一个文本,我们也将介绍对两个文本之间进行对比和理解的模型,比如说文本的问答模型。
  • Pre-training and transfer learning,针对神经网络的特点来介绍预训练这个概念,以及用神经网络如何进行迁移学习。也就是说把一个问题学到的知识用到另一个问题上的所有基本的这些想法和思路。
  • Deep latent variable models,重点讨论如何用神经网络来解决隐变量的建模问题。在这一部分内容里面呢,我们既会讨论分类问题,也会讨论结构预测问题 。我们的讨论着重点在于一个泛化的期望最大方法,我们不会去讨论神经网络的贝叶斯方法,因为这些方法目前在自然语言处理中应用还相对比较少。

你可能感兴趣的:(NLP,自然语言处理,人工智能,算法)