如何在NLP领域应用卷积神经网络CNN

技术交流QQ群:1027579432，欢迎你的加入！

1.CNN使用原理

(1) 相对于图片像素，在NLP任务中，将句子和文章作为一个矩阵来输入给CNN网络，矩阵中的每一行代表一个标记token，通常是一个词语，但是，也可以是一个字符。也就是说，矩阵中的每行是一个向量，这个向量代表一个词语。通常这个向量是词嵌入向量（低维表示），比如word2vec、glove，但是有时候单个词语也可以使用one-hot编码来表示该单词在词汇表中的索引。对于一个由10个单词组成的句子，使用一个100维的词嵌入向量来表示每个单词，那么这个句子可以表示为10*100为的矩阵，这个矩阵就可以作为CNN网络的输入，也就类似于图像领域的“图片”。
(2) 在计算机视觉领域，卷积核是滑过整个图片。但是，在NLP领域我们通常使用卷积核滑过矩阵的整行，相当于滑过句子中的词语。换句话说是，卷积核的宽度通常与(1)中输入的矩阵宽度相同。但是，卷积核的高度通常是变化的，通常每次滑过的单词宽度是windows words 是2~5，将所有卷积核提取的结果合并在一起，NLP中的一个卷积神经网络工作原理如下图所示：

CNN_NLP.png

2.NLP中的CNN不同之处

(1) 我们对计算机视觉的直觉如何？位置不变性和局部组合性对图像有直观的意义，但对于NLP则不那么重要。你可能会关注在一个句子中出现同一个词语。彼此接近的像素可能在语义上相关（对同一图像的一部分而言），但对于词语而言并非总是如此。在许多语言中，短语的一部分可以用几个其他单词分开，词语外观上也不明显。很明显，在某些方面单词的构成，例如修饰名词的形容词，但这究竟是如何工作的，更高级别的表示实际上“含义”并不像计算机视觉那样明显。
(2) 考虑到上述描述的问题，CNN似乎无法在NLP任务中使用。幸运的是，上述存在的问题并不能意味着CNN在NLP任务中无法应用。正如名言" All models are wrong, but some are useful"所说，从事实角度出发，CNN在NLP任务上的应用反而很好。简单的Bag of Words模型显然过于简单化，但多年来一直是常用方法，并取得了相当不错的结果。
(3)对于CNN网络，一直认为它都是一个很快的网络。卷积操作是计算机图像方向的核心操作，在GPU硬件上的实现。与n-grams语言模型对比，从词语的表示形式上来说，CNN更加有效。当一个词汇表中有很多单词时，计算超过tri-grams时将会浪费很多的计算成本。即使是Google公司也不会提供超过5-grams的语言模型。卷积核可以自动学习到词语好的表示形式，不需要表示出整个词汇表。卷积核的数量超过5个是完全合理的，我认为卷积核在第一层捕捉到的特征与n-grams语言模型捕捉到的特征是相似的，但是前者以一种更紧凑的方式表现出来的。

3.CNN中的超参数

在解释CNN如何应用在NLP任务中之前，先让我们看看搭建CNN时需要做出的一些选择，希望这有助于您更好地了解该领域的文献。

(1) Narrow vs. Wide convolution
- a. 当我解释上面的卷积操作时，我忽略了使用卷积核过程中的一些细节。应用一个3*3的卷积核在矩阵的中间部分时，得到的结果会很好，但是矩阵的边缘部分该如何处理？如何将卷积核应用在一个没有左上角元素的矩阵的第一个元素上？答案是使用padding操作，所有在矩阵边缘的元素都可以在边缘元素的外部用0填充。通过这个操作，你可以将卷积核应用在输入矩阵的任意位置上，获得一个更大且相同大小的输出。增加zero-padding操作也被称为是wide convolution，没有用0元素填充的操作称为narrow convolution.下图中n_filter=5,n_in=7,n_padding=4
  
  narrow convolution.png
  
  wide convolution.png
- b.当你有一个与输入矩阵尺寸相关且很大的卷积核时，通过上图，你可以看出wide convolution是有用的，甚至是必要的操作。如上图所示，narrow convolution生成的输出尺寸是(7-5)+1=3,wide convolution生成的输出尺寸是(7-2*4-5)+1=11。更加普遍的情况是，计算公式如下图所示：
  
  输出尺寸的计算公式.png
(2) Stride Size
- a.卷积神经网络中的另一个超参数是stride size，这个参数定义了卷积核每次在输入矩阵中的移动步长大小。上面的所有例子中stride size=1,重复的应用这个步长来移动卷积核。步长越大，卷积核的移动次数越少，输出的尺寸越小。下面的图来自CS231课程
  
  stride size is 1.png
  
  stride size is 2.png
- b.通常在文献中stride size=1，当stride size太大时，我们可以构建出一个类似于循环神经网络结构的模型。
(3) Pooling Layers
- a.CNN中的一个关键方面是池化层，这层通常在卷积层之后应用。通常对卷积核得到的输出应用一个max操作实现池化功能。你不需要对整个矩阵进行池化操作，你可以将矩阵分隔成几个窗口，对每个窗口进行池化操作。例如，下图中max操作时，窗口的大小是2*2(在NLP领域中，我们通常在卷积层的输出矩阵上应用池化操作，每个卷积核池化后得到一个实数)，具体如下图所示：
  
  max pooling.png
- b.为什么要进行池化操作？主要有以下几个原因：池化层的一个特点是提供一个固定大小的输出矩阵，这个输出矩阵通常被用作分类。比如，你有1000个卷积核，你将池化操作应用在卷积层输出的矩阵后，不论卷积核的大小、输入矩阵的大小，你都会得到一个1000维的池化后的输出矩阵。这允许你可以使用可变大小的句子长度和可变大小的过卷积核，但最终获得相同的输出维度来提供给分类器。
- c.池化操作还可以减少输出矩阵的维度，但是同时也保持了最显著的特征。你可以将每个卷积核理解成检测特定功能的特征提取器。例如，检测句子是否包含“not amazing”等这样的否定词语。如果此词语出现在句子中的某处时，则将卷积核应用于该区域，结果将产生较大的值，但在其他区域中产生较小的值。通过执行最大池化操作，能够将这个词语是否出现在句子中的信息保留下来，但是也丢失有关词语出现在句子何处的信息。但后者的这个信息不太重要，它类似于bag of n-grams模型。你正在丢失关于这个词语在一个句子中全局位置信息，但同时卷积核正在捕捉这个词语在这个句子中的局部位置信息，比如"not amazing"与"amazing not"显然是不同的。
- d.在图像识别领域，池化操作提供了图片移动和旋转的基本不变特性。当你对某个区域执行池化操作，即使你将图像移动/旋转几个像素，输出也将保持大致相同，因为最大池化操作无论如何都会选择相同的值。
(4) Channels
最后，我们必须理解通道这个概念，通道是对输入数据的不同视角理解。例如，在图像识别领域，通常有RGB(红、绿、蓝)3个通道，你可以贯穿整个通道来执行卷积操作，使用相同或不同的权重。在NLP中，你可以想象有不同的通道，如：你可以分别为不同的词嵌入(word2vec/glove)使用一个独立的通道，或者你也可以为不同语言中相同含义的句子设置一个通道。

4.Convolutional Neural Networks applied to NLP

下面让我们看一下CNN在自然语言处理中的使用，我尝试总结CNN在这个领域上一些研究成果。研究结果总是我会想起许多有趣的应用程序（请在评论中告诉我），但我希望至少涵盖一些更受欢迎的结果。

(1)CNN在NLP中的最适合的应用似乎是分类任务，比如情感分析、垃圾邮件识别、观点分类等。卷积和池化操作丢失关于单词的局部位置信息，因此序列标注(如位置标注、实体提取)任务上应用一个纯CNN网络是有一点困难的。文献[1]在一个多分类数据集上评价一个CNN网络结构的效果，主要包括情感分析和主题分类任务。CNN网络结构在整个数据集上获得非常好的效果。令人意外的是文章中使用的网络非常简单，但是功能强大。输入层是一个句子，这个句子是由word2vec词嵌入表示的词向量表示。卷积层使用了多个卷积核，卷积层之后使用一个最大池化层，最后是一个softmax分类器。文章中使用静态和动态两种不同的词嵌入的通道，动态的通道在训练过程中能自动调整词嵌入。文献[2]使用更加复杂的网络结构，文献[3]中增加一个额外的一层来执行"语义聚类"任务。

Convolution Neural Networks for Sentence Classification.png