关系分类泛读系列（一）—— Relation Classification via Convolutional Deep Neural Network 论文笔记

一、写在前面的话

关系抽取和关系分类是构建知识图谱的技术之一，不过目前多处于学术研究阶段。目前的研究主要分为正常监督的关系分类任务和基于远程监督的关系抽任务，两者常用的测评数据是SemEval2010_task8和NYT10数据集。《Relation Classification via Convolutional Deep Neural Network》是正常监督的关系抽取任务，主要便是在已知句中实体的情况下，判断实体对的关系，可以认为是在文本分类任务上额外引入了实体信息，如何有效地利用实体信息是这类论文研究的重点。

二、论文笔记

1. 论文整体架构

下图是论文网络的整体架构，与传统的文本分类网络极其相似。该网络主要结构便是传统的CNN分类结构，只是在细节上有些许差异（这些差异其实未必有什么提升，在后来的论文中也证明了这一点）

Relation Classification via Convolutional Deep Neural Network

2. 位置向量

前面说到，关系分类任务研究的重点便在于如何引入实体信息，换句话说，怎么让网络指定句子中有两个词的重要性和其他词不一样。该论文在这一部分的工作便是引入了位置向量，即获得句子中每个词与两个实体的相对位置距离，并通过和词向量一样的方法，将距离映射成一个随机初始化的向量，如下图所示：

通过这样的方式，这样每个word都会有两个位置向量（也就是下图中PF部分），将这两个向量和word本身的词向量拼接在一起作为输入，之后网络的操作和正常的文本分类就没有什么区别了（除了在分类前拼接了一些文本特征，但这些特征其实和网络结构关系不大）。

3. lexical level features

在网络结构中我们可以看到，除了sentence level feature之外，在分类前还拼接了lexical level features，这部分特征主要包括：

L1: 实体1本身
L2: 实体2本身
L3: 实体1的左右两个词
L4: 实体2的左右两个词
L5: WordNet中两个实体的上位词

可以看出，在加入lexical level features之后，确实会带来一定的提升，但后来的实验也证明，不加入这些特征一样可以达到相同或者更高的f1。

4. 实验结果

由于该论文发表于2014年，所以对比的模型也较为原始，可以看出使用深度学习的方法，可以在不使用很复杂的lexical level features的情况下，达到和传统方法使用复杂特征一样或者更优的效果。

三、总结

从现在的眼光看这篇论文，其实并没有多少亮点，里面使用的技术都是现在的一些常用技巧。但是，毕竟是较早在这个领域使用CNN模型，且达到当时的最佳效果，一些思想还是很值得借鉴的。同时，对于刚踏入这一领域的人，这篇论文复现难度并不高，很适合入门。