End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures论文笔记

ACL2016论文End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures中提出了一种用于NER和NRC的端到端的联合模型,并在模型中融入了依存路径信息。这篇论文里涉及到的很多知识之前没关注到,在这里记录下来。

1、端到端(end to end)

没有找到官方解释,可以参考知乎里的问题,个人理解:端到端指的是输入是原始数据,输出是最后的结果,原来输入端不是直接的原始数据,而是在原始数据中提取的特征就不是端到端模型。这有什么好处呢,如果分阶段学习的话,第一阶段的最优解不能保证第二阶段的问题达到最优。end-to-end把他们堆在一起来优化,确保最后阶段的解达到最优。

2、联合模型(joint model)

以信息抽取里的命名实体识别和关系抽取为例,一般会先做NER,然后根据抽取出来的实体来做关系抽取,这样会有几个问题:a.实体识别的误差很大程度上会影响关系抽取的准确率;b.NER和RC并不是完全独立的任务,很多情况下相辅相成,可以利用这一点提高两个任务的效果。于是就有了联合模型,联合模型一般有两种形式:参数共享/标注策略,这里只讨论参数共享的情况。对于a,这点类似于端到端,将NER和RC放在一个模型里,一定程度上缓解了a问题;对于b,联合模型的共享参数可以看作是信息的共享,于是将两个任务联立起来了。

3、依存路径

“依存路径“这个词应该属于句法分析的范畴,依存句法分析通过分析语言单位内成分之间的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。

约束条件:

(1)一个句子中只有一个成分是独立的 
(2)句子的其他成分都从属于某一成分 
(3)任何一个成分都不能依存于两个或两个以上的成分 
(4)如果成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分 
(5)中心成分左右两边的其他成分相互不发生关系

最短依存路径(shortest dependency paths,SDP):两个节点(词语)与其最近的共同父节点构成的路径。论文Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths中有相关的描述,论文中的一个例子:End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures论文笔记_第1张图片

该论文中也提到利用SDP可以抽取最相关的信息,带来最少的噪音,在RC任务中比替他的例如SubTree和Full-Tree都要好。

有个问题:核心动词怎么选取?

好了,涉及到的一些知识和概念介绍了,回到论文提到的模型上来,结构如下:

End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures论文笔记_第2张图片

主要流程是先通过Bi-LSTM对句子编码,用LSTM输出的隐藏层向量对每个词进行分类。接着两两实体间构建SDP,再根据SDP结构利用Bi-LSTM进行关系分类。

利用依存关系进行关系分类那一块的实施细节还没想通,每个词对都要搜索SDP然后编码解码分类计算量是不是太大了?怎么样在SDP结构上实施LSTM?模型中用到了四种向量:词向量、词性向量、依存类别向量和实体类别向量,后两个是怎么训练的?

你可能感兴趣的:(自然语言处理)