使用全局优化方法识别中文事件因果关系

使用全局优化方法识别中文事件因果关系

目录

  • 使用全局优化方法识别中文事件因果关系
  • 一、语料库标注及基准系统
  • 1、因果语料库标注
    • 1.显示因果关系
    • 2.隐式因果关系
    • 3.非因果关系
  • 2、基准系统
  • 二、全局优化模型
    • 1.目标函数
    • 2.基本约束条件
    • 3.限定性约束条件
  • 三、实验结果
    • 1.实验设置
    • 2.实验结果
  • 总结


一、语料库标注及基准系统

本文使用ACE2005中文语料库作为基础语料

1、因果语料库标注

本文标注一个中文事件因果关系语料库;其中,事件因果关系分为 显示因果关系 和 隐式因果关系。

1.显示因果关系

显示因果关系由一个表示因果关系的词连接2个事件,且通常在同一句子内,易于标注。如:
在这里插入图片描述
如果2个事件在同一句子内,且事件之间连接词在词表中,则标注为因果关系。注:常用的中文因果标志词有:因为、由于、因此、以致此、于是、导致、致使、因、造成、结果、所以、因而等。

2.隐式因果关系

对于跨句子或者段落的事件,一般不存在明确表示因果关系的句子,需要根据文章内容和语义知识识别因果关系。如:
使用全局优化方法识别中文事件因果关系_第1张图片
两个句子中,没有明确因果关系词连接“死亡”与“起诉”事件。
本文参考2个因果关系判别模型进行标注,对于事件C和E:

1) 当C 发生时,E 发生的概率远远大于C 不 发生时E 发生的概率,则认为C 与E 为因果关系:
在这里插入图片描述
2) C 和E 为因果关系,当且仅当如果C 不发 生,则E 不发生:
在这里插入图片描述

3.非因果关系

有部分事件满足以上定义,但不存在因果关系,主要有一下3类:
1) 2个事件相互对应,一个事件发生,则另一个事件必然发生。
使用全局优化方法识别中文事件因果关系_第2张图片
2) 2个事件互为共现事件,即两个事件经常共同出现。
在这里插入图片描述
3)2个事件为目的关系。
在这里插入图片描述

2、基准系统

使用的特征如下:
使用全局优化方法识别中文事件因果关系_第3张图片

二、全局优化模型

分类器独立地对每一对事件进行因果关系识别,而没有利用文档内其他事件对的信息,识别结果容易产生矛盾。为此,使用整数线性规划的方法进行事件因果关系识别。该方法结合多种约束条件,达到事件对概率之和最大化。

1.目标函数

以文档为单位,对文档内的所有事件进行优化
使用全局优化方法识别中文事件因果关系_第4张图片
其中:E为文档内所有事件的集合;r为事件因果关系,取值为c时表示具有因果关系,取值为c 时表示没有因果关系; x 取值为1时,表示事件对具有r关系,否则表示没有r关系; P(r|ei,ej) 表示分类器得到的事件对之间r关系的置信度。当没有任何约束时,最优化目标函数等价于完全使用分类器分类结果。
但是,分类器没有考虑同文档内其他事件的信息,为此,提出一系列约束,根据文档信息确定部分事件对关系,使目标函数最优化。

2.基本约束条件

1) 唯一性:事件对(ei,ej)非之间的关系是唯一的,即因果或非因果关系,
x(ei,ej,c)+x(ei,ej,c)=1 ∀ei,ej ∈E.

2)非自反性:对于事件对(ei,ej),如果其具有因 果关系x(ei,ej,c)=1,则x(ej,ei,c)=0, x(ei,ej,c)+x(ej,ei,c)≤1 ∀ ei,ej ∈E.

3)同指传递性:对于2个事件对(ei,ej)和(ei, ek),如果x(ei,ej,c)=1且ej 与ek 为同指事件, 则x(ei,ek,c)=1,
x(ei,ej,c)=1∧coreference(ej,ek) ⇒x(ei,ek,c)=1 ∀ei,ej,ek ∈E.
函数coreference(ej,ek)用于计算事件对(ej, ek)是否存在同指关系.如果存在同指关系,该函数返回布尔值真。

4)非传递性:对于3个互相不同指的事件ei,ej, k,如果ei→ej 且ei→ek,则ej /→ek,
x(ei,ej,c)+x(ei,ek,c)+x(ej,ek,c)≤2 ∀ei,ej,ek ∈E.

3.限定性约束条件

1)因果标志词约束:如果2个事件在同一句子内,且事件之间存在因果标志词,则将其关系置为因果关系,
Dist(ei,ej)=1∧conj∈ Causal_Set ⇒x(ei,ej,c)=1 ∀ei,ej ∈E.
其中:Dist(ei,ej)=1表示事件对(ei,ej)在同一个句子内,否则返回0;conj表示2个事件间的连接词;Causal_Set表示因果标志词集合。

2)事件类型约束:如果2个事件在同一句子内,且2个事件类型typei 和typej 在开发集内的共现次数大于某个阈值T,且2种类型之间为因果关系的比率大于某个阈值α1,则将其关系置为因果关系,
Dist(ei,ej)=1∧ Count(typei,typej)≥ T ∧ Rate(r(c|typei,typej))≥α1 ⇒x(ei,ej,c)=1 ∀ei,ej ∈E.
其中:Count(typei,typej)表示2个事件类型typei 和typej 在开发集内的共现次数,Rate(r(c|typei, typej))表示2种类型typei 和typej 之间为因果关系的比率.

3)论元角色约束:如果第1个事件中的关键论元 角色的同指论元(即同指实体)在第2个事件所在句 子中出现,则认为事件对之间为因果关系,
argk ∈ei ∧argk ∈ Arg_Set∧ Dist(argkT,ej)=1 ⇒x(ei,ej,c)=1 ∀ei,ej ∈E. (11) 其中论元 Argk 的同指论元为argTk .

三、实验结果

1.实验设置

使用ICTCLAS 2015工具进行分词和Stanford Parser进行句法分析和依存分析,使用Mallet工具包的最大熵分类器和Gurobi工具进行全局优化。

2.实验结果

使用全局优化方法识别中文事件因果关系_第5张图片

总结

本文提出一种基于全局优化的中文事件因果关系识别方法,实验结果表明本文提出的方法性能比基准系统有一定提升。本文提出的基本约束条件能够有效消除单纯使用分类器识别造成的结果矛盾, 而限定性约束条件能够利用事件对之外的其他事件信息有效提升系统识别性能。

你可能感兴趣的:(论文总结,个人见解)