因果NLP工具箱 - CFIE(一)

文章名称

【SIGIR-2021】【Shenzhen University/Huawei Noah’s Ark Lab】A General Knowledge Distillation Framework for Counterfactual Recommendation via Uniform Data

核心要点

文章旨在解决基于最大似然的信息抽取方法的结果中,实体与标签之间存在可疑关系的问题。作者首先为各种信息抽取任务,构建了统一的因果结构模型,以描述各种变量之间的关系。随后,基于该因果结构模型以及显示的语言结构模型生成反事实样本,进而在预测阶段,更准确的估计直接因果效应。最后提出一种原创的纠偏方法,以此获得更具鲁棒性的预测结果。

方法细节

问题引入

在信息抽取(IE)场景,包括NER,RE,ED,存在类别分布不均的问题[1](其中数据集ACE2005上的类别分布情况,如下图所示)。[2]表明NER模型,在长尾类别上模型的性能显著下降,主要类别上模型的F1可能达到71.6,而在长尾类别上则只有41.7。

long-tailed distribution of label

这种类别分布不均衡的问题导致,模型识别出一些spurious correlations[3]。原有的许多方法都是在类别均衡的数据下提出的。现有方法采用再平衡标签的训练方式[4]或者迁移训练[5],又或者解纠缠的方法[6]。然而,这些方法更多的应用在CV领域,不适合NLP场景。由于NLP场景需要有上下文的表示(例如语法结构和语义信息等)来帮助模型决策,图像里的解纠缠方法不能直接用来对token解纠缠,很难被直接应用于NLP场景。而Causal Inference通过反事实数据可以解决长尾偏差的问题。

具体做法

CFIE的示例如下图所示,其中子图a是ACE2005中类别分布不均的案例(任务是event detection),其中有511条样本里,killed这个词和事件”Life:Die“相关,而只有19条样本和事件“SW:Quit”相关。因此,现有模型会在”The program was killed“句子中,得到”Life:Die“这种不正确的事件(spurious correlations)。

CFIE Demonstration

CFIE的目标是通过SCM (Pearl et al., 2016)来消除这种spurious correlations。SCM可以被形式化为有向无环图DAG( ),其中,分别表示观测到的变量(一般表示为节点),变量之间的影响关系(有向边),(外生)噪声。

如果是给定的,则整个系统是确定性的,观测随机变量的值由如下图所示的公式唯一确定。其中,是当前节点的所有父节点集合。

Deterministic SCM

Causal Representation Learning For IE

作者总结的,IE任务的因果结果模型(SCM)如下图所示。其中表示句子的上下文表示(可以采用BiLSTM或者BERT等各种方式获得)。表示一些语法特征,比如NER标签或者POS标签,表示特征的数量。是特定抽取任务中某一个子类别的表示。例如,Relation Extraction中的一种关系的表示,或者NER中的某种实体的表示。表示最终分类的logits。

SCM for IE

在作者构建的IE因果图,定义。并假设对的直接因果效应是一种线性变换,用线性变换矩阵表示,其中分别表示分类类别的数量以及特征维度。假设,的某一个父节点的向量表示为,那么对的估计值可以通过对线性变换进行组合求和得到,即。或者具有门控机制的,其中表示元素相乘,而是sigmoid函数。

为了防止某一条边起到了全部影响(实际是一种平凡解),可以在整体损失中加入单一特征影响的交叉熵损失。整体框架图中,子图b展示了利用SCM训练IE模型的过程,期望模型能够在分类时,识别main cause (main effect) 和 spurious correlations (side effect)。

值得注意的是,对于的建模需要对不同任务采用不同的建模方案。在RE场景下,作者采用基于GCN的依存树来聚合较长的依赖关系。其他领域的方法可以参见文章。

本节介绍了信息抽取中,因类别长尾分布导致的模型性能下降,容易识别出spurious correlations的问题背景。并介绍了作者解决该问题的思路和归纳到SCM结构。下一节继续介绍模型的训练与预测,以及模型是如何生成反事实的。

心得体会

Direct Effect

个人感觉,文章的主要贡献是给出了IE任务的统一SCM结构,并在SCM的视角下把spurious correlations定义为side effect。这样,利用消除偏差的方法,可以解决长尾分布导致的模型性能下降的问题。作者定义的SCM能够适用于各种场景和模型框架。

文章引用

[1] George Doddington, Alexis Mitchell, Mark Przybocki, Lance Ramshaw, Stephanie Strassel, and Ralph Weischedel. 2004. The automatic content extraction (ACE) program – tasks, data, and evaluation. In Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04), Lisbon, Portugal. European Language Resources Association (ELRA).

[2] TZhanming Jie and Wei Lu. 2019. Dependency-guided lstm-crf for named entity recognition. In Proc. of EMNLP.

[3] Megha Srivastava, Tatsunori Hashimoto, and Percy Liang. 2020. Robustness to spurious correlations via human annotations. In Proc. of ICML.

[4] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense ob- ject detection. In Proc. of ICCV.

[5] Ziwei Liu, Zhongqi Miao, Xiaohang Zhan, Jiayun Wang, Boqing Gong, and Stella X Yu. 2019. Large- scale long-tailed recognition in an open world. In Proc. of CVPR.

[6] Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan, Albert Gordo, Jiashi Feng, and Yannis Kalantidis. 2019. Decoupling representation and classifier for long-tailed recognition. In Proc. of ICLR.

你可能感兴趣的:(因果NLP工具箱 - CFIE(一))