Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis

诸神缄默不语-个人CSDN博文目录

论文名称:Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis
论文ArXiv下载地址:https://arxiv.org/abs/2104.09420
论文NAACL官方下载地址:https://aclanthology.org/2021.naacl-main.155/(该网站有官方讲解视频)
官方GitHub项目:xxxiaol/GCI: Code for Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis.

本文是2021年NAACL论文,作者来自北大。
本文在法律文本数据上应用了因果推理的方法,构建了因果图,以帮助制定决策。本文在相似罪名辨析的任务上做了实验,证明了这一范式有效,将因果知识注入神经网络中可以提高模型效果,且可以提供可解释性,尤其在few-shot条件下。
把因果关系也用进了分类任务。
任务相似罪名辨析similar charge disambiguation:multi-class分类,但标签集是similar charge set(输入是事实描述文本)

本文解决了2个任务难点:①无监督抽取与预测结果相关的factor,会有噪音。②结合传统因果推理模型和现代神经网络架构。

文章目录

  • 1. Background
    • 1.1 因果推理
    • 1.2 因果图
    • 1.3 PAG
  • 2. 模型
  • 3. 实验
    • 3.1 数据集
    • 3.2 实验结果
    • 3.3 因果图质量分析
    • 3.4 人工评估:看attention
    • 3.5 讨论
    • 3.6 由于数据不平衡而产生的性别公平问题

1. Background

1.1 因果推理

自变量treatment,因变量outcome,自变量上的改变量intervention,计算自变量被扰动是否会引起因变量变化以及如何变化,就是因果推理
Confounder:变量,同时影响自变量和因变量
treated group是自变量为1的,反之是untreated group

1.2 因果图

Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis_第1张图片
factor(本文中所有factor都是二元变量)和charge是节点,因果关系是边
传统的结合文本的因果推理方法比较简单,就直接将文本视作一个节点,而没有考虑不同的aspect如事件等。

1.3 PAG

Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis_第2张图片

2. 模型

Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis_第3张图片

从事实描述文本中自动构建因果图,用因果推理来辅助法律决策的制定,本文中similar charge disambiguation任务上测试了该框架的效果。
①用关键词抽取(用YAKE+IDF计算单词对罪名的重要性),来识别出事实描述中的key factors。②将相似的key factors聚类到组中,每个组视为一个独立节点。(图的节点的每个组和罪名)③用对未识别变量鲁棒(无监督抽取可能导致关键词不完全,因果发现时有未识别confounder)的causal discovery algorithm(Greedy Fast Causal Inference (GFCI))来构造因果图。(输出是Partial Ancestral Graph (PAG))(在附录中可以看到,这种算法能够识别出隐factor)(限制:1. 禁止罪名节点出边。2. 以案例(事件描述文本)的时间顺序来限制因果关系)(抽样因果图)④估算每条边的causal strength来减少不可靠边的影响。(保持Confounder不变)(方法:Average Treatment Effect (ATE))(估算ATE的方法:Propensity Score Matching (PSM) 在treated/untreated group之间构建相似样本对)
将因果知识结合到NN中:①在NN attention weights上加入causal strength限制(加损失函数)。②在因果图上抽取出的因果链上使用RNN。

Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis_第4张图片

3. 实验

3.1 数据集

本文使用的是CAIL数据集。

3.2 实验结果

证明的结果:(1) 构建的因果图是合理的。(2) 可以捕捉到文本中的细微差别,尤其在训练数据很少时。
Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis_第5张图片

证明因果的优势的baseline:GCI-co(correlation-based graph,factor之前如皮尔森相关系数>0.5则从出现更早的频率更高的factor连一条边到另一个)
解释了一下为什么没用多任务等范式、没用预训练模型,以前的结合因果推理的工作无法捕捉文本内部的因果关系所以也不作为baseline。
比较了不同训练集比例下模型的表现效果。
每个实验在3个随机种子上跑,以平均ACC和macro-F1作为指标。
Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis_第6张图片

3.3 因果图质量分析

因果发现过程的鲁棒性,因果图的敏感度分析

  1. Random Confounder
  2. Placebo Treatment
  3. Subset of Data

Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis_第7张图片

Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis_第8张图片

3.4 人工评估:看attention

Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis_第9张图片

3.5 讨论

聚类导致的粒度变粗、否定语义、pronoun resolution、intent

3.6 由于数据不平衡而产生的性别公平问题

False Positive Equality Difference (FPED) and False Negative Equality Difference (FNED)
Re18:读论文 GCI Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis_第10张图片

你可能感兴趣的:(人工智能学习笔记,legalAI,因果推理,自然语言处理,相似案例辨析,文本分类)