读论文-NN-symbolic做判决预测

链接:https://kunkuang.github.io/papers/AAAI21-Law_Reasoning.pdf
Judgment Prediction via Injecting Legal Knowledge into Neural Networks
深度神经网络和符号知识结合,通过表示为一阶逻辑规则。

摘要:

法律判决预测(LJP)是法律人工智能中的一个关键问题,旨在根据描述法律案件事实的给定文本预测法律案件的判决。以前的大多数工作将LJP视为文本分类任务,并通常采用基于深度神经网络(DNN)的方法来解决它。然而,现有的基于DNN的模型对数据非常渴求,很难解释做出这种预测所依据的法律知识。因此,将法律知识注入神经网络以解释模型并提高性能仍然是一个重要问题。在本文中,我们建议将声明性法律知识表示为一组一阶逻辑规则,并将这些逻辑规则显式地集成到基于协同注意网络的模型中。逻辑规则的使用增强了具有直接逻辑推理能力的神经网络,并使模型更易于解释。
我们以私人贷款场景为案例研究,并通过对收集的数据集进行的综合实验和分析,证明了所提出方法的有效性。

LJP

LJP的目标是根据给定文本预测法律案件的判决,该文本描述了法律案件的发现事实。

为了明确地教授神经网络法律知识,我们建议将DNN与符号法律知识模块相结合,该模块包含一组一阶逻辑(FOL)规则。使用FOL表示领域知识已经证明了其在许多其他任务中的有效性。将法律知识表示为一阶逻辑规则的优点有两个方面。首先,它使判决预测更易于解释,这在法律领域至关重要。其次,逻辑规则为模型提供了归纳偏差,这降低了神经网络对数据的依赖性。据我们所知,我们是第一个将神经网络与表示为FOL规则的法律知识相结合的。

归纳偏置:

归纳是自然科学中常用的两大方法(归纳与演绎,induction and deduction)之一,指的是从一些例子中寻找共性、泛化,形成一个比较通用的规则的过程;而“bias”“偏置”是指我们对模型的偏好。因此归纳偏置可以理解为,从现实生活中观察到的现象中归纳出一定的规则,然后对模型做一定的约束,从而可以起到“模型选择”的作用,即从假设空间中选择出更符合现实规则的模型。类似贝叶斯学习中的“先验,prior”,但与“先验”不同的是,“先验”一般是确定性的已知、知识,而“偏置”更倾向于是一种经验性的假设。

协同注意力

注意力机制就像人带着问题去阅读, 先看问题,再去文本中有目标地阅读寻找答案。
机器阅读则是结合问题和文本的信息,生成一个关于文本段落各部分的注意力权重,再对文本信息进行加权。
注意力机制可以帮助我们更好地去捕捉段落中和问题相关的信息。
协同注意力
协同注意力是一种双向的注意力, 再利用注意力去生成文本和问句的注意力。
给文本生成注意力权值
给问句生成注意力权值
协同注意力分为两种方式:
Parallel Co-Attention : 两种数据源A和B,先结合得到C,再基于结合信息C对A和B分别生成对应的Attention。同时生成注意力
Alternating Co-Attention: 先基于A产生B的attention,得到新的B;再基于新B去产生A的attention。两次交替生成注意力
具体参考https://plmsmile.github.io/2018/03/14/31-co-attention-vqa/

框架

我们提出的模型通过概率逻辑将基于梯度的深度学习模块与不可微符号知识模块统一起来。
读论文-NN-symbolic做判决预测_第1张图片

具体而言,深度学习模块首先基于co-attention机制构建,这可以有利于事实描述和声明之间的信息交互。然后,深度学习模块的输出,即用于判断的预测概率分布,将被馈送到符号模块。然后,符号模块中的逻辑规则调整概率分布,以避免输出违反规律。

统一这两个模块的另一个障碍是FOL规则的非微分特性。为了使统一模型能够以端到端的方式进行训练,我们定义了一些映射函数,以将逻辑规则的离散输出转换为连续实值。

我们将法律知识表述为一组一阶逻辑规则,并将这些符号规则集成到基于协作网络的模型中。
请注意,我们的方法的一个优点是,它可以将法律知识注入DNN,而无需添加额外的训练参数。
F = w 1 , w 2 . . . w N F=w_1,w_2...w_N F=w1,w2...wN表示法律案件事实描述, w i w_i wi 属于V 表示一个单词,N是序列长度,V是固定词汇表。 C = c 1 , c 2 . . . c K C=c_1,c_2...c_K C=c1,c2...cK表示原告提出的K项索赔, c i = w i 1 , w i 2 . . . w i M c_i=w_{i1},w_{i2}...w_{iM} ci=wi1,wi2...wiM表示长度为M的单词序列, w i j w_{ij} wij属于V,事实描述F和K项索求C,目标是对于每一个 c i c_i ci in C,预测对应的 y i y_i yi属于Y。
读论文-NN-symbolic做判决预测_第2张图片
该模型由基于共同关注网络的深度学习模块和符号法律知识模块组成。我们首先将事实描述和多个声明的单词表示输入到共同关注网络中,以获得事实描述和声明的上下文表示。然后,深度学习模块的预测概率分布由符号模块中的一阶逻辑规则重新加权。逻辑规则代表专业的法律知识,这对于做出正确的判断至关重要。

利用的con-attention网络
当法官考虑是否支持索赔时,她或他应首先根据索赔从事实描述中检索相关部分。相应地,索赔的哪些部分对预测具有重要意义,如索赔中的利率,也应引起更多关注。受此过程的启发,双向注意网络被用于通过在事实描述和声明之间交换信息来丰富表示。

Word Embedding Layer
在该层中,假设事实描述F和权利要求C具有K个不同但相关的权利要求,首先使用预先训练的单词嵌入层来获得每个单词的单词向量,如下所示:
在这里插入图片描述
Contextual Representation Layer
在这一层中,双向长短期记忆网络(BiLSTM)用于捕获事实描述和声明的序列上下文表示,如下所示:
在这里插入图片描述
h是BiLSTM隐藏层大小。
Attention Layer.
我们使用共同注意机制来将索赔和事实描述之间的相关事实部分对齐,这一层有两个注意方向:从索赔到事实描述,从事实描述到索赔。此后,这两个注意方向分别导致对事实的索赔感知表示和对索赔的事实感知表示。
具体而言,我们首先通过使用点积来计算Hc和Hf之间的逐字相似度,在事实描述和声明之间进行软对齐,如下所示:
在这里插入图片描述
然后,我们使用从索赔到事实描述的注意力方向来获得索赔感知的事实表示。我们在S上应用softmax函数来加权对事实描述的每一个单词,在索赔中哪些单词是重要的,如下所示:
在这里插入图片描述
然后,声明感知事实表示中的每一行Hf∈ RN×h是索赔表示中的行的加权总和:
在这里插入图片描述
类似地,我们使用另一个关注方向来获得了解事实的索赔陈述,这可以更加关注事实中对索赔具有重要意义的相关部分,如下所示:
在这里插入图片描述
其中Hic是事实感知索赔表示的行向量
我们通过如下连接这些上下文表示来融合Hc、Hf、eHc和eHf:
在这里插入图片描述
o是逐元素相乘.就是Hc,eHf,|He-eHf|,Hc*eHc四个并起来
Output Layer.
最后,融合表示G被馈送到具有softmax激活函数的全连接网络中,以输出预测的概率分布:在这里插入图片描述
Wp是可训练的模型参数。
请注意,共同关注网络的softmax输出将被输入到逻辑模块中,并进行相应调整。

作为一阶逻辑规则的法律知识

如前一节所述,引入的共同注意模型可以融合索赔和事实描述的表示,以进行隐含推理。然而,法律专家(如律师或法官)使用的相关法律知识很难通过共同关注网络学习。
例如,神经网络可能并不总是遵循每月超过2%的私人贷款利率不受法律保护的规则。因此,将此类声明性法律知识明确地注入神经网络以做出正确和可解释的判断预测至关重要。

First-Order Logic.
FOL是表示领域知识的表达逻辑系统。形式上,FOL系统由常量、变量、预测和几个命题连接词组成,包括连词(∧), 分离(∨), 否定(-)和量词(例如。∃ 和∀).常量和变量分别用小写字母和大写字母表示。在本文中,我们采用FOL中的简单条件陈述来表示法律知识,其公式为X→ Y,其中X和Y分别称为前置条件和后继条件。
前提条件可以是变量的合取或析取,公式的基础X→ Y是用常数替换前置条件和后置条件中的每个变量。
然而,FOL规则的原始结果Y是不可微的,这不能直接与深度学习模块相结合。为了保持基于梯度的端到端训练模式的优势,我们将FOL的布尔运算转换为概率逻辑,该逻辑在连续实值空间上表示。
具体而言,我们将前置条件中的变量X与相应的神经输出X相关联。然后,基于深度学习模块的相关输出,使用Łukasiewicz T-norm和T-conorm,将逻辑规则松弛为软化版本。我们遵循来表示一组函数,这些函数用于将FOL的离散输出映射为连续实值,如下所示:
读论文-NN-symbolic做判决预测_第3张图片
设计合格映射函数的第一个原则是,当前提条件成立时,映射函数应生成预定义的最大正分数,以提升神经网络生成的原始分数。其次,映射函数也应该揭示命题连接词的语义。例如,如果只有一个连接词为假,则连接前置条件的映射分数变为零。对于析取前提条件,当所有析取都为假时,映射分数变为零。此外,映射分数将随着为真的析取数的增加而增加。
除了上面列出的函数之外,两个映射函数也用于否定谓词。其中之一是针对前置条件中的否定谓词,eg. 非Xi。非Xi的软化输出表示为1− xi。另一个是否定的结果非Y,表示为−yi,目的是减少神经网络的原始输出。

向DNN注入法律知识。
首先展示了如何使用上述映射函数将符号FOL规则注入深度学习模块,简言之,这种法律知识注入的核心思想是重新加权上一小节中介绍的共同关注网络的输出y,以便当文本中的事实满足法律知识中的条件时,y的相关值增加。否则,y的值将减小。 具体而言,给定上述输出层的softmax输出y和FOL规则X→ Y、FOL规则和DNN通过如下调节深度学习模块的输出来组合:
在这里插入图片描述
其中ρ是表示每个规则重要性的超参数。
设计上述函数的动机是,通过首先将声明性法律知识编译为FOL规则,然后使用映射函数将符号规则转换为连续的实值,我们可以直接调节深度学习模块的输出。 注意,最终预测y’由深度学习模块和符号知识模块决定。

读论文-NN-symbolic做判决预测_第4张图片

实验一些特殊的东西
低资源场景。
我们使用不同的训练数据大小进行了一组实验,以研究我们的方法在低资源场景中的性能。**这组实验的目的是回答将法律知识注入DNN是否可以提供归纳偏差并减少训练的数据依赖性。**如表4所示,将神经网络与法律知识相结合表明,在所有设置中都有改进,这证明了我们方法的有效性。此外,随着数据大小的减小,总体上改善程度也会增加。1%的训练数据大小设置带来最大的收益。我们认为训练数据越小,神经网络就越难从数据中学习隐含逻辑推理能力。然而,注入先验知识为神经网络提供了归纳偏差,从而减少了对数据的渴求。
读论文-NN-symbolic做判决预测_第5张图片
总结
在这项工作中,我们研究了如何将法律知识明确地注入到法律判断预测中。所提出的模型将声明性法律知识表示为一组一阶逻辑规则,并以端到端的方式将这些逻辑规则集成到基于共同注意网络的模型中。逻辑规则的使用增强了具有直接逻辑推理能力的神经网络,并使模型更易于解释。此外,法律知识引入的归纳偏见缓解了深度神经网络对数据的渴求。我们的方法在一个私人贷款数据集上进行了评估,并通过广泛的实验展示了其优于其他基线的优势

参考
https://blog.csdn.net/qq_38156104/article/details/109534916

你可能感兴趣的:(论文,人工智能,深度学习)