基于BERT阅读理解框架的司法要素抽取方法

 摘要司法要素抽取是司法智能化辅助应用的重要基础,其目的是判别裁判文书涉及的关键案情要素。以往司法要素抽取通常采用多标签分类方法进行建模,模型主要依赖于裁判文书文本特征,忽略了要素标签的语义信息。同时,由于司法数据集存在样本分布不均衡的情况,分类方法会因负例过多而导致模型性能不佳。针对上述问题,提出基于BERT阅读理解框架的司法要素抽取方法。该方法引入标签信息和法律先验知识构造辅助问句,利用BERT机器阅读理解模型建立辅助问句和裁判文书之间的语义联系。同时,在问句中标签所在位置前后增加特殊标识符以增强模型的学习能力。实验结果表明,该方法在CAIL2019要素抽取公开数据集上性能得到显著提升,在婚姻家庭、劳动争议、借款合同3种案由上分别提升F1值2.7%、11.3%、5.6%。

关键词要素抽取 ; 机器阅读理解 ; 神经网络 ; BERT

1 引言

随着智慧法院建设的提出,大数据、人工智能与司法实践的融合开始不断推进。司法人工智能的本质是基于已有案例的审判工作,提示和辅助司法人员进行审判决策。因此,为司法人员提供可解释的决策依据是司法智能化建设的重点。将端到端的深度学习应用于司法领域通常会存在可解释性差的问题,无法为司法人员提供模型决策依据。案情要素体系是司法领域专家根据法院审判流程总结、建立的体系,主要由司法人员在决策过程中关注的案情要点构成。利用深度学习模型识别裁判文书中的关键案情要素,可以为案件判决预测提供依据,在一定程度上实现可解释性。并且,司法要素是判定案件之间关联性的重要依据之一,具备相同案件要素的案件拥有类似的案情和判决结果,结合司法要素可以有效地实现具有可解释性的类案推送。因此,司法要素抽取工作是司法人工智能中必不可少的一环

你可能感兴趣的:(数字化转型及信息化建设专栏,bert,人工智能,深度学习)