上周末参加了在云南昆明举办的“第十八届中国计算语言学大会”(The Eighteenth China National Conference on Computational Linguistics, CCL 2019)。CCL作为国内最好的NLP会议之一,笔者收获满满,感触颇深。于是写下这篇文章,和大家分享之所见所闻。
中国计算语言学大会作为国内自然语言处理领域权威性最高、规模和影响最大的学术会,聚焦于中国境内各类语言的智能计算和信息处理,为研讨和传播计算语言学最新学术和技术成果提供了最广泛的高层次交流平台。
笔者主要参加了CCL会议中的评测研讨会,我们队伍(何从庆、朱翔宇(DOTA)、乐雨泉)在CCL“中国法研杯”相似案例匹配评测竞赛取得了三等奖。
作者:何从庆、朱翔宇(DOTA)、乐雨泉
知乎链接:
https://zhuanlan.zhihu.com/p/88207736
代码链接:
https://github.com/hecongqing/CAIL2019
比赛简介
CCL“中国法研杯”相似案例匹配评测竞赛主要是针对多篇法律文本进行相似度的计算和判断。具体地,对于每份文书提供文本的标题以及事实描述,需要从两篇候选集文书中找到与询问文书更为相似的一篇文书。
一般地,三元组相似任务:三元组相似任务是输入一个三元组,a表示anchor sample;p表示positive sample,与a是同一类样本;n表示negative sample,与a是不同类别的样本。代表网络有Triplet Network。
二元组相似任务:二元组相似任务是输入一个二元组
数据集介绍
本任务使用的数据集是来自“中国裁判文书网”公开的法律文本,其中每份数据由三篇法律文本组成。数据总共涉及一万组文书三元对,所有的文书三元组对都一定属于民间借贷案由。对于每篇法律文本,提供该文书的事实描述部分。具体地,文件的每一行对应一组数据,且每行的格式都为一个json数据。
对于每份数据,用(A,B,C)来代表改组数据,其中(A,B,C)均对应某一篇文书。在训练数据中,文书数据A与B的相似度是大于A与C的相似度,即sim(A,B)>sim(A,C)。
任务转化
很明显,这是一个三元组相似任务,即A表示anchor sample, B表示positive sample,C表示negative sample。因此直接可以使用Triplet Network的结构去尝试。但是,在任务中,训练集仅有5000样本,训练集很少;同时,句子长度很长。因此,我们将其转化为二元组相似任务。即假设sim(A,B)>sim(A,C),A与B相似度的标签为1,A与C相似度的标签为0。
难点痛点
1) 法律文本本身在一定程度上具有结构相似性,且事实描述部分存在很多通用词语,如何对法律文本进行预处理是非常重要,这里我没有详细说明如何对法律文本进行预测。
2) 法律文本长度很长,使得任务变得更难处理。机器很难解析一篇很长的事实描述,语义表征也是很复杂。这是法律文本不同于传统的NLP任务之一。
模型方案
在本次任务中,训练集较少,很难训练出一个泛化能力强的模型,那么是否可以结合BERT、XLNET等网络作为encoder,来fine tune网络呢?因此我们尝试了BERT作为encoder,然后余弦相似度计算相似性。线上分数可以达到63.93左右的acc。效果不是很理想,我们觉得法律文本很长,且存在着很多通用相似词语,直接通过余弦相似度计算是否相似,并不是很有效的评估两篇文书的相似度。
2) InferSent
Facebook提出了一种InferSent相似度模型,论文中通过不同的encoder得到句子的表征,然后通过两个句子的向量差值,以及两个向量点乘,得到交互向量,最后区分两者的不同。同样地,这里我们也使用BERT作为encoder,然后通过pooling,然后计算Sent A和Sent B的|u-v|以及u*v,得到两者的交互向量,线上分数可以达到64.5左右的acc。这个比计算余弦相似度的效果好,这说明长度文本利用InferSent模型可以更好的计算两者的向量相似程度。
这里和Digsci比赛的思路也是比较相似,大家也可以看看这篇文章:
DigSci科学数据挖掘大赛-亚军方案分享
https://zhuanlan.zhihu.com/p/88257675
3) 原始BERT模型
原始的BERT模型同样可以解决相似度匹配任务,同样地,我们在原始的BERT模型上也可以取得不错的成绩。这里就不详细说了。
写在最后
参考文献
[1] Learning Text Similarity with Siamese Recurrent Networks
[2] Supervised learning of universal sentence representations from natural language inference data
[3] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding