法律智能(LegalAI)专注于应用人工智能技术(尤其是自然语言处理)来使法律领域的工作受益。近年来,LegalAI迅速吸引了AI研究人员和法律专业人员的关注,因为LegalAI有利于法律体系将法律专业人员从繁杂的文书工作中解脱出来。法律专业人员经常考虑如何通过基于规则和基于符号的方法解决任务,而NLP研究人员则更多地关注数据驱动和嵌入方法。在本文中,我们描述了LegalAI研究的历史、现状和未来方向。我们从法律专业人员和NLP研究人员的角度说明了任务,并展示了LegalAI中的几种代表性应用。我们进行实验,并对现有作品的优缺点进行深入分析,以探索可能的未来方向。你可以从以下位置找到我们工作的实施https://github.com/thunlp/CLAIM。
法律智能(LegalAI)主要致力于应用人工智能技术来协助法律任务。该领域的大多数资源都以文本形式显示,例如判决文件、合同和法律意见。因此,大多数LegalAI任务都基于自然语言处理(NLP)技术。
LegalAI在法律领域起着重要作用,因为它们可以减少法律专业人员的繁重工作。法律领域的许多任务需要法律从业人员的专业知识以及对各种法律文件的透彻理解。检索和理解法律文档需要花费大量时间,即使对于法律专业人员而言也是如此。因此,合格的LegalAI系统应该减少这些繁琐工作的时间消耗,并使法律制度受益。此外,LegalAI还可以为那些不熟悉法律领域的人提供可靠的参考,作为负担得起的法律援助形式。
为了促进LegalAI的发展,在过去的几十年中,许多研究人员付出了巨大的努力。早期作品(Kort, 1957; Ulmer, 1963; Nagel, 1963; Segal, 1984; Gardner, 1984)由于当时的计算限制而总是使用手工制作的规则或特征。近年来,随着深度学习的飞速发展,研究人员开始将深度学习技术应用于LegalAI。已经提出了几个新的LegalAI数据集(Kano et al., 2018; Xiao et al., 2018; Duan et al., 2019; Chalkidis et al., 2019b,a),可以用作该领域研究的基准。基于这些数据集,研究人员开始探索针对各种LegalAI任务的基于NLP的解决方案,例如法律判决预测(Aletras et al., 2016; Luo et al., 2017; Zhong et al., 2018; Chen et al., 2019)、法院视图生成(Ye et al., 2018)、法人实体识别与分类(Cardellino et al., 2017; ANGELIDIS et al., 2018)、法律问答(Monroy et al., 2009; Taniguchi and Kano, 2016; Kim and Goebel, 2017))、法律摘要(Hachey and Grover, 2006; Bhattacharya et al., 2019)。
如前所述,多年来研究人员的努力导致LegalAI取得了巨大进步。总而言之,一些工作集中在基于符号的方法上,该方法将可解释的手工符号应用于法律任务(Ashley, 2017; Surden, 2018)。同时,基于嵌入方法的其他努力旨在设计有效的神经模型以实现更好的性能(Chalkidis and Kampas, 2019)。更具体地说,基于符号的方法更侧重于利用可解释的法律知识对法律文件中的符号进行推理,例如事件和关系。同时,基于嵌入的方法尝试学习潜在特征以从大规模数据进行预测。这两种方法之间的差异在LegalAI的现有作品中引起了一些问题。可解释的符号模型是无效的,而性能更好的嵌入方法往往无法解释,这可能给法律体系带来道德问题,例如性别偏见和种族歧视等。这些缺点使得现有的方法难以适用于现实世界的法律体系。
我们总结了LegalAI中基于嵌入和基于符号的方法的三个主要挑战:(1)知识建模。法律文本已经形式化,在LegalAI中有很多领域知识和概念。如何利用法律知识具有重要意义。 (2)法律推理。尽管NLP中的大多数任务都需要推理,但是LegalAI任务还是有所不同,因为法律推理必须严格遵循法律中明确定义的规则。因此,将预定义规则和AI技术相结合对于法律推理至关重要。此外,复杂的案例场景和复杂的法律规定可能需要更复杂的推理来进行分析。 (3)可解释性。 LegalAI中做出的决定通常应该可以解释为适用于实际的法律体系。否则,公平性可能会受到损害。在LegalAI中,可解释性与性能一样重要。
这项工作的主要贡献归纳如下:(1)我们从NLP研究人员和法律专业人员的角度描述现有作品。此外,我们举例说明了几种基于嵌入和基于符号的方法,并探讨了LegalAI的未来方向。 (2)我们详细描述了三种典型的应用程序,包括判决预测、类案匹配和法律问答,以强调这两种方法对于LegalAI必不可少的原因。 (3)我们在多个数据集上进行了详细的实验,以探索如何利用NLP技术和法律知识来克服LegalAI中的挑战。你可以从github找到实现。 (4)总结LegalAI数据集,可以作为相关任务的基准。这些数据集的详细信息可以从github上找到,其中有几本值得一读的法律论文。
首先,我们在LegalAI中描述基于嵌入的方法,也称为表征学习。基于嵌入的方法强调在嵌入空间中表示法律事实和知识,并且可以将深度学习方法用于相应的任务。
字符和词嵌入在NLP中起着重要作用,因为它可以将离散文本嵌入到连续向量空间。事实证明,许多嵌入方法都是有效的(Mikolov et al., 2013; Joulin et al., 2016; Pennington et al., 2014; Peters et al., 2018; Yang et al., 2014; Bordes et al., 2013; Lin et al., 2015),它们对于下游任务的有效性至关重要。
在LegalAI中,嵌入方法也很重要,因为它们可以弥合文本和矢量之间的差距。但是,似乎不可能直接从一些法律事实描述中学习专业术语的含义。现有作品(Chalkidis and Kampas, 2019; Nay, 2016)主要围绕将现有的嵌入方法(如Word2Vec)应用于合法领域语料库。为了克服学习专业词汇表述的困难,我们可以尝试在词嵌入中捕获语法信息和法律知识,以完成相应的任务。知识建模对LegalAI至关重要,因为许多结果应根据法律规则和知识来决定。
尽管法律领域的知识图谱谱方法很有前途,但在实际应用之前仍存在两个主要挑战。首先,LegalAI中知识图谱的构建很复杂。在大多数情况下,没有现成的法律知识图谱可用,因此研究人员需要从头开始构建。此外,不同法律概念在不同国家法律制度下的表述和含义不同,这也给构建一般法律知识图谱谱带来了挑战。一些研究人员试图嵌入法律词典(Cvrcˇek et al. , 2012),这可以被视为替代方法。其次,广义法律知识图谱的形式与NLP中常用的形式不同。现有的知识图谱关系到实体与概念之间的关系,但是LegalAI则更多地关注法律概念的解释。这两个挑战通过嵌入LegalAI使得知识建模变得不容易,研究人员可以在将来尝试克服这些挑战。
像BERT这样的预训练语言模型(PLMs)(Devlin et al., 2019)一直是NLP许多领域的最新关注点(Radford et al., 2019; Yang et al., 2019; Liu et al., 2019a)。鉴于PLMs的成功,在LegalAI中使用PLMs也是一个非常合理和直接的选择。但是,现有PLMs使用的文本与法律文本之间存在差异,这也直接导致将PLMs应用于法律任务时导致性能不理想。差异源于法律文本所涉及的术语和知识。为了解决这个问题,Zhong et al. (2019b)提出了一种针对中国法律文件(包括民事和刑事案件文件)进行预训练的语言模型。特定于法律域的PLMs为LegalAI的任务提供了更为合格的基准系统。我们将展示几个实验,以比较LegalAI任务中的不同BERT模型。
对于LegalAI中PLMs的未来探索,研究人员可以将更多目标放在将知识集成到PLMs中。将知识集成到预训练的模型中可以帮助提高法律概念之间的推理能力。关于将来自一般领域的知识整合到模型中的工作很多(Zhang et al., 2019; Peters et al., 2019; Hayashi et al., 2019)。还可以考虑将此类技术将来用于LegalAI。
在本节中,我们描述基于符号的方法,也称为结构化预测方法。基于符号的方法涉及将合法域符号和知识用于LegalAI的任务。诸如事件和关系之类的象征性法律知识可以提供可解释性。深度学习方法可用于基于符号的方法,以获得更好的性能。
信息抽取(IE)已在NLP中得到了广泛的研究。IE强调从文本中抽取有价值的信息,并且许多NLP作品都集中在IE上,包括命名实体识别(Lample et al., 2016; Kuru et al., 2016; Akbik et al., 2019)、关系抽取(Zeng et al., 2015; Miwa and Bansal, 2016; Lin et al., 2016; Christopoulou et al., 2018)和事件抽取(Chen et al., 2015; Nguyen et al., 2016; Nguyen and Grishman, 2018)。
LegalAI中的IE也吸引了许多研究人员的兴趣。为了更好地利用法律文本的特殊性,研究人员尝试使用本体论(Bruckschen et al., 2010; Cardellino et al., 2017; Lenci et al., 2009; Zhang et al., 2017)或全局一致性(Yin et al., 2018)。为了从法律文件中抽取关系和事件,研究人员尝试应用不同的NLP技术,包括手工规则(Bartolini et al., 2004; Truyens and Eecke, 2014)、CRF(Vacek and Schilder, 2017)以及联合模型,类似SVM、CNN、GRU(Vacek et al., 2019)或无标度标识符网络(Yan et al., 2017)获得可喜的结果。
现有的工作已经为提高IE的效果做出了很多努力,但是我们需要更加注意抽取信息的好处。抽取的符号具有法律依据,可以为法律申请提供解释性,因此我们不能仅仅针对方法的性能。在这里,我们展示了两个示例,这些示例利用抽取的符号实现LegalAI的可解释性:
关系抽取与继承纠纷。继承纠纷是民法中的一种案件,主要关注继承权的分配。因此,确定当事人之间的关系至关重要,因为与死者关系最密切的人可以获得更多的资产。为了实现这一目标,继承纠纷案件中的关系抽取可以提供判断结果的理由并提高绩效。
刑事案件的事件时间线抽取和判决预测。在刑事案件中,多方往往参与集体犯罪。为了确定谁应该对犯罪负主要责任,我们需要确定每个人在整个案件中都做了什么,这些事件的顺序也很重要。例如,在与人群打架的情况下,首先打架的人应承担主要责任。结果,需要一个合格的事件时间线抽取模型来对刑事案件的判断进行预测。
在未来的研究中,我们需要更多地关注将抽取的信息应用于LegalAI的任务。此类信息的使用取决于特定任务的要求,并且该信息可以提供更多的可解释性。
除了一般NLP中的那些常见符号外,LegalAI还具有其专有符号,称为法律要素。法律要素的抽取着重于抽取关键要素,例如某人被杀还是被盗。这些要素被称为犯罪的构成要素,我们可以根据这些要素的结果直接定罪。利用这些要素,不仅可以将中间监督信息带入判决预测任务,而且可以使模型的预测结果更具可解释性。
为了对基于要素的符号进行更深入的分析,Shu et al. (2019) 提出了一个数据集,用于从三种不同类型的案例中抽取要素,包括离婚纠纷、劳资纠纷和贷款纠纷。数据集要求我们检测相关要素是否满足,并将任务形式化为多标签分类问题。为了显示现有方法在要素抽取上的性能,我们对数据集进行了实验,结果见表2。
我们已经在NLP中实现了几种经典的编码模型以进行要素抽取,包括TextCNN(Kim, 2014)、DPCNN((Johnson and Zhang, 2017)、LSTM(Hochreiter and Schmidhuber, 1997)、BiDAF(Seo et al., 2016)和BERT(Devlin et al., 2019)。我们尝试了BERT的两种预训练参数的不同版本,包括原始参数(BERT)和在中国法律文档中预训练的参数(BERT-MS)(Zhong et al., 2019b)。从结果可以看出,在通用域上预训练的语言模型比特定域的PLM表现差,这证明了LegalAI中PLM的必要性。对于本文的以下部分,我们将在法律文档上使用经过预训练的BERT,以提高性能。
从要素抽取的结果可以发现,现有方法在要素抽取上可以达到有希望的性能,但仍不足以用于相应的应用。这些要素可以被视为预定义的法律知识,并有助于完成下游任务。如何提高要素抽取的性能对进一步研究具有重要意义。
在本节中,我们将描述LegalAI中的几种典型应用程序,包括法律判决预测、类似案例匹配和法律问答。在大陆法系和普通法系中,法律判决预测和类似案件匹配可以被视为判决的核心功能,而法律问答系统可以为不熟悉法律领域的人提供咨询服务。因此,探索这三个任务可以涵盖LegalAI的大多数方面。
法律判决预测(LJP)是LegalAI中最关键的任务之一,尤其是在民法体系中。在民法体系中,判决结果是根据事实和法定条款决定的。只有在他或她违反了法律规定的禁止行为之后,才会受到法律制裁。 LJP的任务主要涉及如何根据案件的事实说明和民法体系中法定条款的内容来预测判决结果。
因此,LJP在具有法国、德国、日本和中国等具有大陆法系的国家中是一项重要的代表任务。此外,LJP还吸引了人工智能研究人员和法律专业人员的广泛关注。在以下部分中,我们将描述LJP的研究进展并探讨其未来的发展方向。
LJP历史悠久。早期的工作围绕使用数学或统计方法分析特定情况下的现有法律案件(Kort, 1957; Ulmer, 1963; Nagel, 1963; Keown, 1980; Segal, 1984; Lauderdale and Clark, 2012)。数学方法和法律规则的结合使预测结果可解释。
为了促进LJP的发展,Xiao et al. (2018)提出了一个大规模的中国刑事判决预测数据集C-LJP。该数据集包含中国政府发布的268万份法律文件,这使C-LJP成为LJP的合格基准。 C-LJP包含三个子任务,包括相关条款、适用费用和处罚期限。前两个可以形式化为多标签分类任务,而最后一个是回归任务。此外,英语LJP数据集也存在((Chalkidis et al., 2019a),但规模有限。
随着神经网络的发展,许多研究人员开始使用深度学习技术来探索LJP(Hu et al., 2018; Wang et al., 2019; Li et al., 2019b; Liu et al., 2019b; Li et al., 2019a; Kang et al., 2019)。这些作品可以分为两个主要方向。第一个是使用更多新颖的模型来提高性能。Chen et al. (2019) 使用门控机制来增强预测刑期的性能。 Pan et al. (2019) 建议多尺度注意力,以处理多名被告的案件。此外,其他研究人员探索了如何利用法律知识或LJP的属性。Luo et al. (2017) 使用事实和法律条款之间的注意力机制来帮助预测适用的费用。Zhong et al. (2018) 提出了一种拓扑图,以利用LJP不同任务之间的关系。此外,Hu et al. (2018) 结合了十种判别法律属性,以帮助预测低频费用。
为了更好地了解LJP的最新进展,我们对C-LJP进行了一系列实验。首先,我们实现了几种经典的文本分类模型,包括TextCNN(Kim,2014)、DPCNN(Johnson and Zhang,2017)、LSTM(Hochreiter and Schmidhuber,1997)和BERT(Devlin et al. , 2019)。对于BERT的参数,我们在中国刑事案件中使用了预训练的参数(Zhong et al. 2019b)。其次,我们实现了几种专为LJP设计的模型,包括FactLaw(Luo et al. 2017),TopJudge(Zhong et al. 2018)和Gating Network(Chen et al. 2019)。结果见表4。
从结果中我们可以了解到,大多数模型在预测高频费用或条款方面可以达到有希望的性能。但是,由于在micro-F1和 macro-F1之间存在间隙,因此这些模型在低频标签上的效果不佳。 Hu et al.(2018)探索了LJP的few-shot learning方法。但是,他们的模型需要手动标记的其他属性信息,这很耗时,并且很难在其他数据集中使用该模型。此外,我们发现BERT的性能不能令人满意,因为它与参数较少的那些模型相比并没有太大的改进。主要原因是合法文本的长度很长,但是BERT可以处理的最大长度为512。据统计,最大文档长度为56,694,而15%的文档长度超过512。LJP需要文档理解和推理技术。
尽管基于嵌入的方法可以实现良好的性能,但在LJP中,我们仍然需要考虑将基于符号的方法与基于嵌入的方法相结合。以TopJudge为例,该模型将LJP(基于符号的部分)中任务之间的拓扑顺序形式化,并使用TextCNN对事实描述进行编码。通过结合基于符号和基于嵌入的方法,TopJudge在LJP上取得了可喜的成果。比较TextCNN和TopJudge之间的结果,我们发现仅将判断顺序集成到模型中就可以带来改进,这证明了将基于嵌入的方法和基于符号的方法相结合的必要性。
为了提高LJP的性能,一些挑战需要研究人员未来的努力:(1)需要文档理解和推理技术,才能从非常长的法律文本中获取全球信息。 (2)Few-shot learning。即使是低频费用也不容忽视,因为它们是法律完整性的一部分。因此,处理不频繁的标签对于LJP至关重要。 (3)可解释性。如果我们想将方法应用于真实的法律体系,我们必须了解它们如何做出预测。但是,现有的基于嵌入的方法只能用作黑匣子。哪些因素影响了他们的预测仍然未知,这可能会向法律体系引入不公平和道德问题,例如性别偏见。引入前面提到的法律符号和知识将有利于LJP的可解释性。
在美国、加拿大和印度等拥有英美法系的国家,司法裁决是根据过去的类似案件和具有代表性的案件作出的。结果,如何确定最相似的案件是普通法体系判断中的首要问题。
为了更好地预测普通法系统中的判决结果,类案匹配(SCM)已成为LegalAI的重要主题。 SCM专注于查找相似案例对,相似性的定义可以多种多样。 SCM需要从不同粒度的信息(例如事实级、事件级和要素级)对案例之间的关系进行建模。换句话说,SCM是语义匹配的一种特殊形式(Xiao et al., 2019),可以使法律信息检索受益。
信息检索(IR)的传统方法着重于与统计模型的术语级相似性,包括TF-IDF(Salton and Buckley,1988)和BM25(Robertson and Walker,1994),它们在当前的搜索系统中得到了广泛应用。除了这些术语匹配方法外,其他研究人员还尝试利用元信息(Medin, 2000; Gao et al., 2011; Wu et al., 2013)来捕获语义相似性。许多机器学习方法也已应用于IR,如SVD(Xu et al., 2010)或因式分解(Rendle,2010;Kabbur et al., 2013)。随着深度学习技术和NLP的飞速发展,许多研究人员应用了神经模型,包括多层感知器(Huang et al., 2013)、CNN(Shen et al., 2014; Hu et al., 2014; Qiu and Huang,2015)和RNN(Palangi et al., 2016)。
有多个LegalIR数据集,包括COLIEE(Kano et al., 2018)、CaseLaw(Locke and Zuccon,2018)和CM(Xiao et al., 2019)。 COLIEE和CaseLaw都参与从大型语料库中检索最相关的文章,而CM中的数据示例提供了三个用于计算相似性的法律文件。这些数据集为LegalIR研究提供了基准。许多研究人员致力于构建易于使用的法律搜索引擎(Barmakian,2000; Turtle,1995)。他们还探索利用更多信息,包括引文(Monroy et al., 2013; Geist, 2009; Raghav et al., 2016)和法律概念(Maxwell and Schafer, 2008; Van Opijnen and Santos, 2017)。为了达到在语义水平上计算相似度的目标,深度学习方法也已应用于LegalIR。 Tran et al.,(2019)提出了一个基于CNN的模型,该模型具有文档和句子级的合并功能,可以在COLIEE上获得最新的结果,而其他研究人员则探索了对LegalIR采用更好的嵌入方法(Landthaler et al., 2016; Sugathadasa et al., 2018)。
为了更好地了解LegalIR的当前进展,我们选择CM(Xiao et al., 2019)进行实验。 CM包含8,964个三元组,其中每个三元组包含三个法律文件(A,B,C)。 CM中设计的任务是确定B还是C与A更相似。我们已经实现了四种不同类型的基准:(1)术语匹配方法TF-IDF(Salton and Buckley,1988)。 (2)具有两个参数共享编码器的孪生神经网络,包括TextCNN(Kim,2014)、BiDAF(Seo et al., 2016)和BERT(Devlin et al., 2019),以及一个距离函数。 (3)句子级ABCNN(Yin et al., 2016)和文档级SMASH-RNN(Jiang et al., 2019)的语义匹配模型。结果见表5。
从结果可以看出,现有的能够捕获语义信息的神经模型的性能优于TF-IDF,但是对于SCM而言,性能仍然不够。如Xiao et al. (2019)指出,主要原因是法律专业人员认为该数据集中的要素定义了法律案件的相似性。法律专业人员将强调两个案件是否具有相似的内容。仅考虑术语级和语义级的相似性不足以完成任务。
对于SCM的进一步研究,有两个方向需要进一步努力:(1)基于要素的表示。研究人员可以将更多精力放在法律文件的符号上,因为法律案件的相似性与这些符号(如要素)有关。 (2)知识整合。由于语义级的匹配不足以支持SCM,因此我们需要考虑将法律知识纳入模型以提高性能并提供可解释性。
LegalAI的另一个典型应用是法律问答(LQA),旨在回答法律领域中的问题。法律专业人员工作中最重要的部分之一就是为非专业人员提供可靠和高质量的法律咨询服务。但是,由于法律专业人员的数量不足,确保非专业人员的工作通常具有挑战性可以获得足够的高质量咨询服务,LQA有望解决此问题。
在LQA中,问题的形式各不相同,因为某些问题将重点放在对某些法律概念的解释上,而其他问题可能涉及对特定案例的分析。此外,专业人员和非专业人员之间的问题表达方式也可能大不相同,尤其是在描述特定领域的术语时。这些问题给LQA带来了巨大挑战,我们通过实验在以下部分中更好地证明LQA的困难。
在LegalAI中,有许多问答数据集。Duan et al. (2019) 提出了CJRC,一种合法的阅读理解数据集,格式与SQUAD 2.0(Rajpurkar et al. 2018)相同,其中包括跨度抽取,是/否问题和无法回答的问题。此外,COLIEE(Kano et al. 2018)包含约500个是/否问题。此外,bar exam是律师的专业资格考试,因此bar exam数据集(Fawei et al. 2016; Zhong et al. 2019a)可能非常困难,因为它们需要专业的法律知识和技能。
除了这些数据集,研究人员还研究了LQA的许多方法。基于规则的系统(Buscaldi et al. 2010; Kim et al. 2013; Kim and Goebel,2017)在早期研究中很普遍。为了获得更好的性能,研究人员利用更多的信息,例如概念的解释(Taniguchi and Kano, 2016; Fawei et al., 2015)或将相关文档形式化为图表以帮助推理(Monroy et al., 2009, 2008; Tran et al., 2013)。机器学习和深度学习方法,例如CRF(Bach et al., 2017)、SVM(Do et al., 2017)和CNN(Kim et al., 2015))也已应用于LQA。但是,大多数现有方法都是在小型数据集上进行实验,因此不一定适用于海量数据集和真实场景。
我们选择JEC-QA(Zhong et al., 2019a)作为实验数据集,因为它是从bar exam中收集到的最大数据集,这保证了它的难度。JEC-QA包含28,641个多项选择题和多项答案问题,以及79,433条相关文档,以帮助回答这些问题。 JEC-QA将问题分为知识驱动的问题(KD-问题)和案例分析问题(CA-问题),并报告人的表现。我们实现了几种代表性的问答模型,包括BiDAF(Seo et al., 2016)、BERT(Devlin et al., 2019)、Co-matching(Wang et al., 2018)和HAF(Zhu et al., 2018)。 )。实验结果见表6。
从实验结果可以看出,与开放域问答中的有希望的结果相比,这些模型不能很好地回答法律问题,并且现有模型与LQA中的人员之间仍然存在巨大差距。
对于更合格的LQA方法,有几个要克服的重大困难:(1)合法的多跳推理。作为Zhong et al. (2019a) 指出,现有模型可以执行推理,但不能执行多跳推理。但是,法律案件非常复杂,无法通过单步推理来处理。 (2)法律概念理解。我们可以发现,几乎所有模型在案例分析上都比知识理解更好,这证明了知识建模对于现有方法仍然具有挑战性。如何为LQA建立法律知识模型至关重要,因为法律知识是LQA的基础。
在本文中,我们描述了各种LegalAI任务的发展状况,并讨论了我们将来可以做什么。除了我们已经提到的这些应用程序和任务外,LegalAI中还有许多其他任务,例如法律文本摘要和从法律合同中抽取信息。但是,无论是哪种应用程序,我们都可以应用基于嵌入的方法以实现更好的性能,同时可以应用基于符号的方法以提高解释性。
此外,法律任务的三个主要挑战仍有待解决。知识建模、法律推理和可解释性是LegalAI能够可靠地为法律领域服务的基础。一些现有的方法正在尝试解决这些问题,但是研究人员还有很长的路要走。
将来,对于这些现有任务,研究人员可以专注于解决LegalAI的三个最紧迫的挑战,这些挑战将基于嵌入的方法和基于符号的方法相结合。对于还没有数据集或数据集不够大的任务,我们可以尝试构建大规模、高质量的数据集,或者使用few-shot 或 zero-shot方法解决这些问题。
此外,我们需要认真对待LegalAI的道德问题。将LegalAI的技术直接应用于法律体系会带来诸如性别偏见和种族歧视之类的伦理问题。这些方法给出的结果不能说服人们。为了解决这个问题,我们必须注意LegalAI的目标不是取代法律专业人员,而是帮助他们的工作。因此,我们应仅将模型的结果作为参考。否则,法律制度将不再可靠。例如,专业人员可以将更多时间用于复杂案例,而将简单案例留给模型。但是,为了安全起见,必须对这些简单的案例进行审查。一般而言,LegalAI应该作为帮助法律体系的支持者。