文 | Severus
大家好,我是Severus,一个致力于做好中文自然语言理解的老程序员。
一年前,我在萌屋的第一篇推文(在错误的数据上,刷到 SOTA 又有什么意义?)中,重点讲述了关系抽取任务所面临的数据质量困境。但在当时,我也不得不承认,即便我将问题点出,大家也都同意这个痛点,我们也仍旧没有好的方法去批量构造高质量的数据,这也给我的下一步工作带来了很大的困难。
继续回归远监督?那么就又要面对无尽的数据清洗工作,以及面对知识库未收录的数据时,仍会出现的大量缺失。而远监督之外的规则?中文又没有相对应的解析结构能够指导我们产出更好的数据。
即便困难重重,我们也没有放弃探索。时隔一年,我们终于想明白了其中的一些问题,以及做出了一些成果,在这篇推文中,分享给大家。
首先上效果:
实际上,使用远监督来做数据的关系抽取任务,虽然其出发点未必如此,但皆可看作是 schema 预测任务。这也出于在任务定义时,总想要一步到位,做得“优雅”。如:两个人结婚,则直接要求模型预测“妻子”与“丈夫”的关系;一个人唱了一首歌,则要求模型预测这个人的职业是歌手等。由此,则衍生了一些伪命题,如所谓重叠关系问题等。
而正如我所讲,这些答案看似合理,但这种“合理”不过是我们预先知道了事实之后,所感受到的一种错觉。实际上,如果完全使用任务文本中的自然语义,哪怕是抽取后加入逻辑推断,有些答案也无法得出(比如,唱过歌的人不一定是歌手,结婚的人也很难分辨妻子丈夫关系)。那么,任务中所要求的答案,多数则是需要其他的事实知识辅助推断得出,而从技术上,我们又无法假定,模型能够精准记住、使用世界上所有的事实知识(又或者说这件事是不可能的,首先收录不可能完全,同时统计模型会泛化),也就是说,理想化的逻辑推断几乎是不可能存在于统计模型之中的。那么,schema 预测则一定会导向不合理的泛化。
如这段文本:克里斯汀·斯图尔特与相恋7年的女友订婚
如果模型没有预先记住克里斯汀·斯图尔特的性别,则很容易得到由 schema 预测其他答案时,泛化得到 <克里斯汀·斯图尔特,性别,男> 这一关系,而实际上……
所以,我一直主张的是,关系抽取任务应当回归到自然语义中,即答案完全从输入文本中触发得到。需要基于推断得到的关系,放到任务特化的推理步骤进行。
即,“克里斯汀·斯图尔特与相恋7年的女友订婚”这段文本中,关系抽取模块仅抽取:<克里斯汀·斯图尔特,订婚,女友>,而 <克里斯汀·斯图尔特, 性别,?> 由推理模块结合其他信息完成。
最近我司与中科院共同发表的 UIE,则是给出了一种使用 DNN 模型从自然语义中做信息抽取的实例,其模型思路上和我的解法大同小异,而其最大的难题仍旧是,如何构造出准确又全面的训练数据。
实际上,想要得到大规模的训练样本,最简便的方法,就是整合各大已有数据集,无论是公开的,还是非公开的。但是多源数据集整合的过程中,则必然会存在一个问题:数据集标准不一致问题。例如,“苏里南”这一 mention,可能在A数据集中被标为“世界地区”,在B数据集中被标为“国家”。或 schema 定义不一致,A数据集中只定义了“所属”,而B数据集中定义了“首都”。
同样的头尾实体,相似触发的文本,如果最终的答案不一致,则会对统计模型造成很大的困惑。
而这样的问题,每增加一份数据集,每切换一次领域,则需要重新面对一次,而如果是 model-centric 地做这个任务,又不会想要花大力气在任务数据上,可造成的结果又是随着数据规模的扩大,trick 也会不断增加,反倒消耗了很多的精力。
所以,我们决定设计一个方法,能够简单、灵活配置,并较准确地抽取出文本中的已配置关系(它一定是一个规则的)。而首先,我们就先要有一个中文文本的解析表示方法,将中文无限的词和表达方式收拢到有限的表示模式中,从而至少实现配置可枚举的体系。
之前的推文中,我提到过,中文和英文存在很大的区别。具体来讲,中文相比于英文,存在以下特性:
类有定职则词无定类:即如果将句子中每一个词与句子中的成分对应起来,则一个词可能会有多个词性
词有定类则类无定职:如果将一个词固定为一个词性,则该词性的功能不稳定
这个特性也就决定了,纯语法结构的词类体系无法适用于中文,也就是说,词性标注、依存结构树等英文解析方法无法完全适用于中文。所以我们也只能重新去设计中文的解析体系。
所幸,中文语言学的先辈们早已给出了分类的准则,即按照实词与虚词分别划分,具体的划分准则为:
凡本身能表示一种概念者,叫做实词,其分类当以概念的种类为根据
凡本身不能表示一种概念者,叫做虚词,其分类当以其在句中的职务为根据
所以,我们根据语义划分实词,根据语法划分虚词,最终得到了一个中文词类的全划分体系,同时训练得到一个中文词类标注工具,其展示效果如下:
至此,我们的关系抽取工具的先决条件算是大体完成。
搞定了上述的词类划分及文本标注后,我们相当于已实现将无限的词收拢到了有限的词类体系中,接下来,而待抽取的关系,则变成了仅发生在词类与词类之间,便可以枚举出来。例如,人物类_实体
与作品类_实体
之间的关系可以是“创作”,而“创作”的触发词(如作词、作曲、演唱、执导、出演等)或触发pattern,则可以通过知识库枚举得到,如此,则实现了灵活配置。
那么,接下来一个问题则是,我们如何从现在的序列解析结果中,得到关系三元组数据呢?
要解决这个问题,我们依旧要从中文语言学的成果中寻找答案:==中文更偏孤立语,注重意合,依靠词序和词之间的意义联系成句,词性、句法特征弱==。也就是说,我们在解析的时候,可以尝试摒弃所谓句法特征,只是从次序上下手。于是,我们发现,只需要覆盖好 SPO 的几种常用表达顺序,单向搜索,即可覆盖大部分简单句。
例如,对于<张艺谋,创作,十面埋伏>
这一 SPO 三元组,常用表达顺序有如下几种:
S-P-O:张艺谋执导了《十面埋伏》。
S-O-P:张艺谋是《十面埋伏》的导演。
O-S-P:《十面埋伏》是张艺谋执导的电影。
O-P-S:《十面埋伏》的导演是张艺谋。
然而,这种模式仍然过于复杂,如遇到多组 SPO 关系并存的文本,如果要完全照顾到这四种表达顺序,则很容易发生混乱,难以得到严格对应的三元组。所以,我们设计了互反关系,即头实体和尾实体对调后,对应的反向关系。例如三元组<张艺谋,创作,十面埋伏>
,则存在一个反向三元组<十面埋伏,创作者,张艺谋>
。那么,当我们找到一个头实体之后,只需要考虑它之后的部分(即 S-P-O
和 S-O-P
两种表达顺序)就行了。
同时,我们部分参考了英文语法中,关于屈折词的定义。即屈折词本身,定义了其作用范围。我们也认为,触发词不仅定义了语义,同时也定义了触发方向,所以部分触发词我们也配置了其尾实体搜索方向,进一步提升精度。
另外,我们认为,规范表达中,关系触发和尾实体一定实在同一个短语中出现,所以,触发关系之后,寻找尾实体的过程中,我们仅搜索与触发在同一个短语中的实体及相关元素。
于是,参考了语言学先辈们总结的中文规律,使用以上的解析体系,我们用纯规则的方法,做出来了这样一个可简单配置的信息抽取工具,可以用来方便地产出信息抽取样本,无论是用于微调前段时间发布的 UIE,还是直接用于领域文档抽取,相信都可以是个有力的工具。
这个工具叫做 WordTag-IE,现已在 PaddleNLP 中开源。
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge
在文章的开头,我的自我介绍是“致力于做好中文自然语言理解”,诚然,自然语义中的信息抽取,是能够表明语言理解能力的,我们也认为,做文本标注的下一步,就是做信息抽取。因此,我们发布了WordTag-IE。
但是,我们现在也发现,即使信息抽取工具优化到理想态(无论是UIE这类的模型工具,还是WordTag-IE这类的规则工具),其结果直接作为中文理解的特征,仍然是不够的。比如对话结构建模,或文本生成控制,所需要的信息不仅仅是 SPO 就能可以满足的。
所以,我们就开了一个脑洞,既然我们已经做了语义序列解析,那么能否更进一步,做出来一段文本的语义结构化解析结果呢?而这个结构化的结果,则可能可以真正发挥大用处,比如上文提到的对话结构建模、文本生成控制。因为,语义结构可以弥补 DNN 模型在长期记忆上的不够精准的短板,结构化数据既保证了信息全面,也更加适用于归一和检索,在需要长期记忆的场景下,能够快捷、精准地找到所需的信息,给 DNN 模型以必要的提示。
希望在不久的将来,我可以在这里,继续向小伙伴们报告我最新的成果。
Severus,在某厂工作的老程序员,主要从事自然语言理解方向,资深死宅,日常愤青,对个人觉得难以理解的同行工作都采取直接吐槽的态度。笔名取自哈利波特系列的斯内普教授,觉得自己也像他那么自闭、刻薄、阴阳怪气,也向往他为爱而伟大。
作品推荐
深度学习,路在何方?
数据还是模型?人类知识在深度学习里还有用武之地吗?
在错误的数据上,刷到 SOTA 又有什么意义?
加入卖萌屋NLP、CV、搜推广与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各大顶会论文集!