本文由知识图谱的结构构建,实体抽取,实体关系和属性抽取,知识图谱评估,知识图谱精炼六个部分组成。
包含了几个子任务:下位词获取(hyponym acquisition)、上位词预测(hypernym prediction)、结构归纳(taxonomy induction)。
一般来说,对于上/下位词的获取,我们可以通过两种方法从文档中提取知识。第一种是基于模式匹配的方法,使用模板对文本中的知识进行匹配,如使用正则表达式。第二种是使用分布式(distributional)的方法,使用词向量,句子向量对关系进行预测,而不是抽取,先获取种子数据,再 使用无监督或有监督模型获取更多的候选 Is-A 关系对。
参考论文:
1. Revisiting Taxonomy Induction over Wikipedia
2. Semantic Class Learning from the Web with Hyponym Pattern Linkage Graphs
对于结构归纳任务,前面介绍了从文本中抽取 Is-A 关系对,最后一步的工作就是如何把这些关系对数据做合并,构成完整的图谱。一般通过增量学习的方法,初始化一个 seed taxonomy,然后将新的 Is-A 数据往图上补充。而这个方向的研究就在于使用何种评价指标作为插入新数据的依据。
实体(短语)抽取指从文本中提取出目标实体的过程。早期使用基于规则的办法,用POS抽取文本中的短语作为实体。但是这种方法需要大量的人工标注,费时费力。现在主要使用了两种方式,无监督和弱监督方法,减少人工标注的工作。
使用频率模式与统计方法,基于文本挖掘来挖掘可能是实体的短语。数据无标签,通过计算短语的得分判断是否可以成为一个实体。用到的评分系统如计算凝固度和左右临字信息熵。
2014年韩家炜团队的学生Ahmed El-Kishky提出一种基于频繁模式挖掘和统计的方法TopMine,无监督的对语料进行Phrase Mining。这项工作的主要目的是对文本进行主题挖掘,在这篇论文中将主题挖掘分为两个步骤,第一步根据Phrase Mining抽取的结果对文本进行分割,第二部根据分割后的文本约束Topic模型。
参考论文:
1. Scalable Topical Phrase Mining from Text Corpora (TopMine)
2. How to incorporate phrases into Word2Vec – a text mining approach
SegPhrase:
韩教授的学生刘佳硉认为TopMine的方法是完全无监督的,那么是不是选用一些少量的带标签的数据,可能会在很大程度上提高抽取结果。其认为高质量的短语是可以优化分词结果的,而高质量的分词结果也可以优化phrase抽取的结果,将分词和高质量短语相结合。使用了短语切分的方式,修正短语中无用的部分。
原始计算频率时,并没有考虑真正分词的结果,只是统计词出现的频率,例如support vector machine出现了在预料中出现了100次,但是根据分词结果进行修正(rectified)后,其只出现了80次,同样的vector machine修正后只出现了6次。那么vector machine不算是一个phrase。
AutoPhrase:
远程监督学习定义:它既不是单纯的传统意义上的监督语料,当然也不是无监督。它是一种用知识图谱去对齐朴素文本的标注方法。使用知识图谱对齐文本数据中的实体,通过知识图谱中已有的实体信息从文本中提取对应的知识(一般是实体关系)。不过由于文本中的实体与知识图谱中的实体不存在语义对齐,所以在远程监督模型中负采样很重要。
2017年韩教授的学生商静波提出一种远程监督的方法进行Phrase Mining,AutoPhrase使用wiki或Freebase等数据构建高质量词典,代替SegPhrase人工打标签的过程。其在技术上以下两个创新点。
Robust Positive-Only Distant Training:使用wiki和freebase作为显眼数据,根据知识库中的相关数据构建Positive Phrases,根据领域内的文本生成Negative Phrases,构建分类器后根据预测的结果减少负标签带来的噪音问题。
POS-Guided Phrasal Segmentation:使用POS词性标注的结果,引导短语分词,利用POS的浅层句法分析的结果优化Phrase boundaries。
参考论文:
1. Mining Quality Phrases from Massive Text Corpora
2. Automated Phrase Mining from Massive Text Corpora
实体关系抽取是指从文本中找到两个实体(上下位词)并抽取其中关系的过程。
优点:利用远监督思想得到训练数据,可大大减轻标注工作;关系抽取准确率基本在85%以上。
缺点:实体识别的错误会传递到关系抽取过程中;同时,分开抽取,也没有充分的利用实体信息;负样本的选取也是决定着模型好坏。
参考论文:
1. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
2. Deep Residual Learning for Weakly-Supervised Relation Extraction
3. Classifying Relations by Ranking with Convolutional Neural Networks
4. RESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side Information
小结:word embedding + position embedding 成为输入层的标配。Attention和多实例学习的作用明显。图神经网络兼顾了语义和句法结构。
联合抽取模型的设计目的是希望在进行命名实体识别的同时,让实体信息辅助关系抽取,从而实现两个任务一体化。对于实体间关系的端到端(联合)提取,现有的模型都是基于特征的系统。这些模型包括结构化预测、整数线性规划、卡片金字塔解析和全球概率图形模型。其中,结构化预测方法在几个语料的表现较好。
优点:实体和关系抽取工作同时进行,关系抽取过程会充分利用实体信息。
缺点:模型复杂;基于英文公共数据集,最好模型的准确率只有64%,即只要实体识别准确率在80以上,那么远监督的准确率就会高于联合抽取模型。
参考论文:
1. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures
2. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
3. Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism
4. Adversarial training for multi-context joint entity and relation extraction
5. A Hierarchical Framework for Relation Extraction with Reinforcement Learning
联合抽取模型总结:模型复杂度高,时间空间代价较大。所有模型都致力于解决一对多的问题(重叠关系),并充分利用实体信息,不过效果较远监督模型有一定差距。
实际上,属性抽取较之关系抽取的难点在于,除了要识别实体的属性名还要识别实体的属性值,而属性值结构也是不确定的,因此大多研究都是基于规则进行抽取。
当然也有研究使用了一些机器学习模型对文本中的属性名进行序列标注,但这种方法的局限在于,实体属性实际上是非常丰富的,但模型除了需要标注数据,也无法cover多种多样的属性。
参考论文:
1. ReNoun-Fact Extraction for Nominal Attributes
2. MetaPAD-Meta Pattern Discovery from Massive Text Corpora
通过对文本内容的抽取,为实体筛选出描述性的句子或短语,就是实体定义的过程。一般来讲只要能针对实体生成正确描述性的句子即可,暂时对生成句子的质量不做评估。
任务:通过无监督学习抽取信息,包括生成候选集,扩展候选集,候选集打分和排序。
对于生成和扩展候选集,一般是基于规则的无监督方法,如Bootstrap,NER。
对于候选集打分,一般有TF-IDF,聚类,TruePIE,左右熵等方法。
参考论文:
1. Maps of random walks on complex networks reveal community structure
2. The map equation:https://www.mapequation.org/
3. Parameter-free Sentence Embedding via Orthogonal Basis
4. TruePIE: Discovering Reliable Patterns in Pattern-Based Information Extraction
构建好的知识图谱可能会有一些错误,主要集中在三元组的:
所以,需要对知识图谱的质量进行评估。根据SOTA,我们把质量评估问题转化为知识图谱精炼问题(refinement)。其中包括:知识图谱补全和知识图谱错误检测。
参考论文:
1. Knowledge graph reginement: A survey of approaches and evaluation methods
2. Triple Trustworthiness Measurement for Knowledge Graph
3. SCEF: A Support-Confidence-aware Embedding Framework for Knowledge Graph Refinement
Reference:
医疗健康文本的关系抽取和属性抽取
知识图谱构建技术综述与实践
谈谈医疗健康领域的Phrase Mining
如何为实体抽取描述性短语
抽取获得的知识图谱三元组该如何质检?