信息抽取旨在从大规模非结构化或半结构化的自然语言文本中抽取结构化信息。关系抽取是其中的重要子任务,主要目的是从文本中识别实体并抽取实体之间的语义关系。
比如有下面的文本:
International Business Machines Corporation (IBM or the company) was incorporated in the State of New York on June 16, 1911.
我们希望获得如下三元组,即关系:
可以想象,关系抽取在构建知识图谱方面发挥了重要作用:比如在已有的知识库上,继续挖掘文本获取新的知识,增强知识库;又比如通过挖掘垂直领域的文本,构建垂直领域的知识库(医学,化学等领域)。
基于KG,我们可以展开上层应用,比如问答,推理。对于下面的问句:
The granddaughter of which actor starred in the movie "E.T."?
可以被转换为下面的逻辑表达:
(acted-in ?x "E.T.") && (is-a ?y actor) && (granddaughter-of ?x ?y)
其中,?x和?y都表示未知的实体,acted-in这类表示关系,&&为三元组的逻辑连接
最终答案会从KG中,结合上面的逻辑表达计算得到。
关系抽取方法可以分为:基于模式,全监督,远程监督,无监督。默认的关系抽取是已经从文本中识别出实体,然后基于实体和文本进一步发现关系。而对于目前的深度学习方法,一些方法是直接从文本中获得实体和关系。
基于模式的抽取:通过定义关系在文本中表达的字符,语法或者语义模式,将模式与文本的匹配作为主要手段,来实现关系实例的获取。
基于字符模式的抽取:
关系:作品-作者
模板:{$1}是现代文学家{$2}的散文集
应用:朝花夕拾是现代文学家鲁迅的散文集
关系:作品-原名
模板:{$1}原名{$2}
应用:朝花夕拾原名旧事重提
可以看出,基于模式的方法是很不鲁棒的,这种方法只能用于有固定描述模式的内容,比如商品信息中的infobox。
基于语法模式的抽取:通过引入文本所包含的语法信息来描述抽取模式,可以增强模式的表达能力。
总之,基于模式的方法在小规模数据上容易实现,但是召回率很低,难以维护,移植性差。
前提是:需要带有关系标签的大量实体对,然后应用深度学习方法或者经典机器学习方法进行建模,用于表征关系与实体对的关联。
对于一个文本:American Airlines
, a unit of AMR, immediately matched the move, spokesman Tim Wagner
said.
已知两个实体(mention):M1-American Airlines
和M2-Tim Wagner
。
两个实体M1和M2和两者之间有如下特征:
在依存句法分析中,认为句子中,一个词总是修饰另一个词,称修饰词为从属词,被修饰词称为支配词,两者之间的语法关系为依存关系。在依存句法分析中,总有个标记root,root对应不修饰任何词的词。
深度学习方法可以分为两类:
在LSTM-RNNs中,使用Bi-LSTM做NER,使用Bi-TreeLSTM结合NER识别关系:
远程监督于2009年提出,核心假设为:如果某两个实体存在确定的某一关系,那么所有包含这两者的句子都表达了这一关系。很容易发现,经过远程监督得到的数据很容易包含噪声。因此后来得到改进:
在这个假设下,为了区分关系和噪声,出现了多实例学习:一个实体对的关系是已知的,存在这些实体对的句子样本集合为 bag,这些句子中至少有一个句子表达了已知的关系。于是,在监督学习的场景下,从多个句子中只挑出最靠谱的一个句子,作为这个实体对的样本加入到训练中,训练关系抽取模型。
半监督和无监督的效果其实不好,其核心是依据语义相似性来分类关系,一般还是使用全监督方法或者远程监督方法。
基于pyltp(https://github.com/HIT-SCIR/pyltp)的关系抽取举例,pyltp 是 语言技术平台Language Technology Platform即LTP的 Python 封装:
原句 贝拉克·侯赛因·奥巴马的身世复杂,1961年8月4日出生在美国夏威夷州檀香山市,父亲是来自肯尼亚的留学生,母亲是堪萨斯州白人。
主语谓语宾语关系 (父亲, 是, 来自肯尼亚留学生)
定语后置动宾关系 (留学生, 来自, 肯尼亚)
主语谓语宾语关系 (母亲, 是, 堪萨斯州白人)