斯坦福NLP笔记47 —— What is Relation Extraction?

关系抽取的概念

假如有这样一个raw text:小明今年26岁,出生于日本北海道,身高180cm,相貌颇似金城武,外企高级白领,年净收入100万,爱好打篮球,但是喜欢男的。

关系抽取结果如下:

小明{

年龄:26

家乡:北海道

身高:180

帅否:帅

年收入:100万

爱好:篮球

性向:男

}

我们也可以用三元组的形式表达,如:

年龄(小明,26)

家乡(小明,南通)这样,看视频中的例子:

斯坦福NLP笔记47 —— What is Relation Extraction?_第1张图片

这里company-founding是一个实体,这个实体有company、location等几样关系,其实也就是属性的意思,triples的意思就是把这些关系用三元组的形式表达,譬如founding-year(IBM,1911)就表示Ibm的founding-year是1911年。


为什么需要抽取关系?

信息结构化、做问答系统等


应该抽取哪些关系?

ACE定义了17种关系,社会关系、从属关系、物理关系等,分别是:

斯坦福NLP笔记47 —— What is Relation Extraction?_第2张图片

几种关系的举例如下:

斯坦福NLP笔记47 —— What is Relation Extraction?_第3张图片

在不同的应用中,关系的定义自然不同,譬如在医药领域,UMLS定义了134中实体类型和54中关系类型,举例如下:

斯坦福NLP笔记47 —— What is Relation Extraction?_第4张图片

上面的这些词很多都是托福词汇,后两项的意思就是某些药能导致你身体出毛病,某些药又能治你的毛病。

应用UMLS抽取的一个例子:

斯坦福NLP笔记47 —— What is Relation Extraction?_第5张图片

后面也说到,这里的这个diagnose被称为predicate,就是谓语的意思。


来自维基百科的一些信息抽取

  • 维基百科有一个叫做info box的东西,把信息都结构化好了给你

  • dbpedia这样一个库就从维基百科上面搞下了十亿的数据

  • freebase上面也有关系信息


实体关系

实体关系分两种:

  1. 谁是谁的子集

  2. 谁是谁的实例

类似于类继承与类对象的意思,看例子:

斯坦福NLP笔记47 —— What is Relation Extraction?_第6张图片

如果是小明的那个例子就是:

  • 小明 IS-A 外企高级白领 IS-A 白领 IS-A 人

  • 小明 instance-of 高富帅 


怎样建立一个抽取器

  1. 手工选取模式

  2. 监督学习

  3. 半监督学习或无监督学习

你可能感兴趣的:(斯坦福NLP笔记47 —— What is Relation Extraction?)