4 知识抽取与挖掘(下)

面向文本的知识抽取

 

关系抽取方法:特征向量/核函数/深度学习/通用模型/模板匹配/图推理

 

DeepDive关系抽取实战

 

KBC系统

填充,融合不同来源的知识

输入:非结构化的期刊文章/半结构化的html,table等

输出:结构化知识库

特征工程+distant supervision+图优化

考虑全局最优而不是某三元组最优

文本预处理->特征抽取(OCR/NLP)->统计推理与学习->迭代优化->自定义datalog语言调控->挂接分布式数据库

 

框架实战:抽取上市公司中股权交易关系

工程组成:

主程序文件app.ddlog:数据表定义/调用用户脚本udf/因子图定义

数据库文件db.url:定义数据表的存储位置

工程配置文件deepdive.conf:定义采样及训练方法

输入文件夹input

udf

 

开放域关系抽取

 

开放域IE->通用模型/不需要预定义关系/依赖于句法特征/全网规模但精度低

 

TextRunner

WOE

面临的挑战:

关系不一致,不准确

提取关系不包含有效信息

 

Reverb

基于动词的关系抽取

 

OLLIE

增加了基于名词和形容词抽取

 

Clause IE

基于子句的抽取

将句子拆分成各个从句,定义从句类型

 

OpenIE

可以回答不同用户提出的不同领域中的问题

 

知识挖掘

 

一、实体消歧与链接

实体链接:给定一篇文本中的实体指称mention,确定这些指称在给定知识库中的目标实体

 

二、知识规则挖掘

ILP基于归纳逻辑编程

ARM关联规则挖掘:OWL2公理可以被转换为关联规则

事物表Transaction Table

SRL统计关系学习:根据已知三元组对未知三元组成立的可能性进行预测

将链接两个实体的路径作为特征来预测其间可能存在的关系

通用关系学习框架generic relational learning framework

Path Ranking Algorithm

 

三、知识图谱表示学习

实体预测与推理

TransE/TransS/TransH

区分属性和关系学习

 

PRA和TransE可以互补

 

Triple Context = Triple + Path Context + Neighbor Context

 

 

 

 

 

你可能感兴趣的:(知识图谱,知识图谱入门笔记)