知识抽取任务定义和相关比赛
知识可以来自于关系型数据库、外部的开放知识图谱的数据、客户的日志等结构化数据以及表格、关键词、引用等半结构化数据和文本数据、多媒体数据等非结构化数据。
Data acquisition->LD Dataset(Vocabulary Mapping->Interlinking->Cleansing->Integrated Dataset)->Access(Publishing->SPARQL Endpoint)->Application
知识抽取技术:
从不同来源、不同结构的数据中进行知识提取,形成知识存入到KG
实体抽取
关系抽取
事件抽取
从结构化数据库中获取知识:D2R——复杂表数据的处理
从连接数据中获取知识:图映射——数据对齐
从半结构化(网站)数据中获取知识:使用包装器——方便的包装器定义方法,包装器自动生成、更新与维护
从文本中获取知识:信息抽取——结果的准确率与覆盖率
子任务:
命名实体识别:检测/分类
术语抽取:从语料中发现多个单词组成的相关术语
关系抽取:特定指二元关系
确定触发词->根据触发词下特定的槽抽取宾语
共指消解(主语的确定)
比赛:
MUC:
正规文本抽取
命名实体识别——NER
共指消解——CR
ACE:
对MUC融合、分类、细化
实体检测和识别——EDR——细化了实体分类(person/organizations.....)
数值检测与识别——VAL(百分比/钱/邮箱.......)
事件表达检测与识别——TERN
关系检测与识别——RDR
事件检测与识别——VDR
KBP:
对ACE的进一步修订
实体发现与链接——EDL——需要知识库中唯一URL去链接实体
槽填充——SF——事件/多元关系抽取,对于谓语填充主语和宾语
事件抽取——Event
信念和情感——BeSt——抽取知识的额外描述
整合任务:端到端冷启动知识构建——对数据层进行学习和扩充
SemEval:
国际权威的词义消歧评测
一、面向非结构化数据的知识抽取
1、实体抽取:
抽取文本中的原子信息元素(person/organizations.....)
序列标注方法:
人工特征(词本身的特征/前后缀特征/字本身的特征)
IOB标注体系:O(Others)/B-ORG(组织开始字)/I-ORG(组织中间词)....
HMM:隐马尔科夫模型——有向图模型/生成式模型/假设特征之间是独立的
CRF:条件随机场——无向图模型/判别式模型/没有关于特征之间是独立的
LSTM+CRF:深度学习和机器学习相结合
word embeddings->Bi-LSTM encoder->CRF Layer
实体识别与链接:
小白,我想听一首海阔天空(应对新兴实体)->rdf:type MuisicWork(处理大规模细粒度实体识别)->找到音乐KG中的内容->执行消歧->完成链接
文本->实体指称识别->候选实体生成->候选实体消歧->链接
开源工具:
Wikipedia Miner
DBpedia Spotligth
OpenCalais
2、关系抽取:
信息抽取研究领域任务之一,从文本中抽取两个或多个实体之间的语义关系
抽取元组->清理->融合->人工审核->KG
基于模板:
基于触发词的Pattern
基于依存句法分析的Pattern:以动词为起点,构建规则,对节点上的词性和边上的依存关系进行限定
监督学习:
确定实体对之后根据上下文对实体关系预测
轻量级特征——字
中等量级特征——词组
重量级特征——句
Pipeline:
实体识别与关系分类完全分离(串联)
CR-CNN(卷积神经网络)
词向量和位置向量作为输入
F1=84.1
Att-CNN
调整权重
应用注意力机制,针对不同关系优化
F1=88.0
Att-BLSTM
输入层->embedding层->LSTM层->注意力层->输出层
Joint Model:
实体识别与关系分类的过程共同优化(并联),实现全局的最优化,但是参数空间会变大
LSTM-RNNs
Bi-LSTM->Bi-TreeLSTM(依存关系->依存树)->PHYS
半监督学习:
存在语义漂移
远程监督:
从知识库中抽取存在的关系的实体对->从非结构化的文本中抽取含有实体对的句子作为训练样例
PCNNs
piecewise max-pooling:实体分为几段做maxpooling,刻画更精准
多实例学习:找到处理句中实体同时出现且句型相似的句子做句子级别的Attention
Bootstrapping
可以去学模板
给定种子集合->发现Pattern->利用冗余性进行频率统计->归纳Pattern->将抽取出的Pattern去文档集中匹配->根据Pattern抽取出信的文档如种子库、迭代直到收敛为止
3、事件抽取:
多元关系抽取
事件描述->事件触发->事件元素->元素角色
事件嵌套:
事件会发展,有跟踪后续
通过更大事件集合嵌套小事件
pipeline
事件识别Trigger Classifier->元素抽取Argument Classifier->属性分类Role Classifier->可报告性判别Reportable-Event Classifier
性能会衰减
Joint Inference
构建n个模型,集成学习
max(f1+f2+...+fn)
避免性能衰减
Joint Modeling
多任务学习,共享底层特征
避免性能衰减
动态多池化层
扩充语料:
FrameNet/从网络获取事件信息(多源整合获得完整信息)
二、面向结构化数据的知识抽取
关系数据库——shema+mapping——>KG
W3C标准Mapping languages:R2RML
工具:D2R/Virtuoso
直接映射direct mapping
关联类别->每一行形成三元组->外键对应
没办法灵活定制
R2RML
OnTop
三、面向半结构化数据的知识抽取
有一定结构且相对好抽取
百科类知识抽取:
DBpedia
基于Wikimedia抽取
Generic Infobox Extraction(同义属性不做映射)/Mapping-based Infobox Extraction(二次处理,属性对齐)
Web网页数据抽取:包装器生成
手工方法:
XPath表达式(XML路径语言)/CSS选择器表达式
手工方法/包装器归纳/自动抽取->生成包装器->输入网页->输出需要的信息
包装器归纳:网页输入->网页清洗->网页标注->Wrapper Space生成->Wrapper评估->输出包装器
包装器评估:准确率/召回率
自动抽取:
包装器训练/包装器应用
页面比较后替换->形成包装器
RoadRunner
Web tables
表格实体消歧:位于相同行/列的字符可能相关,可以去做联合的消歧
在线知识抽取:
Category(人工观察分类)->命名规则方法->主语融合(同名不同实体/同实体不同名)->谓词融合->宾语融合(单值属性/多值属性)->对infobox补全