第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取

一、知识抽取任务定义和相关比赛

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第1张图片
示例应用: 音乐领域

1. 知识抽取

从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第2张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第3张图片
知识获取关键技术与难点
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第4张图片

2. 知识抽取的子任务:

  1. 命名实体识别 (Named Entity Recognition, NER)
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第5张图片
  1. 术语抽取
    从语料中发现多个单词组成的相关术语

  2. 关系抽取
    王思聪是万达集团董事长王健林的独子。——> [王健林] <父子关系> [王思聪]

  3. 事件抽取

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第6张图片
  1. 共指消解(Co-reference Resolution, CR)
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第7张图片

3. 相关比赛:

  1. Message Understanding Conference (MUC):由美国DARPA启动并资助的项目,目的是鼓励和开发更好的信息抽取方法
    地址:https://en.wikipedia.org/wiki/Message_Understanding_Conference

  2. Automatic Content Extraction (ACE):ACE对MUC定义的任务进行了融合、分类和细化; 主要分为五大任务,包含英语、阿拉伯语和汉语

  3. TAC Knowledge Base Population (KBP):KBP对ACE定义的任务进一步修订,适合现代知识抽取的需求主要分为四个独立任务和一个整合任务
    地址:https://tac.nist.gov/2017/KBP/

  4. Semantic Evaluation(SemEval):由ACL-SIGLEX组织的国际权威的词义消歧评测,目标是增进人们对词义与多义现象的理解
    地址:https://en.wikipedia.org/wiki/SemEval


二、实体抽取和实体链接

1. 实体抽取

实体抽取是抽取文本中的原子信息元素,例如:

  • 人名
  • 组织/机构名
  • 地理位置
  • 时间/日期
  • 字符值
  • 金额值

实体抽取举例:

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第8张图片

实体抽取其实可以看出是序列标注的问题。
在传统方法中,常常会涉及很多人工特征,例如:

  1. 词本身的特征:边界特征、词性、依存关系
  2. 前后缀特征:姓氏、地名
  3. 字本身的特征:是否是数字、是否是字符

例如:

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第9张图片

可用的方法:

  1. HMM (隐马尔可夫模型)
  2. CRF (条件随机场)
  3. LSTM+CRF

方法效果比较:

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第10张图片

参考文献:

  • hiheng Huang, Wei Xu, Kai Yu. Bidirectional LSTM-CRF Models for
    Sequence Tagging. CoRR. 2015

  • Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, Chris Dyer. Neural Architectures for Named Entity Recognition. The 2016 Conference of the North American Chapter of the Association for Computational Linguistics. 2016: 260-270

开源知识库:

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第11张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第12张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第13张图片

2. 实体链接

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第14张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第15张图片

开源系统:
【1】http://acube.di.unipi.it/tagme/
【2】https://github.com/parthatalukdar/junto
【3】http://orion.tw.rpi.edu/~zhengj3/wod/wikify.php
【4】https://github.com/yahoo/FEL
【5】https://github.com/yago-naga/aida
【6】http://www.nzdl.org/wikification/about.html
【7】http://aksw.org/Projects/AGDISTIS.html
【8】https://github.com/dalab/pboh-entity-linking


三、关系抽取

1. 什么是关系抽取?

  1. 信息抽取 (Information Extraction)研究领域的任务之一
  2. 从文本中抽取出两个或者多个实体之间的语义关系
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第16张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第17张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第18张图片

2. 方法分类

  1. 基于模板的方法:基于触发词的Pattern、基于依存句法分析的Pattern
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第19张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第20张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第21张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第22张图片
  1. 监督学习方法:机器学习方法、深度学习方法

机器学习:


第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第23张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第24张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第25张图片

深度学习:

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第26张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第27张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第28张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第29张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第30张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第31张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第32张图片
  1. 弱监督学习方法:远程监督、Bootstrapping
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第33张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第34张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第35张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第36张图片

参考文献:

  • Rink, Bryan, and S. Harabagiu. UTD: Classifying semantic relations by combining lexical and semantic resources. International Workshop on Semantic Evaluation Association for Computational Linguistics. 2010:256-259

  • Santos, Cicero Nogueira Dos, B. Xiang, and B. Zhou. Classifying Relations by Ranking with Convolutional Neural Networks. Computer Science. 2015:132-137

  • Linlin Wang, Zhu Cao, Gerard de Melo, Zhiyuan Liu. Relation Classification via Multi-Level Attention CNNs. Meeting of the Association for Computational Linguistics. 2016:1298-1307

  • Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016:207-212

  • Makoto Miwa, Mohit Bansa. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016

  • Guoliang Ji, Kang Liu, Shizhu He, Jun Zhao. Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions. Proceedings of the Thirty-First Conference on Artificial Intelligence. 2017:3060-3066


四、事件抽取

事件是指发生的事情,通常具有时间、地点、参与者等属性,事件的发
生可能因为一个动作的产生或者系统状态的改变

事件抽取指的是从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与着等。

  • 事件描述 (Event Mention):描述事件的词组或句子
  • 事件触发 (Event Trigger):表明事件出现的主要词汇
  • 事件元素 (Event Argument):事件的重要信息
  • 元素角色 (Argument Role):元素在句子中的语义角色
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第37张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第38张图片

事件抽取任务:

  • 识别事件触发词及事件类型
  • 抽取事件元素同时判断其角色
  • 抽出描述事件的词组或句子
  • 事件属性标注
  • 事件共指消解

1. 事件抽取的pipeline方法

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第39张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第40张图片

2. 事件抽取的联合抽取方法

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第41张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第42张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第43张图片

3. 基于深度学习的事件抽取方法

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第44张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第45张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第46张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第47张图片

4. 扩充语料的方法

第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第48张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第49张图片
第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取_第50张图片

参考文献:

  • Ahn, D. (University of A. (2006). The stages of event extraction. ARTE ’06 Proceedings of the Workshop on Annotating and Reasoning about Time and Events, (July), 1–8. https://doi.org/10.3115/1629235.1629236

  • Ji H, Grishman R. Refining Event Extraction Through Cross-document Inference[C]// ACL 2008, Proceedings of the, Meeting of the Association for Computational Linguistics, June 15-20, 2008, Columbus, Ohio, Usa. DBLP, 2008:254-262.

  • Li Q, Ji H, Huang L. Joint Event Extraction via Structured Prediction with Global Features[C]// Meeting of the Association for Computational Linguistics. 2013:73- 82.

  • Li Q, Ji H. Incremental Joint Extraction of Entity Mentions and Relations[C]// Meeting of the Association for Computational Linguistics. 2014:402-412.

  • Chen Y, Xu L, Liu K, et al. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks[C]// The, Meeting of the Association for Computational Linguistics. 2015.

  • Liu S, Chen Y, He S, et al. Leveraging FrameNet to Improve Automatic Event Detection[C]// Meeting of the Association for Computational Linguistics. 2016:2134-2143.

  • Narasimhan CSAIL, K., Yala, A., & Barzilay, R. (2016). Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning. Emnlp, 2355–2365.

  • Chen, Y., Xu, L., Liu, K., Zeng, D., & Zhao, J. (2015). Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks. Proceedings ACL 2015, 167–176.

你可能感兴趣的:(第三讲 知识抽取与挖掘I —— 概述和非结构化知识抽取)