【笔记三】飞浆-信息抽取

信息抽取概述

【笔记三】飞浆-信息抽取_第1张图片




【笔记三】飞浆-信息抽取_第2张图片
【笔记三】飞浆-信息抽取_第3张图片
【笔记三】飞浆-信息抽取_第4张图片

【笔记三】飞浆-信息抽取_第5张图片
【笔记三】飞浆-信息抽取_第6张图片

【笔记三】飞浆-信息抽取_第7张图片

实体抽取

【笔记三】飞浆-信息抽取_第8张图片

【笔记三】飞浆-信息抽取_第9张图片

BIOES标注模式 B-begin, I-inside, O-outside/other, E-end, S-single

【笔记三】飞浆-信息抽取_第10张图片
【笔记三】飞浆-信息抽取_第11张图片
【笔记三】飞浆-信息抽取_第12张图片

关系抽取

【笔记三】飞浆-信息抽取_第13张图片
【笔记三】飞浆-信息抽取_第14张图片

【笔记三】飞浆-信息抽取_第15张图片

【笔记三】飞浆-信息抽取_第16张图片
关系分类是关系抽取的第二步

【笔记三】飞浆-信息抽取_第17张图片

【笔记三】飞浆-信息抽取_第18张图片
【笔记三】飞浆-信息抽取_第19张图片
标签都是预先定义好的
Sigmod 根据每个字/词输出的概率,进行分类~ 大于阈值为1 ,可以输出多个类别
【笔记三】飞浆-信息抽取_第20张图片

【笔记三】飞浆-信息抽取_第21张图片
对于实体对多重组合的复杂问题,抛弃了BIO的标注方式
如何预测尾实体?每个词有多种向量表示,把这些词向量加权平均,再和encoder的每个字的向量表示相加,考虑当前词和预测词之间的关系,就可以把与【结节】有关系的词抽取出来

【笔记三】飞浆-信息抽取_第22张图片
【笔记三】飞浆-信息抽取_第23张图片
远监督噪音(DS):拿知识库直接匹配文本的过程
由于特定领域的标注数据难度大、成本高,可以考虑使用海量知识库中的文体,如果两个词出现在一句话/文本中,我们就认为他们是有关系的,可以从中抽取出实体和关系。 但这个过程似乎有些草率,也会存在一些问题~ 抽取出不正确或有问题的实体关系,就产生了一定的噪音 如,娱乐新闻中,男明星和女明星离婚了,之后又描述了他们之前的很多事情,那他们直接就不存在婚姻关系~

文档级抽取:长文本/文档

开放育关系抽取,在构建知识图谱的时候需要~ 因为不预先定义关系,关系类别是从文本中来的,S 主语、P 谓语、 O 宾语

事件抽取

【笔记三】飞浆-信息抽取_第24张图片
【笔记三】飞浆-信息抽取_第25张图片
【笔记三】飞浆-信息抽取_第26张图片

位置、大小都是事件要素
触发词和要素,称为事件
(1)触发词当做头实体:圆开/结节影
(2)要素当做尾实体:病变位置、大小
(3)进而构建关系

你可能感兴趣的:(自然语言处理,人工智能)