ox180x

关系抽取调研-工业界

关系抽取调研——工业界

1. 任务
- 1.1. 任务定义
- 1.2. 数据集
- 1.3. 评测标准
2. 方法总结
- 2.1. 基于模板的方法
  - 2.1.1. 基于触发词/字符串
  - 2.1.2. 基于依存句法
- 2.2. 监督学习
  - 2.2.1. 机器学习
  - 2.2.2. 深度学习 Pipeline vs Joint Model
- 2.3. 半监督/无监督方法
  - 2.3.1. Bootstrapping
  - 2.3.2. 基于远程监督的方法
3. 抽取工具应用
- 3.1. TextRunner
- 3.2. OLLIE：开放三元组知识抽取
- 3.3. IEPY
- 3.4. spaCy
- 3.5. NELL
- 3.6. Deepdive
- 3.7. Standford
4.相关文献
5.参考资源

1. 任务

1.1. 任务定义

自动识别句子中实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取(两个实体)和多元关系抽取(三个及以上实体)。

通过关注两个实体间的语义关系，可以得到(arg1, relation, arg2)三元组，其中arg1和arg2表示两个实体，relation表示实体间的语义关系。

根据处理数据源的不同，关系抽取可以分为以下三种：

面向结构化文本的关系抽取：包括表格文档、XML文档、数据库数据等。
面向非结构化文本的关系抽取：纯文本。
面向半结构化文本的关系抽取：介于结构化和非结构化之间。

根据抽取文本的范围不同，关系抽取可以分为以下两种：

句子级关系抽取：从一个句子中判别两个实体间是何种语义关系。
语料(篇章)级关系抽取：不限定两个目标实体所出现的上下文。

根据所抽取领域的划分，关系抽取又可以分为以下两种：

限定域关系抽取：在一个或者多个限定的领域内对实体间的语义关系进行抽取，限定关系的类别，可看成是一个文本分类任务。
开放域关系抽取：不限定关系的类别。

限定域关系抽取方法：

基于模板的关系抽取方法：通过人工编辑或者学习得到的模板对文本中的实体关系进行抽取和判别，受限于模板的质量和覆盖度，可扩张性不强。
基于机器学习的关系抽取方法：将关系抽取看成是一个分类问题。

1.2. 常见数据集

工业界数据集

由于工业界的数据集通常来自其自身业务的记录，并不对外公开，故以下只举例介绍相关比赛中出现的数据集(下载链接因版权原因，随时删除)：

2019全国知识图谱与语义计算大会

数据集提取码：ta8z

任务目标
- 在本次任务中，我们重点关注人物之间的关系抽取研究，简称IPRE(Inter-Personal Relationship Extraction)。给定一组人物实体对和包含该实体对的句子，找出给定实体对在已知关系表中的关系。我们将从以下两个方面进行评测：
- Sent-Track:从句子级别上根据给定句子预测给定人物实体对的关系
  - 输入：一组人物实体对和包含该实体对的一个句子
  - 输出：该人物实体对的关系
  - 样例一：
  - 输入：
  - 贾玲\t冯巩\t贾玲，80后相声新秀，师承中国著名相声表演艺术家冯巩。
  - 输出：
  - 人物关系/师生关系/老师
- Bag-Track:从包级别上根据给定句子集合预测给定人物实体对的关系
  - 输入：一组人物实体对和包含该实体对的若干句子
  - 输出：该人物实体对的关系
数据来源
- 主要来源于互联网网页文本，其中验证集和测试集是通过人工进行标注的，而训练集是通过远程监督(Distant Supervision)自动生成的。
- 总共有34类人物关系，包括一类特殊关系NA
- 本次竞赛使用的SKE数据集是业界规模最大的基于schema的中文信息抽取数据集，其包含超过43万三元组数据、21万中文句子及50个已定义好的schema，表1中展示了SKE数据集中包含的50个schema及对应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集，2万验证集和2万测试集。其中训练集和验证集用于训练，可供自由下载，测试集分为两个，测试集1供参赛者在平台上自主验证，测试集2在比赛结束前一周发布，不能在平台上自主验证，并将作为最终的评测排名。
评价指标：
- 精确率(Precision, P)、召回率(Recall, R)和F1值(F1-measure, F1)，分为Sent-Track和Bag-Track的两个部分，每部分按F1值分别排名。只统计预测结果中非NA的数目。
- F1最终结果越接近1分数越高。
解决方案
- top1评测论文：https://conference.bj.bcebos.com/ccks2019/eval/webpage/pdfs/eval_paper_3_2.pdf

2019语言与智能技术竞赛

数据集提取码：dk4n
任务目标
- 给定schema约束集合及句子sent，其中schema定义了关系P以及其对应的主体S和客体O的类别，例如(S_TYPE:人物，P:妻子，O_TYPE:人物)、(S_TYPE:公司，P:创始人，O_TYPE:人物)等。任务要求参评系统自动地对句子进行分析，输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。
- 输入/输出:
- (1) 输入:schema约束集合及句子sent
- (2) 输出:句子sent中包含的符合给定schema约束的三元组知识Triples
- 数据集说明
- 使用的SKE数据集是业界规模最大的基于schema的中文信息抽取数据集，其包含超过43万三元组数据、21万中文句子及50个已定义好的schema，表1中展示了SKE数据集中包含的50个schema及对应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集，2万验证集和2万测试集。其中训练集和验证集用于训练，可供自由下载，测试集分为两个，测试集1供参赛者在平台上自主验证，测试集2在比赛结束前一周发布，不能在平台上自主验证，并将作为最终的评测排名。
- 具体说明：https://www.biendata.com/competition/chip2019/data/
评价指标
- Precision、Recall、F1值
top1方案及结果
- 解决方案：Schema约束的知识抽取系统架构(“信息抽取”任务冠军队伍报告)
- 最高得分：89.3% F1 在测试集，投入使用效果 87.1% F1。
- 其他方案：
  - Baidu Official Baseline Model(Python2.7)
  - Baseline Model(Python3)
  - Multiple-Relations-Extraction-Only-Look-Once
  - Schema-based-Knowledge-Extraction

2020语言与智能技术竞赛

数据集提取码：8ccx

任务目标：

在给定的文本句子中，根据预先定义的schema集合，抽取出所有满足 schema 约束的 SPO 三元组。schema 定义了关系 P 以及其对应的主体 S 和客体 O 的类别，根据 O 类型的复杂程度可以划分为以下两种：

简单 O 值：也就是说 O 是一个单一的文本。简单 O 值是最常见关系类型，去年竞赛中所发布的所有 schema 都属于这种类型。为了保持格式统一，简单 O 值类型的 schema 定义通过结构体保存，结构体中只有一个 @value 字段存放真正的 O 值类型。例如，「妻子」关系的 schema 定义为：
1 2 3 4 5 6 7
{ S_TYPE: 人物, P: 妻子, O_TYPE: { @value: 人物 } }

复杂 O 值：也就是说 O 是一个结构体，由多个语义明确的文本共同组成，多个文本对应了结构体中的多个槽位(slot)。在复杂 O 值类型的定义中，@value 槽位可以认为是该关系的默认 O 值槽位，对于该关系不可或缺，其他槽位均可缺省。例如，「饰演」关系中 O 值有两个槽位 @value 和 inWork，分别表示「饰演的角色是什么」以及「在哪部影视作品中发生的饰演关系」，其 schema 定义为：

{
    S_TYPE: 娱乐人物,
    P: 饰演,
    O_TYPE: {
        @value: 角色
        inWork: 影视作品
    }
}

输入/输出：
- 输入：schema约束集合及句子sent
- 输出：句子sent中包含的符合给定schema约束的三元组知识Triples

数据集说明：
- 使用的DuIE2.0数据集是业界规模最大的基于schema的中文信息抽取数据集，其包含超过21万中文句子及48个已定义好的schema，表1 中展示了DuIE2.0数据集中包含的43个简单知识的schema及对应的例子，表2 中展示了DuIE2.0数据集中包含的5个复杂知识的schema及对应的例子。数据集中的句子来自百度百科、百度贴吧和百度信息流文本。数据集划分为17万训练集，2万验证集和2万测试集。
评估方法：
- 对测试集上给出的 SPO 结果和人工标注的 SPO 结果进行精准匹配，采用 Precision，Recall 和 F1 值作为评价指标。对于复杂 O 值类型的 SPO，必须所有槽位都精确匹配才认为该 SPO 抽取正确。
基线系统 Baseline Systems
- GitHub 基线系统https://github.com/PaddlePaddle/Research/tree/master/KG/DuIE_Baseline
- 百度AI Studio 基线系统示例https://aistudio.baidu.com/aistudio/projectdetail/357344

1.3. 评测标准

P: 准确率
R：召回率
F1: 2 P*R/(P+R)

2. 方法总结

2.1. 基于模板的方法

模板匹配：是关系分类中最常见的方法，使用一个模板库对输入文本两个给定实体进行上下文匹配，如果满足模板对应关系，则作为实体对之间的关系。常见的模板匹配方法主要包括：

人工模板：主要用于判断实体间是否存在上下位关系。上下位关系的自然语言表达方式相对有限，采用人工模板就可以很好完成关系分类。但对于自然语言表达形式非常多的关系类型而言，这就需要采取统计模板。
统计模板：无须人工构建，主要基于搜索引擎进行统计模板抽取。具体地，将已知实体对作为查询语句，抓取搜索引擎返回的前n个结果文档并保留包含该实体对的句子集合，寻找包含实体对的最长字串作为统计模板，保留置信度较高的模板用于关系分类。

2.1.1. 基于触发词/字符串

例：句子中上下位关系，比如hyponym(China; Asia countries)。从下面两个句子中都可以抽取出这种关系：

Asia countries, especially China, Japan, and India…

Asia countries, such as China, Japan, and India…

两个实体之间的especially和such as可以看做这种关系的特征。寻找更多表达这种关系的句子，构造规则模板，即可用于抽取构成上下位关系的实体，从而发现新的三元组。

2.1.2. 基于依存句法

使用NLP工具获取句子相关特征，对处理结果一般进行如下处理：

对输入句子进行分词、词性标注、命名实体识别、依存分析等处理
根据句子依存句法树结构进行规则匹配，每匹配一条规则就生成一个三元组
根据扩展规则对抽取到的三元组进行扩展
对三元组实体和触发词进一步处理抽取出关系

小结

手写规则的优点：

人工规则有高准确率(high-precision)
可以为特定领域定制(tailor)
在小规模数据集上容易实现，构建简单

缺点：

低召回率(low-recall)
特定领域的模板需要专家构建，要考虑周全所有可能的 pattern 很难，也很费时间精力
需要为每条关系来定义 pattern
难以维护
可移植性差

2.2. 监督学习

有监督的关系抽取方法：

基于特征工程的方法：需要显示地将关系实例转换成分类器可以接受的特征向量
基于核函数的方法：直接以结构树为处理对象，在计算关系之间距离的时候不再使用特征向量的内积而是用核函数
基于神经网络的方法：直接从输入的文本中自动学习有效的特征表示，是一个端到端的过程

2.2.1. 机器学习

将关系抽取看成是一个基于构造特征的分类问题

常见特征：

实体特征，包括实体前后的词，实体类型，实体之间的距离等
chunk，如 NP，VP，PP 这类短语
实体间的依存关系，实体间树结构的距离，及其他特定的结构信息

标准流程：

预先定义提取的关系集合
选择相关命名实体集合
寻找并标注数据
选择有代表性的语料库
标记命名实体
人工标注实体间关系
分割训练、开发、测试集
设计特征
选择并训练分类器
评估结果

通常会训练两个分类器，第一个分类器是 yes/no 的二分类，判断命名实体间是否有关系，如果有关系，再送到第二个分类器，给实体分配关系类别。这样做的好处是通过排除大多数的实体对来加快分类器的训练过程，另一方面，对每个任务可以使用基于具体任务的特征集。常用的分类器包括 MaxEnt、Naive Bayes、SVM 等。

2.2.2. 深度学习 Pipeline vs Joint Model

Pipeline

Pipeline方法先在句子中抽取实体、而后再抽取关系。即把实体识别和关系分类作为两个完全独立的过程，互不影响，关系的识别依赖于实体识别的效果。

Joint Model

现有联合抽取模型总体上有两大类：

1、共享参数的联合抽取模型

通过共享参数(共享输入特征或者内部隐层状态)实现联合，此种方法对子模型没有限制，但是由于使用独立的解码算法，导致实体模型和关系模型之间交互不强。

2、联合解码的联合抽取模型

为了加强实体模型和关系模型的交互，复杂的联合解码算法被提出来，比如整数线性规划等。这种情况下需要对子模型特征的丰富性以及联合解码的精确性之间做权衡：

一方面如果设计精确的联合解码算法，往往需要对特征进行限制，例如用条件随机场建模，使用维特比解码算法可以得到全局最优解，但是往往需要限制特征的阶数。
另一方面如果使用近似解码算法，比如集束搜索，在特征方面可以抽取任意阶的特征，但是解码得到的结果是不精确的。

因此，需要一个算法可以在不影响子模型特征丰富性的条件下加强子模型之间的交互。

此外，很多方法再进行实体抽取时并没有直接用到关系的信息，然而这种信息是很重要的。需要一个方法可以同时考虑一个句子中所有实体、实体与关系、关系与关系之间的交互。

Pipeline对比 Joint Model：

相比于传统的Pipeline方法，联合抽取能获得更好的性能。虽然Pipeline方法易于实现，这两个抽取模型的灵活性高，实体模型和关系模型可以使用独立的数据集，并不需要同时标注实体和关系的数据集。但存在以下缺点：

误差积累：实体抽取的错误会影响下一步关系抽取的性能。
实体冗余：由于先对抽取的实体进行两两配对，然后再进行关系分类，没有关系的候选实体对所带来的冗余信息，会提升错误率、增加计算复杂度。
交互缺失：忽略了这两个任务之间的内在联系和依赖关系。

2.3. 半监督/无监督方法

2.3.1. Bootstrapping

Bootstrapping：利用少量的实例作为初始种子集合，然后在种子集合上学习获得关系抽取的模板，再利用模板抽取更多的实例，加入种子集合中并不断迭代。Bootstrapping的优点构建成本低，适合大规模的关系任务并且具备发现新关系的能力，但也存在对初始种子较为敏感、存在语义漂移、准确率等问题。Bootstrapping 如今在工业界中依旧是快速构建大规模知识图谱的重要方法。在实际使用中，可以考虑结合基于深度语义模型的关系抽取方法，进一步提高图谱召回。

工业应用：

bootstrapping比较常见的方法有DIPRE和Snowball。和DIPRE相比，Snowball通过对获得的模板pattern进行置信度计算，一定程度上可以保证抽取结果质量。

DIPRE: Dual Iterative Pattern Expansion

DIPRE是从HTML文档集合中提取结构化关系(或表格)的一种方法。该方法在类似Web的环境下效果最好，其中的表格要提取的tuples往往会在反复出现在集合文档中一致的context内。 DIPRE利用这种集合冗余和内在的结构以提取目标关系并简化训练。

DIPRE Pipeline

DIPRE pattern由5-tuple 组成，并通过将具有相等字符串分隔实体(middle)的共现种子tuples group在一起生成，然后将 left 字符串和 right 字符串分别设置为实体左侧和右侧上下文的最长公共子字符串。 order 反映了实体出现的顺序，urlprefix 设置为发现了 tuples 的源URL的最长公共子串。在从最初的种子 tuples 中生成一些 pattern 之后，DIPRE扫描包含 pattern 可匹配的文本片段的可用文档。随后，DIPRE生成新的tuples，并将它们用作新的“种子”。DIPRE反复迭代以上过程找到文档中的新 tuples 以识别新的可靠 patterns。

伪代码：

收集具有关系R的一组种子tuples

迭代： 
1.找到包含这些种子tuples的句子 
2.查看种子tuples之间或周围的上下文，并泛化该上下文以生成patterns
3.用这些patterns找到更多种子tuples

DIPRE样例

从 5 个种子 tuples 开始，找到包含种子的实例，替换关键词，形成 pattern，迭代匹配，就为 (author,book) 抽取到了 relation pattern，x, by y, 和 x, one of y’s。

DIPRE利弊

优点：

能够从非结构化文本中抽取出结构化的关系
训练成本低，每个新场景只需要少量种子tuples。

缺点：

依赖 HTML 标签
缺少对新 pattern 和 tuples 的评估
抽取结果噪声较多
抽取结果 Recall 较低

2.3.2. 基于远程监督的方法

远程监督算法基于一个非常重要的假设：对于一个已有的知识图谱中的一个三元组(由一对实体和一个关系构成)，外部文档库中任何包含这对实体的句子，在一定程度上都反映了这种关系。基于这个假设，远程监督算法可以基于一个标注好的小型知识图谱，给外部文档库中的句子标注关系标签，相当于做了样本的自动标注，因此是一种半监督的算法。

(1)多示例学习：主要基于Bag的特征进行关系分类，主要代表文献包括PCNN[1]、Selective Attention over Instances[2]、Multi-label CNNs[3]、APCNNs[4]，其中Bag的表示主要方式和池化方式为：

(2)强化学习：在采用多示例学习策略时，可能会出现整个Bag包含大量噪声的情况。基于强化学习的CNN+RL[5]比句子级别和Bag级别的关系分类模型取得更好效果。

模型主要由样例选择器和关系分类器构成。样例选择器负责从样例中选择高质量的句子，采取强化学习方式在考虑当前句子的选择状态下选择样例；关系分类器向样例选择器反馈，改进选择策略。

(3)预训练机制：采取“Matching the Blank[6]”方法，首次在预训练过程中引入关系分类目标，但仍然是自监督的，没有引入知识库和额外的人工标注，将实体metion替换为「BLANK」标识符。

该方法认为包含相同实体对的句子对为正样本，而实体对不一样的句子对为负样本。如图，rA和rB构成正样本，rA和rC构成rB和rC构负样本。
不同于传统的远程监督，该方法训练中不使用关系标签，采用二元分类器对句子对进行相似度计算。预训练的损失包含2部分：MLM loss 和二元交叉熵关系损失。
在FewRel数据集上，不进行任何tuning就已经超过了有监督的结果。

3. 抽取工具应用

3.1. TextRunner

TEXTRUNNER三个关键步骤：

Open Information Extraction from the Web(TextRunner, 2007，华盛顿大学)

Self-Supervised Learner：构造训练数据集，学习一个贝叶斯分类器，判断(ei, relation words, e_j)是否是可信的关系
Single-Pass Extractor：输入一句话，产生所有可能的候选三元组，使用分类器判别，保留可信的三元组
Redundancy-Based Assessor：统计(e_i, relation words, e_j)发生在不同句子中的频次，保留高频词的结果作为最终结果

Self-Supervised Learner:

parsing :在一个小的数据集进行语法解析，解析句子中的名词短语
构造三元组：将名词短语作为可能的实体e_i，两个名词短语之间的词语作为关系，构成三元组候选集合
使用约束构造正负样本：满足下述三个条件的作为正样本
- ei e_j存在依赖路径，并且路径长度小于一定的值
- The path from ei to ej along the syntax tree does not cross a sentence-like boundary (e.g. relative clauses)
- ei ej都不是代词
训练分类器：三元组 ,将三元组特征化，训练一个贝叶斯分类器；特征有
- presence of part-of-speech tag sequences in the relation
- the number of tokens in
- the number of stopwords in
- whether or not an object e is found to be a proper noun
- the part-of-speech tag to the left of ei
- the part-of-speech tag to the right of ej .

Single-Pass Extractor:

输入一个句子，处理过程如下

先进行词性标注，然后使用lightweight noun phrase chunker识别名词短语
识别名词短语之间的词语作为关系表示
使用分类器进行分类，判别这个三元组候选是否可信

Redundancy-based Assessor：

会通过启发式的规则归一化关系短语，比如去除不必要的修饰词语
统计三元组的频数，如果这个三元组是从k个不同的句子中抽取得到的话

3.2. OLLIE

OLLIE支持基于语法依赖树的关系抽取。流程图如下，主要包含三个步骤

Constructing a Bootstrapping Set：使用REVERB已经抽取到的高质量的三元组作为Seed Tuples，使用Seed Tuple抽取包含这些seed tuple的句子，构造一个比较大的训练数据集
Open Pattern Learning：基于语法解析，使用训练数据集学习open pattern templates/抽取模式模板
Pattern Matching for Extraction：使用学习到的open pattern templates来抽取新的三元组

3.3. IEPY

开源项目：https://github.com/machinalis/iepy

主要做关系抽取：IEPY is an open source tool for Information Extraction focused on Relation Extraction.

工具特征：

带web-UI的语料标注⼯具。
基于主动学习的关系抽取的工具。
基于规则的关系抽取工具。
有web-UI帮助使用：

1)方便非专业用户使用部分功能。

2)允许分布式的用户输入。
通过斯坦福CoreNLP做共指解析。
可以基于开源代码作二次开发。

使用

安装：

作为Python包安装，pip install iepy, 并下载第三方数据 iepy –download-third-party-data

使⽤：

1 创建项目

iepy –create

2 导⼊要抽取的语料

python bin/csv_to_iepy.py data.csv

3 数据预处理( text tokenization, sentence splitting, lemmatization, part-of-speech tagging, and named entity recognition)

python bin/preprocess.py

4 启动web-ui查看项⽬

python bin/manage.py runserver

5 进行active learning(需要自己再依据工具提示标一些数据)或rule-based(写规则)关系抽取

6 在界面上标⼀些测试集来验证抽取效果。

总结

功能：

对于要处理的语料导⼊到项目里，提供前面的预处理和两种方式的关系抽取。Active Learning的需要自己定义关系和标⼀些数据。Rule-based的需要自己写规则。也封装好了⼀些脚本⽅便的做导⼊数据、预处理、规则检查等。

使用方式：

python包 + webUI，类似pyspider。可以用界面来定义关系和查看抽取结果、标注测试集等。不过还是需要⽤命令行来load数据，预处理等，这部分其实也可以在界面实现。

评价：

由于开发的时间早，抽取的方法不新，也没有预先在⼤数据集上训练得到通用领域关系抽取的模型，需要用户自己定义关系并标注数据。每⼀个抽取任务创建⼀个project，使⽤web界面方便操作和可视化，感觉我们做领域迁移也可以采用这种⽅法，把流程固定，然后通过创建不同的project，导⼊不同的数据，定义不同的关系，然后⽤webUI进⾏可视化和人工操作。

3.4. spaCy

3.4.1 介绍

工业级的NLP工具：功能很强⼤，不⽌是做Information Extraction，⽤Cython优化，各种处理超级快(官网fastest in the world)，能⽤于在真实场景和产品里的。适合对用于Deep Learning的⽂本进行预处理。能和TensorFlow, PyTorch, scikit-learn, Gensim 等深度学习框架无缝衔接。

3.4.2 工具特点：

无损的tokenization
命名实体识别
⽀持53+语言
支持11种语言上的17个统计模型
预训练好的词向量
SOTA的速度
方便与深度学习集成
POS标注
带标记的依存句法分析
句法驱动的句子分割
内置用于语法和NER的可视化工具
方便的字符串->哈希值映射
导出到numpy数组
高效的⼆进制序列化
方便的模型打包和部署
稳健，经过严格评估的准确性

3.4.3 总结

并非专门做信息抽取，也没有抽取关系的功能。封装了NLP相关的基础工作，并优化了速度以用于真实产品。

同时也允许用户自己训练模型load后使⽤。

使用方式：

python包+load下载的模型。

评价：

功能很多很实用，定位在于做深度学习前面的文本预处理，且优化速度。使用方式和很多⼯具⼀样，使用python包，封装好各种通用功能和接口，再通过加载不同的模型实现使⽤在不同领域、语言或者应对方法改进的情况。

3.5 NELL

3.5.1 介绍

永恒语⾔学习：

Never-ending Language Learning。不断学习语⾔知识，2010年提出。

architecture：

流程：

利⽤少量标记样本集合训练学习模型, 然后⽤该模型去标记更多样本。(需要偶尔人工标注)。运⽤多视角学习(multi-view learning)分别从文本背景信息、网页结构信息、构词法特征以及规则学习4个角度进行新知识抽取和知识库的扩充。

3.5.2 总结

评价：

可以借鉴这种方式扩充构建好的知识库，对于通用领域知识库可以在网页文本上抽取，特定领域的可以喂相关领域的文档或者爬取到的网页文本。信息抽取工具应该不包含这个功能，而是通过这个⼯具的使用能够实现这种功能。

3.6 Deepdive

官网地址：http://deepdive.stanford.edu/

Deepdive是stanford大学InfoLab实验室开发的一个开源知识抽取系统，它通过弱监督学习，从非结构化的文本中提取结构化的关系数据。DeepDive用于提取实体之间的复杂关系并推断涉及这些实体的事实。在使用Deepdive进行关系抽取的时候，使用者不需要关心算法，只需要指定实体的特征，Deepdive通过联合推理，即可得出两个实体之间有关系的概率。

Deepdive的优点如下：
(1)可以处理带噪声的数据，用户可以通过对断言设置置信度来矫正噪声
(2)可以通过使用已有的领域知识来指导推理结果，通过用户反馈的结果来提高预测的准确率
(3)使用远监督技术，不需要或仅需要少量数据即可完成抽取

抽取流程如下：

一个中文抽取示例：股权抽取 https://zhuanlan.zhihu.com/p/43143663

3.7 Stanford

官网地址：https://stanfordnlp.github.io/CoreNLP

Stanford CoreNLP是斯坦福大学提供的自然语言处理工具，是由Java写成的，可通过使用Web服务与CoreNLP进行交互，从而使用python等其他语言进行编程，目前提供python接口可直接安装使用，支持多种语言。

Open IE(开放信息提取)是指从纯文本中提取关系元组，与其他提取不同的是，Open IE 不需要提前定义schema，主要利用语言结构进行开放领域信息抽取。Stanford Open IE是Stanford CoreNLP包中的一个开放领域信息抽取模块，该模块的抽取思路如下：

1、先将句子分成几个子句(学习一个分类器)

2、最大程度地缩短每个子句，产生一组所需的句子片段

3、从片段中提取三元组(自然逻辑)

相关论文链接：https://nlp.stanford.edu/pubs/2015angeli-openie.pdf

Relation Extractor(关系抽取)是Stanford CoreNLP中的另一个处理模块，用于抽取特定领域的关系。目前支持Live_In, Located_In, OrgBased_In, Work_For, and None这几种关系。用户可以使用提供的接口使用自己的数据集训练自己的模型，从而实现特定领域的关系抽取。该模块的抽取思路如下：

1、数据预处理：tokenization，part of speech tagging

2、实体识别(标注)

3、使用多类逻辑回归分类器对关系进行分类

Stanford Open IE& Relation Extractor对比

模块	领域	使用方法	用户使用
Open IE	开放领域	下载StandfordCoreNLP包	可以使用java或者其他语言进行服务器与来进行编码
Relation Extractor	特定领域	下载StandfordCoreNLP包，用户可自行训练特定领域的模型	可以使用java或者其他语言与服务器交互来进行编码

4. 相关文献

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. EMNLP
Attention over Instances (Lin 2016)
Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks.
Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
Reinforcement Learning for Relation Classification from Noisy Data
Matching the Blanks: Distributional Similarity for Relation Learning
Riedel, Sebastian, Limin Yao, and Andrew McCallum. “Modeling relations and their mentions without labeled text.”Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer, Berlin, Heidelberg, 2010.

5. 参考资源

收录文章https://zhuanlan.zhihu.com/p/139485679

https://zhuanlan.zhihu.com/p/77868938

SemEval-2020自由文本关系抽取冠军方案解读

https://github.com/WindChimeRan/NREPapers2019

https://paperswithcode.com/sota

2019全国知识图谱与语义计算大会

望江人工智库信息抽取

https://github.com/yuanxiaosc/Entity-Relation-Extraction

https://zhuanlan.zhihu.com/p/145812779

你可能感兴趣的:(知识图谱,人工智能)

5分钟搞定Spring AI支持SpringBoot快速构建人工智能AI应用_springai_springboot_AI应用 web17886480312 spring 人工智能 spring boot
通过阅读这篇文章，你将了解SpringAI，它是一个借鉴了langchain的设计理念，并结合Java的优势，为开发者提供易于替换实现的统一接口。此外，文章还基于SpringAI的模型调用和Prompt模板，构建一个可操作的示例，让你可以快速的了解具体怎么在springboot的环境下使用springai来构建人工智能AI的应用SpringAI：简化Java大模型集成的统一框架在Java调用大模型
3.ChatClient&Chat Model简化与AI模型的交互 laopeng301 Spring AI 人工智能交互
1.ChatModel对话模型是一种利用人工智能技术，能够生成类似人类对话响应的工具。通过向预训练语言模型（如GPT等）发送提示词或部分对话内容，模型依据自身训练数据及对自然语言模式的理解，生成对话的延续或完整回复，并返回给应用程序。应用程序可以将其呈现给用户或用于进一步处理。SpringAIChatModelAPI设计目标为简单且可移植的接口，用于与各种人工智能模型进行交互，使开发人员能够在不同
《智守数据堡垒——AI驱动的MySQL数据治理合规框架》墨夶数据库学习资料2 人工智能 mysql 数据库
在当今数字化转型加速的时代，企业面临着前所未有的数据挑战。一方面，海量的数据为企业带来了巨大的商业价值；另一方面，如何确保这些数据的安全性、一致性和合法性成为了亟待解决的问题。尤其是在金融、医疗等高度监管行业中，任何数据泄露或不当使用都可能导致严重的法律后果和社会影响。为此，构建一个既高效又能满足法律法规要求的数据治理体系显得尤为重要。今天，我们将探讨一种创新性的解决方案——利用人工智能（AI）技
OpenSPG docker 安装教程 @comefly NLP docker openspg 知识图谱 llm
文章目录前言自述一、OpenSPG1.介绍二、安装步骤1.安装服务端2.客户端部署前言自述我最近是想结合chatglm3-6b和知识图谱做一个垂直领域的技术规范的问答系统，过程中也遇到了很多困难，在模型微调上，在数据集收集整理上，在知识图谱的信息抽取上等等，咬咬牙，多学习就可以解决，本文主要写一下利用openspg做技术规范的信息抽取的部署安装过程。一、OpenSPG1.介绍OpenSPG是蚂蚁集
Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
NVIDIA下一代Hopper架构曝光，采用5nm工艺晶体管超1400亿 Java小海. 架构人工智能后端程序人生 java
据媒体报道，NVIDIA下一代主要面向高性能计算、人工智能等Hopper架构，将会采用5nm工艺制程，晶体管多达1400亿个，面积核心达到了900平方毫米，是有史以来最大的GPU。作为参考，NVIDIA自家旗舰Ampere架构的A100为542亿个晶体管（每平方毫米约为6560万个晶体管），AMD阵营中采用Aldebaran架构的InstinctMI200系列为582亿个晶体管（每平方米约为736
NVIDIA Hopper解说白总Server redis 数据库缓存 rust mongodb 大数据数据仓库
NVIDIAHopper架构是NVIDIA推出的面向高性能计算（HPC）和人工智能（AI）的最新一代GPU架构。它代表了NVIDIA在加速计算领域的最新进展，旨在为AI训练和推理、HPC应用提供前所未有的性能提升。NVIDIAHopper架构和基于该架构的GPU产品H100的详细信息：NVIDIAHopper架构技术特点：第四代TensorCore：Hopper架构引入了第四代TensorCore
LLMs，即大型语言模型 maopig AI 语言模型人工智能自然语言处理
LLMs，即大型语言模型，是一类基于深度学习的人工智能模型，它们通过海量的数据和大量的计算资源进行训练，可以理解和生成自然语言。LLMs的核心架构是Transformer，其关键在于自注意力机制，使得模型能够同时对输入的所有位置进行“关注”，从而更好地捕捉长距离的语义依赖关系。LLMs在众多领域都有广泛的应用，如自然语言理解（NLU），语言生成，以及语音识别和合成等。例如，它们能够理解人类的语言
第79期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.TrojanWhi
第60期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能语言模型网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.映射你的模型：评估
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
1.8 GPT-4：开创人工智能的新纪元少林码僧 AI大模型应用实战专栏人工智能
GPT-4：开创人工智能的新纪元自从OpenAI推出GPT-4以来，人工智能领域经历了显著的突破。作为“生成预训练转换器”家族中的最新成员，GPT-4不仅在功能上进行了提升，更在语言处理能力、理解深度以及适应性方面带来了全新的变革。本篇文章将深入探讨GPT-4的特点、创新以及它如何定义未来人工智能技术的发展。GPT-4的技术亮点1.规模与深度的进一步提升GPT-4的规模比前代模型更大，训练数据量和
第83期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.混乱中建立秩序：人
【Python】已解决：ModuleNotFoundError: No module named ‘sklearn‘ 屿小夏 python sklearn 人工智能
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
基于生成式人工智能的网联自动驾驶：通感融合决策技术罗伯特之技术屋行业信息处理技术与政策研究专栏人工智能自动驾驶机器学习
【摘要】探讨了生成式人工智能在网联自动驾驶技术中的潜在价值。现有研究主要侧重于传统感知决策和车联网技术，但却忽视了生成式人工智能在推动自动驾驶方面的重要作用。首先讨论了生成式人工智能技术如何提高自动驾驶决策、训练、感知和导航等模块的性能，接着探讨了其在融合了语义通信、通感一体和新型空口技术的下一代车联网中的角色，然后提出了基于人工智能代理的网联自动驾驶模型，最后强调生成式人工智能是实现车辆高级别自
人工智能英语学习笔记「已注销」
基础篇单词mythologyn.ancientmythsingeneral;ideasthatmanypeoplethinkaretruebutthatdonotexistorarefalse神话Examples:AsatyrishalfmanandhalfgoatinGreekandRomanmythology.在希腊和罗马神话中，森林之神是半人半羊的样子。Thishasbeenwellillu
从小白到高手：人工智能学习中的挑战与突破博雅智信人工智能深度学习机器学习 python 大语言模型
引言：人工智能学习之路充满挑战学习过程中常见的问题与困境环境安装与配置问题简单报错反复调试，时间浪费大学习进度慢，难以找到合适的方向网上资料过多，选择困难导师催进度，任务压力大不敢多问：与同事、师兄师姐的尴尬理论与实践脱节，缺乏实战经验专注力不足，容易被干扰找一个师傅带着的好处高效解决问题，避免走弯路个性化学习路线与系统化知识框架实战经验的传授与导师的成长指导1.引言：人工智能学习之路充满挑战人工
文秘要学计算机吗,高考志愿：计算机专业和文秘专业哪个适合女生？ weixin_39707851 文秘要学计算机吗
原标题：高考志愿：计算机专业和文秘专业哪个适合女生？肯定是文秘专业更加适合女生吧，这对绝大部分女生来说是适用的。其实目前对高中毕业之后读大专的话，能够选择的热门专业不多。目前这个文秘类的专业，像这种速度方向的专业的话，还算是比较热门的。对于绝大部分大专生而言，尤其是女生而言是比较适合报考这种文秘类的专业的。因为目前来说像文秘类这种专业，社会上的需求比较大的。虽然目前有出现这种人工智能方面的软件，减
计算机专业毕业可以做文秘吗,高考志愿：计算机专业和文秘专业哪个适合女生？... ShuYini 计算机专业毕业可以做文秘吗
原标题：高考志愿：计算机专业和文秘专业哪个适合女生？肯定是文秘专业更加适合女生吧，这对绝大部分女生来说是适用的。其实目前对高中毕业之后读大专的话，能够选择的热门专业不多。目前这个文秘类的专业，像这种速度方向的专业的话，还算是比较热门的。对于绝大部分大专生而言，尤其是女生而言是比较适合报考这种文秘类的专业的。因为目前来说像文秘类这种专业，社会上的需求比较大的。虽然目前有出现这种人工智能方面的软件，减
华为 Ascend 平台 YOLOv5 目标检测推理教程 Lunar* 目标检测华为 YOLO 目标检测
1.背景介绍随着人工智能技术的快速发展，目标检测在智能安防、自动驾驶、工业检测等领域中扮演了重要角色。YOLOv5是一种高效的目标检测模型，凭借其速度和精度的平衡广受欢迎。华为Ascend推理框架（ACL）是AscendCANN软件栈的核心组件，专为AscendAI加速硬件（如Atlas300I）设计，可实现高性能的深度学习推理。在本文中，我们将介绍如何基于华为AscendACL推理框架对YOLO
Python学习路线 Python_JC python
Python是一门易学易用的编程语言，广泛应用于数据处理、Web开发、人工智能、自动化运维、游戏开发等领域。本篇文章将介绍Python的学习路线以及一些值得参考的书籍。Python学习路线Python的学习路线主要包括以下几个方面：掌握Python基础知识：了解变量、数据类型、表达式、流程控制、函数、模块等基础概念。学习Python面向对象编程：学习类、对象、继承、多态等面向对象编程的概念和技术。
【2025最新计算机毕业设计】基于SSM的旅游与自然保护平台【提供源码+答辩PPT+文档+项目部署】万码堂源码计算机毕设精品实战案例实战项目源码课程设计 vue.js 前端计算机毕业设计毕设项目 spring boot
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
【源码+文档】基于SpringBoot+Vue旅游网站系统【提供源码+答辩PPT+参考文档+项目部署】万码堂源码实战项目源码计算机毕设精品实战案例 spring boot vue.js 旅游
作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、单片机开发、物联网设计与开发设计、简历模板、学习资料、面试题库、技术互助、就业指导等。业务范围：免费功能设计、开题报告、任务书
人工智能领域单词：英文解释周杰伦_Jay 人工智能深度学习神经网络中文分词全文检索
目录1、前言2、单词组1：15个3、单词组2：15个4、单词组3：15个5、单词组4：15个6、单词组5：15个1、前言亲爱的家人们，创作很不容易，若对您有帮助的话，请点赞收藏加关注哦，您的关注是我持续创作的动力，谢谢大家！有问题请私信或联系邮箱：[email protected]、单词组1：15个1、人工智能(ArtificialIntelligence,AI):atechnologythatsi
华为CANN架构与Ascend C算子开发 z1931195 华为
CANN架构CANN（ComputeArchitectureforNeuralNetworks）是华为专为应对人工智能场景而推出的一种新型异构计算架构。在当前快速发展的AI技术背景下，CANN致力于提供一种高效且灵活的解决方案，以支持多种AI框架的应用。其设计不仅仅关注于上层应用的兼容性，同时也服务于底层AI处理器的优化和编程需求，发挥了承上启下的关键作用，成为华为昇腾AI处理器计算效率提升的核心
探索极致AI性能：昇腾NPU与PyTorch的完美融合 —— Ascend Extension for PyTorch 尤琦珺Bess
探索极致AI性能：昇腾NPU与PyTorch的完美融合——AscendExtensionforPyTorch去发现同类优质开源项目:https://gitcode.com/项目简介在人工智能领域，高效灵活的框架与强大的硬件加速器是实现先进算法的关键组合。AscendExtensionforPyTorch插件，即torch_npu，正是这样一个解决方案，它无缝对接PyTorch框架，将华为昇腾AI处
《盘古大模型——鸿蒙NEXT的智慧引擎》人工智能深度学习
在当今科技飞速发展的时代，华为HarmonyOSNEXT的发布无疑是操作系统领域的一颗重磅炸弹，其将人工智能与操作系统深度融合，开启了智能新时代。而盘古大模型在其中发挥着至关重要的核心作用。赋予小艺智能助手超强能力在鸿蒙NEXT中，盘古大模型赋予了小艺智能助手更强的记忆、推理和规划能力，使其能够支持23类常用记忆类型，掌握万亿token的知识量。基于盘古大模型，小艺可以实现诸如将带有表格的图片转化
《AI 造梦：解锁虚拟场景与角色逼真丰富密码》人工智能深度学习
在科技飞速发展的当下，生成式人工智能正以前所未有的态势席卷各个领域，尤其在构建虚拟世界方面，展现出令人惊叹的潜力。从沉浸式游戏世界到逼真的影视特效场景，从栩栩如生的虚拟偶像到互动性极强的虚拟角色，生成式人工智能正在改写我们对虚拟场景和角色的认知。今天，就让我们深入探寻如何利用这一前沿技术，创造出更加逼真且丰富的虚拟场景与角色。生成式AI技术基石生成式对抗网络（GANs）和变分自编码器（VAEs）是
《鸿蒙微内核与人工智能算法协同，开启智能系统新时代》人工智能深度学习
在当今科技飞速发展的时代，鸿蒙系统以其独特的微内核架构和对人工智能算法的深度融合，正引领着操作系统智能化的新潮流。本文将深入探讨鸿蒙系统的微内核架构是如何与人工智能算法高效协同，从而提升系统性能和智能化水平的。鸿蒙系统微内核架构的优势鸿蒙系统采用微内核架构，将核心功能模块化，只保留最基本的进程管理、内存管理和通信机制等功能在内核中，而文件系统、网络协议等则作为独立的模块放在用户空间运行。这种架构使
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo

关系抽取调研-工业界

关系抽取调研——工业界

目录

1. 任务

1.1. 任务定义

1.2. 常见数据集

工业界数据集

2019全国知识图谱与语义计算大会

1.3. 评测标准

2. 方法总结

2.1. 基于模板的方法

2.1.1. 基于触发词/字符串

2.1.2. 基于依存句法

小结

2.2. 监督学习

2.2.1. 机器学习

2.2.2. 深度学习 Pipeline vs Joint Model

2.3. 半监督/无监督方法

2.3.1. Bootstrapping

2.3.2. 基于远程监督的方法

3. 抽取工具应用

3.1. TextRunner

3.2. OLLIE

3.3. IEPY

使用

总结

3.4. spaCy

3.4.3 总结

3.5 NELL

3.6 Deepdive

3.7 Stanford

4. 相关文献

5. 参考资源

你可能感兴趣的:(知识图谱,人工智能)