nopSled

Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning

原文链接： https://arxiv.org/pdf/1805.09927.pdf

摘要

远程监督已成为关系抽取中的标准方法。然而，即使它是一种有效的方法，它也不是没有任何代价的 - 由此产生的远程监督的训练样本通常有非常多的噪声。为了对抗噪声，大多数最近的现有技术方法都集中于选择一个最佳句子或计算一个特定实体对在句子集合上的注意力权重。然而，这些方法并不是最理想的，假阳性问题仍然是性能的关键瓶颈。我们认为那些错误标记的候选句子必须用一个确定性的决策来对待，而不是使用注意力权重去处理。为此，我们的论文描述了一个根本的解决方案 - 我们探索一种深度强化学习策略来生成假阳性指标，我们自动识别每种关系类型的假阳性而没有任何监督信息。与之前研究中的删除操作不同，我们将它们重新分配到负面示例中。实验结果表明，与现有技术系统相比，该策略显着提高了远程监督的性能。

1.介绍

　　关系抽取是信息提取和自然语言理解的核心任务。关系抽取的目标是预测句子中实体的关系。例如，给定句子 $“ B a r a c k O b a m a i s m a r r i e d t o M i c h e l l e O b a m a . ”$ ，关系分类器旨在预测 $“ s p o u s e ”$ 的关系。在下游应用中，关系抽取是构建知识图谱的关键模块，它是许多自然语言处理应用程序的重要组成部分，如结构化搜索，情感分析，问答和摘要。
　　在关系抽取算法的早期开发中遇到的一个主要问题是数据稀疏性问题 - 它非常昂贵，并且人工几乎不可能通过数百万个句子的大型语料库来提供大量标记的训练实例。因此，远程监管关系抽取变得流行，因为它使用来自知识库的实体对从未被标记的数据中选择一组噪声实例。近年来，已经提出神经网络方法在这些噪声条件下去训练关系抽取器。为了抑制噪声，最近的研究已经提出使用注意力机制将软权重置于一组有噪声的句子上，并选择样本。然而，我们认为仅选择一个示例或基于注意力权重并不是最佳策略：为了提高鲁棒性，我们需要一个系统的解决方案来利用更多实例，同时消除假阳性并将它们放在正确的位置。
　　在本文中，我们研究了使用动态选择策略进行增强远程监督的可能性。更具体地说，我们设计了一个深度强化学习agent，其目的是学习根据关系分类器的性能变化选择是否删除或保留远程监督的候选实例。直观地，我们的agent想要消除假阳性，并重建一组清晰的远程监督实例，以根据分类准确性最大化奖励。我们提出的方法是独立于分类器的，它可以应用于任何现有的远程监督模型。根据经验，我们证明了我们的方法在各种基于深度神经网络的模型中带来了一致的性能增益，在广泛使用的纽约时报数据集上实现了强大的性能（Riedel等，2010）。我们的贡献主要是以下三个方面：

我们提出了一种新的深度强化学习框架，用于增强远程监督关系抽取。
我们的方法是独立建模，这意味着它可以应用于任何最先进的关系抽取器。
我们证明了我们的方法可以提高最近提出的神经关系抽取器的性能。

在第2节中，我们将讨论有关远程监督关系抽取的相关工作。接下来，我们将在第3节中描述我们强大的远程监督框架。在第4节中，显示了经验评估结果。最后，我们在第5节中进行总结。

2.相关工作

Mintz等人是第一个将依存路径和特征融合结合起来进行远程监督的研究。然而，这种方法会引入许多假阳性，因为同一实体对可能有多个关系。为了缓解这个问题，霍夫曼等人解决了这个问题，提出了一个与多重关系共同学习的模型。 Surdeanu等人进一步提出了一个多实例多标签学习框架来提高性能。请注意，这些早期方法并未明确删除噪声实例，而是希望模型能够抑制噪声。
　　最近，随着神经网络技术的发展，引入了深度学习方法，希望对隐藏层中的有嘈杂的远程监督过程进行建模。然而，他们的方法只选择每个实体对中最合理的一个实例，不可避免地错过了许多有价值的训练实例。最近，林等人提出了一种注意力机制，从一组嘈杂的实例中选择合理的实例。但是，我们认为注意力权重分配可能不是最佳解决方案，因为假阳性应该被完全删除并置于负集中。Ji等结合外部知识丰富实体对的表示，以这种方式提高注意力的准确性。尽管上述方法可以选择高质量的实例，但它们忽略了假阳性的情况：一个实体对的所有句子都属于假阳性。在这项工作中，我们采取激进的方法来解决这个问题 - 我们将尽可能地利用远程标记的资源，同时学习一个独立的假阳性指标来消除假阳性，并将它们放在正确的位置。在我们的ACL提交之后，我们注意到一个同时期的研究冯等人也采用强化学习来学习实例选择器，但是它们的奖励是根据预测概率计算的。相反，在我们的方法中，奖励能通过关系分类器的性能变化直观地反映出来。我们的方法也是上述大多数方法的补充，可以直接应用于任何现有的关系抽取分类器。

3.远程监督强化学习

我们引入了一种基于性能的，基于策略的强化学习方法，以启发式地识别假阳性样本。与先前未充分利用远程监督样本的研究相比（Lin等人，2016），我们认为 $R L a g e n t$ 可用于鲁棒的远程监管关系抽取。我们首先描述我们RL方法的定义，包括基于策略的agent，外部环境和预训练策略。接下来，我们描述RL agent的再训练策略。我们agent的目标是根据关系分类器的性能变化来确定是保留还是删除远距离监督的句子。最后，我们描述了噪声抑制方法，在该方法中，我们教导基于策略的agent对较干净的远程监管训练数据集进行重新分配。
　　（1）定义
　　远程监管关系抽取是在自动生成的训练集的情况下去预测实体对的关系类型。但是，问题是这些涉及该实体对的远程监督句子可能无法表达所需的关系类型。因此，我们的 $R L a g e n t$ 应该做的是确定在这种关系类型下，远程监督的句子是否是真正的正确实例。为了实现强化学习，外部环境和 $R L a g e n t$ 是两个必不可少的组件，并且通过这两个部分之间的动态交互来训练鲁棒的agent。
　　首先，强化学习的先决条件是外部环境应建模为马尔可夫决策过程（MDP）。但是，关系抽取的传统设置不能满足此条件：输入句子彼此独立。换句话说，我们不能仅仅将正在处理的句子的信息作为一个状态。因此，我们将早期状态中的信息添加到当前状态的表示中，以这种方式将我们的任务建模为MDP问题。另一个组件， $R L a g e n t$ 通过策略网络 $π_θ(s,a)= p(a | s;θ)$ 进行参数化。策略网络根据状态向量计算动作 $A = \{a_{remove}，a_{remain}\}$ 的概率分布。需要注意的是，Deep Q Network（DQN）也是一种广泛使用的RL方法。但是，即使我们的动作空间很小，它也不适合我们的情况。首先，我们无法计算每个动作的即时奖赏；相反，只有在完成对整个训练数据集的处理之后，才能获得准确的奖赏。第二，策略网络的随机策略能够防止agent陷入中间状态。以下各节详细介绍了提出的RL方法中基本组件的定义。
　　（2）状态
　　为了满足MDP的条件，状态 $s$ 包括来自当前语句和在早期状态中已删除的语句的信息。句子的语义和句法信息由连续的实值向量表示。根据一些最新的监督关系抽取方法，我们利用词嵌入和位置嵌入将句子转换为向量。使用此句子向量，当前状态是当前句子向量与早期状态中已删除句子的平均向量的联合。我们对当前句子的向量给予相对较大的权重，以这种方式来放大当前句子信息对动作决策的主导影响。
　　（3）动作
　　在每个步骤中，我们的agent都需要确定实例对于目标关系类型是否为假阳性。每个关系类型都有一个agent。 每个agent都有两个动作：是从训练集中删除还是保留当前实例。通过将最初的远程监督数据集与标签错误的实例混合在一起，我们希望我们的agent能够使用策略网络来过滤嘈杂的实例。在此清理后的数据集下，远程监督将有望获得更好的性能。
　　（4）奖赏
　　如前所述，我们模型的直觉是，当过滤了标签错误的实例时，关系分类器的性能会更好。因此，我们将分类器性能的变化作为由agent决定的一系列操作的结果驱动的奖赏。与准确性相比，我们采用 $F_1$ 值作为评估标准，因为准确性在数据分布可能不均衡的多类别分类设置中可能不是指示性指标。因此，奖赏可以表述为相邻历迭代结果之间的差值：
$R_i=\alpha(F^i_1-F^{i-1}_1)\qquad(1)$
　　如该方程式所示，在步骤 $i$ 中，只有 $F_1$ 得到改善，我们的agent才能获得正奖赏。否则，agent将获得负面奖赏。在此设置下，奖赏的值与 $F_1$ 的差异成比例，并且使用 $α$ 将该差异转换为合理数值范围。自然，奖赏的值在一个连续的空间中，这比二进制奖励（-1和1）更合理，因为此设置可以反映agent已删除的错误标签实例的数量。为了避免 $F_1$ 的随机性，我们使用最近五个时期的平均 $F_1$ 来计算奖励。
　　（5）策略网络
　　对于每个输入语句，我们的策略网络将确定它是否表示目标关系类型，如果与目标关系类型无关，则采取删除措施。因此，它类似于二进制关系分类器。CNN通常用于构建关系分类系统，因此我们采用窗口大小为 $c_w$ ，内核大小为 $c_k$ 的简单CNN来建模策略网络 $π (s; θ)$ 。我们之所以不选择为远程监管精心设计的两个CNN变体（Zeng等，2015; Lin等，2016），是因为这两个模型属于袋级模型（同时处理句子袋）并处理多重分类问题；我们只需要一个模型来进行句子级的二分类。自然，采用了更简单的网络。

3.1 基于策略Agent训练

　　与远程监管关系抽取的目标不同，我们的agent是确定带标注的句子是否表达目标关系类型，而不是预测实体对的关系，因此，尽管当句子属于同一实体对时，它们仍被独立对待。在远程监督训练数据集中，一种关系类型包含几千或一万个句子；此外，奖赏 $R$ 只能在处理完此关系类型的整个正集合后才能计算。如果我们随机初始化策略网络的参数并通过反复试验来训练该网络，这将浪费大量时间，并且倾向于收敛性较差。为了克服这个问题，我们采用监督学习方式来预训练我们的策略网络，从而为基于策略的agent提供正确的学习方向。

3.1.1 预训练策略

受AlphaGo启发，预训练策略是RL相关工作中加快 $R L a g e n t$ 训练的通用策略。通常，他们在强化学习之前利用带注释的数据集的一小部分来训练策略网络。例如，AlphaGo使用收集的专家动作对 $G o R L a g e n t$ 进行监督学习。但是，在远程监督关系抽取任务中，没有任何可用的监督信息，除非让语言专家为部分实体对做一些手动注释。但是，这种方式代价昂贵，这并不是远程监督的初衷。在这种情况下，我们提出了一种折衷的解决方案。对于良好对齐的语料库，在远距离监督数据集中，与假阳性样本相比，真实阳性样本在数量上应具有明显的优势。因此，对于特定的关系类型，我们将远程监督的正集合直接视为正集合，并随机抽取远程监督的负集合的一部分作为负集合。为了在此预训练过程中更好地考虑先验信息，阴性样本的数量是阳性样本数量的10倍。这是因为，当学习大量的阴性样本时，该agent更有可能朝着更好的方向发展。交叉熵损失函数用于训练此二分类器，其中负标签对应于去除动作，正标签对应于保持动作。
$J(\theta)=\sum_iy_ilog[\pi(a=y_i|s_i;\theta)]+(1-y_i)log[1-\pi(a=y_i|s_i;\theta)]\quad(2)$
　　由于远距离标注实例的噪声性质，如果让此预训练过程过度拟合噪声数据集，则大多数样本的预测概率往往接近0或1，这很难校正且不必要地增加了强化学习的训练成本。因此，当准确性达到85％〜90％时，我们将停止此训练过程。从理论上讲，我们的方法可以解释为增加策略梯度agent的熵，并防止策略的熵过低，这意味着缺乏探索可能是一个问题。

3.1.2 使用奖赏进行Agent重新训练

如图2所示，为了在没有任何监督信息的情况下发现标签错误的实例，我们引入了基于策略的RL方法。我们的agent试图处理的是来自远程监督的正数据集中的噪声样本；在这里，我们称其为DS正数据集。我们将其分为训练正集 $P^{ori}_t$ 和验证正集 $P^{ori}_v$ ；自然，这两个集合都有噪声。相应地，通过从DS负数数据集中随机选择来构造训练负数集 $N^{ori}_t$ 和验证负数集 $N^{ori}_v$ 。在每个epoch，Agent都会根据随机策略 $π (a ∣ s)$ 从 $P^{ori}_t$ 中删除一个有噪声的样本集 $Ψ_i$ ，我们得到一个新的正集 $P_t = P^{ori}_t-Ψ_i$ 。因为 $Ψ_i$ 被认为是标签错误的样本，所以我们将其重新分配到负集 $N_t = N^{ori}_t +Ψ_i$ 中。在此设置下，训练集的规模对于每个epoch都是恒定的。现在，我们利用清理后的数据 ${P_t，N_t}$ 来训练关系分类器。理想的情况是 $R L a g e n t$ 能够通过重新定位标签错误的误报实例来提高关系分类器的性能。因此，我们使用验证集{P ori v，Nori v}来衡量当前代理的性能。首先，此验证集由当前agent过滤（即删除或保留）并重新分发为 ${P_v,N_v\}$ ；从中计算当前关系分类器的F1分数。最后，将当前和先前时期之间的F1分数之差用于计算奖赏。接下来，我们将介绍几种策略来训练更强大的 $R L a g e n t$ 。
　　（1）在每个epoch中移除固定数目句子
　　在每个epoch中，我们让 $R L a g e n t$ 删除固定数目或更少的句子（当一个epoch中被删除的句子数目在训练过程中未达到此固定数目），以此方式防止 $R L a g e n t$ 尝试通过删除更多实例来删除更多误报实例。在固定数目的限制下，如果agent决定删除当前状态，则意味着删除其他状态的机会减少。因此，为了获得更好的报酬，代理应尝试删除包含更多否定实例的实例集。
　　（2）损失函数
　　 $R L a g e n t$ 的质量由所删除句子的质量反映出来。经过预训练过程，agent仅具有区分明显的假阳性实例的能力，这意味着难以区分的错误标记的实例的判别仍然是模棱两可的。特别地，该难以区分的部分是反映agent质量的标准。因此，无论这些容易区分的实例情况如何，在不同epoch中被删除部分的不同部分都是 $F_1$ 得分变化的决定因素。因此，我们确定两个集合：
$\Omega_{i-1}=\Psi_{i-1}-(\Psi_i\cap\Psi_{i-1})\qquad (3)\\ \Omega_{i}=\Psi_{i}-(\Psi_i\cap\Psi_{i-1})\qquad (4)$
其中， $Ψ_i$ 是epoch $i$ 的删除部分。 $Ω_{i-1}$ 和 $Ω_i$ 在图2中用不同的颜色表示。如果 $F_1$ 分数在第 $i$ 个epoch中增加，则意味着第 $i$ 个epoch的动作比第 $i - 1$ 个epoch更合理。换句话说， $Ω_i$ 比 $Ω_{i-1}$ 具有更多负例。因此，我们将正奖励分配给 $Ω_i$ ，将负奖励分配给 $Ω_{i-1}$ ，反之亦然。总之，最终损失函数的公式如下：
$J(\theta)=\sum^{Ω_i}log~\pi(a|s;\theta)R\qquad（5）\\ \quad +\sum^{Ω_{i-1}}log~\pi(a|s;\theta)(-R)$

3.2 使用基于策略的Agent重新分配训练集

通过以上的强化学习过程，对于每种关系类型，我们获得一个agent作为假阳性指标。这些agent具有识别相应关系类型的标签错误的实例的能力。我们采用这些agent作为分类器，以在嘈杂的远程监督训练数据集中识别假阳性样本。对于一个实体对，如果所有从语料库对齐的句子都归为假阳性，则该实体对将重新分配到否定集中。

规范化信息抽取：原理流程与Python实战闲人编程 python NLP NER EE 信息抽取 python RE模型角色联合
目录怎样规范化实现信息抽取：原理、流程与Python实战一、引言二、信息抽取系统架构与流程2.1总体架构2.2主要组件三、核心算法与模型原理3.1命名实体识别（NER）3.1.1序列标注模型（BiLSTM-CRF）3.2关系抽取（RE）3.2.1基于依存路径的卷积网络（DepCNN）3.3事件抽取（EE）四、规范化流程可视化五、端到端Python实现示例5.1环境依赖5.2文本预处理模块5.3NE
从零开始构建程序员菜谱知识图谱：LightRAG实战指南 CarlowZJ RAG+知识图谱 AI开发知识图谱人工智能 LightRAG
目录摘要知识图谱基础核心概念构建知识图谱的意义构建程序员菜谱知识图谱的步骤1.数据收集2.实体识别与关系抽取3.知识融合4.图谱存储与查询使用LightRAG构建知识图谱环境搭建数据收集与预处理实体识别与关系抽取图谱存储与查询应用场景菜谱推荐菜谱优化注意事项数据质量问题实体消歧性能优化架构图与流程图架构图流程图知识脑图甘特图饼图总结准备数据：把里面关于做饭的方法文件全部都上传上去并解析。编辑检索效
知识图谱系列（3）：构建方法与流程程序员查理 #知识图谱知识图谱人工智能架构数据结构 AI 学术
1.引言在前两篇文章中，我们分别介绍了知识图谱的基础概念与发展历程，以及知识图谱的技术架构与组成要素。了解了这些基础知识后，我们需要进一步探讨如何构建一个高质量的知识图谱，这是知识图谱应用的关键步骤。知识图谱的构建是一个复杂的系统工程，涉及多个环节和技术，包括知识获取、实体识别、关系抽取、知识融合和质量评估等。每个环节都有其特定的方法和挑战，需要综合运用自然语言处理、机器学习、信息检索等多种技术。
智能客服系统中长尾问题的知识库构建与解决方案北辰alk AI 网络
文章目录1.长尾问题概述与挑战1.1什么是长尾问题1.2长尾问题的特点1.3传统解决方案的不足2.知识库系统架构设计2.1整体架构2.2核心组件3.知识库构建具体步骤3.1知识收集与挖掘3.1.1多源数据采集3.1.2长尾问题挖掘算法3.2知识结构化处理3.2.1知识图谱构建流程3.2.2实体关系抽取示例3.3知识存储方案3.3.1混合存储结构3.3.2知识图谱片段4.长尾问题解决方案4.1分层处
知识图谱、对话系统、协同过滤 heine162 知识图谱人工智能
1.R-BERT用于知识图谱中的关系抽取，关系抽取分为pipeline抽取和联合抽取。pipeline抽取是先试用序列标注模型提取实体，然后实体之间做文本分类任务提取他们之间的关系。联合抽取是文本送入模型同时抽取实体+关系。三元组是知识图谱通用表示方式：实体-关系-实体，实体-属性-属性值，实体-标签-标签值，rbert可以训练实体-关系-实体。loader：#-*-coding:utf-8-*-
PaddleNLP UIE 通过OCR识别银行回执信息冲上云霄的Jayden AI ocr 银行回执 PaddleNLP Paddle UIE 信息提取 NLP
概述UIE(UniversalInformationExtraction)：YaojieLu等人在ACL-2022中提出了通用信息抽取统一框架UIE。该框架实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模，并使得不同任务间具备良好的迁移和泛化能力。为了方便大家使用UIE的强大能力，PaddleNLP借鉴该论文的方法，基于ERNIE3.0知识增强预训练模型，训练并开源了首个中文通用信息抽
智能知识图谱：大模型如何实现高效实体识别与关系抽取 python大模型人工智能
摘要知识图谱（KnowledgeGraph,KG）是人工智能领域的重要技术之一，广泛应用于搜索引擎、推荐系统、问答系统等场景。然而，传统知识图谱构建依赖大量人工标注，成本高且效率低。近年来，随着大模型（如GPT、BERT等）的快速发展，利用大模型自动化生成知识图谱成为可能。本文将详细讲解如何利用大模型实现知识图谱的自动化构建，包括实体识别、关系抽取和图谱更新，并提供可运行的示例代码和相关配图。引言
SciER：首个大规模科学文档中的实体和关系抽取数据集数据集
2024-10-28，为科学文档中的实体和关系抽取领域带来了突破，提供了一个包含106篇完整科学出版物、超过24,000个实体和12,000个关系的大规模数据集，这对于构建科学知识图谱和促进科学信息抽取技术的发展具有重要意义。数据集地址：SciER|科学信息提取数据集|人工智能数据集一、研究背景：在科学文档中，实体（如数据集、方法、任务）和它们之间的关系对于理解科学发现和推动研究进展至关重要。然而
什么是预训练？卡卡大怪兽自然语言处理
一、介绍预训练模型诞生背景:对于某种特殊任务只存在少量的相关训练数据，以至于模型不能从中学习到有用的规律（标注资源稀缺，无大数据支持）举例：想对一批法律领域的文件进行关系抽取，就需要投入大量的精力（意味着时间和金钱的大量投入）在法律领域的文件中进行关系抽取的标注，然后将标注好的数据“喂”给模型进行训练。但是即使是标注了几百万条这样的数据（实际情况中，在一个领域内标注几百万条几乎不可能，因为成本非常
Python中LLM的知识图谱构建：动态更新与推理二进制独立开发 GenAI与Python 非纯粹GenAI python 知识图谱开发语言自然语言处理人工智能分布式机器学习
文章目录引言1.知识图谱的基本概念1.1知识图谱的定义1.2知识图谱的构建流程2.利用LLM进行知识抽取2.1实体识别2.2关系抽取2.3属性抽取3.知识融合3.1实体对齐3.2冲突消解4.知识存储5.知识推理5.1规则推理5.2基于LLM的推理6.动态更新6.1增量更新6.2实时更新7.结论引言随着人工智能技术的飞速发展，知识图谱（KnowledgeGraph,KG）作为一种结构化的知识表示方法
基于 HanLP 的句子结构分析与关系抽取梦落青云知识图谱 java HanLP
一、引言自然语言处理（NLP）是人工智能领域的重要分支，旨在让计算机理解和处理人类语言。句子结构分析和关系抽取是NLP中的关键任务，它们可以帮助我们理解句子的语法结构和语义关系。HanLP是一款功能强大的中文自然语言处理工具包，提供了丰富的功能，包括分词、词性标注、依存句法分析等。本文将介绍如何使用HanLP进行句子结构分析与关系抽取。二、HanLP简介HanLP是由汉语言技术实验室开发的开源中文
python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取） weixin_39630762 python 命名实体识别
PythonNLTK学习11(命名实体识别和关系抽取)发表于:2017年7月27日阅读:18262除特别注明外，本站所有文章均为小杰Code原创本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。命名实体识别命名实体识别(NER)系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定NE的边界和确定其类型。命名实体识别非常适用于基于分类器类型的方法来处理的任务。NLTK有
NLP学习——信息抽取 P-ShineBeam NLP基础学习
信息抽取自动从半结构或无结构的文本中抽取出结构化信息的任务。常见的信息抽取任务有三类：实体抽取、关系抽取、事件抽取。1、实体抽取从一段文本中抽取出文本内容并识别为预定义的类别。实体抽取任务中的复杂问题：重复嵌套，原文中多个实体之间共享片段不连续，一个实体由多个不连续片段组成2、关系抽取从文本中抽取一对实体和预定义的关系类型。传统的关系抽取任务实现方案是先进行实体抽取，再输入头尾实体与原文进行关系分
【无标题】 Komorebi_9999 知识图谱问答系统自然语言处理
要构建一个基于知识图谱的问答系统，你需要进行以下工作：知识图谱构建：数据采集：从各种来源（如公开数据库、API、网页等）收集与你的领域相关的数据。数据清洗和预处理：清洗数据，去除重复、错误或不相关的信息，对数据进行归一化、标准化处理。实体识别和关系抽取：从数据中识别出实体（如人、地点、概念等）和它们之间的关系。构建图谱：将实体和关系组织成图谱结构，通常使用图数据库来存储。自然语言处理（NLP）：分
windows下GitHub中.sh文件下载的问题解决方案 Anpedestrian NLP
一些github中的项目为了加快开发者的下载速度，一般不会将项目的数据集与项目绑定到一起，一般都是以.sh后缀的文件格式与项目绑定。比如实体关系抽取项目中的数据集下载问题：对于.sh格式的文件安装需要sh命令，而sh指令是git系统下的操作指令。Git是分布式版本控制系统，那么它就没有中央服务器的，每个人的电脑就是一个完整的版本库，这样，工作的时候就不需要联网了，因为版本都是在自己的电脑上。A.首
低资源学习与知识图谱：构建与应用 cooldream2009 AI技术知识图谱知识图谱人工智能低资源
目录前言1低资源学习方法1.1数据增强1.2特征增强1.3模型增强2低资源知识图谱构建与推理2.1元关系学习2.2对抗学习2.3零样本关系抽取2.4零样本学习与迁移学习2.5零样本学习与辅助信息3基于知识图谱的低资源学习应用3.1零样本图像分类3.2知识增强的零样本学习3.3语义与知识信息的利用结语前言在当今人工智能领域，低资源学习成为一个备受关注的话题，尤其是在少样本学习和零样本学习方面。这种学
【医学知识图谱自动补全关系抽取】生成模型 + 医学知识图谱 = 发现三元组隐藏的关系实体对 Debroon 医学大模型：个性化精准安全可控知识图谱人工智能
生成模型+医学知识图谱=发现三元组新关系实体对提出背景问题：如何自动发现并生成医疗领域中未被标注的实体关系三元组？CRVAE模型提出背景论文：https://dl.acm.org/doi/pdf/10.1145/3219819.3220010以条件关系变分自编码器（CRVAE）模型为基础，解决关系医疗实体对发现问题，并生成新的、有意义的医疗实体对。尽管有些疾病与症状之间的关系已经被广泛记录，但仍然
NER zelda2333
基操：超详细保姆级讲解&提供代码：基于深度学习的命名实体识别与关系抽取值得一看的命名实体识别的总结：中文命名实体识别总结师兄给的教程：GithubChineseNER针对教程讲解的文章：用深度学习做命名实体识别(附代码)
CRF条件随机场学习记录 V丶Chao 深度学习安全研究 -威胁情报学习
阅读建议仔细阅读书[1]对应的序列标注章节，理解该方法面向的问题以及相关背景，然后理解基础的概念。引言威胁情报挖掘的相关论文中，均涉及到两部分任务：命名实体识别（NamedEntityRecognition，NER）和关系抽取，大多数网安实现NER的方法，采用比较多的方法包含：BiLstm+CRF或者Bert+CRF。其中条件随机场（conditionalrandomfields,CRF），这个模
学习笔记CB003:分块、标记、关系抽取、文法特征结构利炳根
分块，根据句子的词和词性，按照规则组织合分块，分块代表实体。常见实体，组织、人员、地点、日期、时间。名词短语分块(NP-chunking)，通过词性标记、规则识别，通过机器学习方法识别。介词短语(PP)、动词短语(VP)、句子(S)。分块标记，IOB标记，I(inside，内部)、O(outside，外部)、B(begin，开始)。树结构存储分块。多级分块，多重分块方法。级联分块。关系抽取，找出实
Deepdive关系抽取：特征源码分析及优化加快信息提取 weixin_42001089 人工智能机器学习 DDLIB NLP deepdive
前言本篇不是Deepdive入门教程，而是对其一些源码细节进行了解读，换句话说要深入到内部去看看其具体是怎么做的，所以看本篇的前提是假设读者已经大概清楚了deepdive的使用流程，如果不是很熟悉，或是第一次使用建议先去看一下入门教程。本篇先是分析特征方面的源码，接着是实践部分，即使用ltp替换默认的斯坦福NLP信息抽取部分进而可优化该部分到数秒内，最后简单说一下其模型方面的问题以及其它补充其实关
实体关系抽取与属性补全的技术浅析 cooldream2009 NLP知识 AI技术知识图谱实体关系抽取关系抽取
目录前言1.实体关系抽取2实体关系抽取的方法2.1基于模板的方法2.2基于监督学习的关系抽取2.3基于深度学习的关系抽取2.4基于预训练语言模型的关系抽取3属性补全3.1属性补全任务简介3.1抽取式属性补全3.2生成式属性补全4未来发展趋势结语前言在信息爆炸时代，文本数据蕴含着丰富的知识，但要将这些知识整理成结构化的形式，关系抽取和属性补全成为至关重要的任务。本文将深入探讨实体关系抽取的任务定义、
面向中国企业关系抽取的双向门控递归单元神经网络精分天秤座的mystery 自然语言处理神经网络知识图谱人工智能
面向中国企业关系抽取的双向门控递归单元神经网络论文原文：论文原文摘要：为了帮助金融从业人员有效识别高风险企业、法人或股东，国内外学者构建了风险预警的企业知识图谱。从财经新闻等非结构化数据中提取企业关系是构建企业知识图的重要手段，但其数据结构的不规则性和处理工具的匮乏给关系提取带来了挑战。针对这一问题，本文提出了SDP-BGRU模型，从非结构化数据中提取企业关系，将企业关系提取视为一个分类问题。该模
知识图谱技术综述：构建智能信息网络的关键元素 cooldream2009 知识图谱 AI技术知识图谱人工智能
目录前言1知识图谱表示：有向标记图1.1节点表示1.2边的表示1.3知识图谱的动态性2知识图谱存储与查询：图数据存储2.1关系图存储技术2.2图查询语言2.3数据存储的优化3知识抽取：从多结构数据中抽取知识3.1概念抽取3.2实体识别3.3关系抽取3.4事件抽取4知识融合：多源数据的统一命名空间4.1实体对齐4.2本体映射4.3概念匹配5知识推理：基于符号和图结构的推理5.1基于符号的推理5.2基
知识抽取-事件抽取 Jarkata
此文为转载，原文链接：知识抽取-事件抽取-徐阿衡的文章-知乎https://zhuanlan.zhihu.com/p/50903358接上一篇知识抽取-实体及关系抽取。事件是促使事情状态和关系改变的条件[Donget.al.,2010]。目前已存在的知识资源（如维基百科等）所描述实体及实体间的关系大多是静态的，而事件能描述粒度更大的、动态的、结构化的知识，是现有知识资源的重要补充。与[关系抽取]相
用通俗易懂的方式讲解：实体关系抽取入门教程深度学习算法与自然语言处理机器学习自然语言处理人工智能深度学习
信息抽取主要包括３项子任务：实体抽取、关系抽取和事件抽取，而关系抽取是信息抽取领域的核心任务和重要环节。实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系。本文为《实体关系抽取方法研究综述》论文的阅读笔记。文章目录技术提升关系抽取定义关系抽取评价指标实体关系抽取方法基于规则的关系抽取方法基于词典驱动的关系抽取方法基于机器学习的抽取方法基于深度学习的关系抽取方法流水线学习联合
IT行业都有哪些职位，初学者该如何选择活字印刷
互联网行业的薪资水准相对较高，刚入行一个月，半年，或者一年超过其他行业薪资很正常。那么，互联网行业究竟有哪些职位呢，又分别适合哪些传统行业转型？1.产品2.UI3.CSS4.JS5.后端（Java/php/python）6.DBA(mysql/oracle)7.运维（OP）8.测试（QA）9.算法（分类/聚类/关系抽取/实体识别）10.搜索（Lucene/Solr/elasticSearch）11
国科大-自然语言处理复习 Kilig* 自然语言处理人工智能
自然语言处理复习实体关系联合抽取流水线式端到端方法检索式问答系统流水线方式信息检索（IR）阶段阅读理解（RC）阶段基于证据强度的重排基于证据覆盖的重排结合不同类型的聚合端到端方式Retriever-Reader的联合学习基于预训练的Retriever-Free方法情感分析联合三元组抽取谨以此博客作为复习期间的记录实体关系联合抽取流水线式流水线式抽取（Pipline）:把关系抽取的任务分为两个步骤，
图机器学习年度汇集道亦无名人工智能机器学习人工智能
一、深度学习模型优化在图机器学习领域，深度学习模型的优化尤为重要。今年的主要进展包括了利用先进的优化算法提高模型精度、减少训练时间以及对大规模图数据的适应性。部分团队还推出了定制化的深度学习模型，特别适用于复杂的图形结构和交互。二、知识图谱技术升级随着知识图谱在多个领域的广泛应用，技术层面也在迅速进化。今年，知识图谱的语义理解、实体链接、关系抽取等技术取得了显著突破。此外，多模态知识图谱的发展，使
人工智能论文解读精选 | PRGC：一种新的联合关系抽取模型 NLP论文解读
©NLP论文解读原创•作者|小欣论文标题：PRGC:PotentialRelationandGlobalCorrespondenceBasedJointRelationalTripleExtraction论文链接：https://arxiv.org/pdf/2106.09895.pdf代码：https://github.com/hy-struggle/PRGC前言1.论文的相关背景关系抽取是信息抽
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23