Trouble..

Retrieval-Augmented Generative Question Answering for Event Argument Extraction论元解读

Retrieval-Augmented Generative Question Answering for Event Argument Extraction

code：xinyadu/RGQA (github.com)

paper：https://arxiv.org/pdf/2211.07067.pdf

期刊/会议：EMNLP 2022

摘要

长期以来，事件论元抽取一直被研究为基于抽取的方法的序列预测问题，孤立地处理每个论元。尽管最近的工作提出了基于生成的方法来捕获交叉论元依赖性，但它们需要生成和后处理复杂的目标序列（模板）。受这些观察和最近预训练的语言模型从演示中学习的能力的激励。我们提出了一种用于事件论元抽取的检索增强生成QA模型（R-GQA）。它检索最相似的QA对，并将其作为当前示例上下文的提示，然后将论元解码为答案。我们的方法在各种设置（即完全监督、领域转移和少样本学习）中大大优于现有方法。最后，我们提出了一种基于聚类的采样策略（JointEnc），并对不同策略如何影响少样本学习性能进行了深入分析。

1、简介

许多文档报告了与现实世界中常见情况相对应的事件序列。不同角色的论元提供了对事件的精细理解（例如个人、组织、位置），也影响了事件类型的确定。与检测事件的触发词（通常是动词）相比，提取论元涉及识别句子中不同角色的提及跨度（由多个单词组成）。我们在图1中列出了一个示例，给定上下文和事件类型（提及），应提取三个角色（即PERSON、POSITION、AGENT）的所有论元。

为了克服提取模型的错误传播并有效捕获跨角色依赖，提出了基于端到端模板生成的信息提取方法。然而，它们（1）受到密集输出模板格式（较少的训练实例）的影响，并且不能利用受限模板充分利用角色之间的语义关系；（2）无法在类似的输入输出对上释放大型预训练模型的优秀类比能力，以产生抽取结果。

根据我们在真实环境中的观察，示例通常与其他示例有很大的相似性（在语法和语义方面）（图1）。在这个图中，我们有一个提名事件的当前输入上下文“……困难的法官John M.被提名……”。当在大型商店（例如训练集）中搜索示例以进行演示（输入输出对）时，将显示两个最相似的示例的输入输出对。检索到的两个示例的上下文与当前示例的上下文具有很大的语义相似性。第一个检索到的示例的问题（针对每个角色）也与输入示例匹配。第二个例子的问题没有。因此，帮助模型确定从演示中学习“多少”也很重要。

受先前方法的弱点和我们的观察结果的启发，我们引入了一种用于事件论元抽取的可检索增强生成问题回答模型（R-GQA）。首先，我们将事件抽取公式化为生成性问答任务，使模型能够同时利用问答（利用标签语义）和文本生成，并且不需要阈值调整。我们在两种设置（1）完全监督设置和（2）域转移设置上进行了实验。从经验上讲，我们的方法大大优于以前的方法（提取QA和基于模板生成的方法）（贡献1）。

为了使我们基于大型预训练模型的生成模型能够从类似的表述中明确学习（“原因”）作为提示，我们在模型中添加了一个检索组件。它使用相似性/类比评分来决定在多大程度上依赖检索到的演示。它在两种设置中都显著优于生成QA模型（我们提出的没有检索组件的基线）（贡献2）。此外，我们还研究了各种模型在少样本抽取设置中的性能。据我们所知，当训练/评估的示例被随机抽样时，在性能方面存在很大的差异，导致不同的方法不可比较。因此（1）我们研究了在不同采样策略（例如，随机、基于聚类）的少样本事件抽取设置中模型的行为，以及模型性能和分布距离（真实数据和采样数据之间）如何对应；（2）我们设计了一种基于聚类的采样策略（JointEnc），它通过利用上下文和触发词嵌入来选择最具代表性（未标记）的示例。它比随机抽样和一轮主动学习要好。我们对采样方法的讨论有助于提高基准模型的少样本设置性能（贡献3）。

2、问题描述和定义

事件本体、模板和问题：我们专注于从一系列单词中提取事件论元。事件由（1）触发词和事件的类型（ $E$ ）组成；（2）事件类型 $E$ 的相应论元 ${ arg_1^E,arg_2^E,...\}$ 。事件类型和论元角色都在本体中预定义。除了事件类型和论元角色之外，本体还为论元角色提供定义和模板。例如，当 $E = M o v e m e n t - T r a n s p o r t a t i o n - E v a c u a t i o n$ 时，提供论元角色的模板，

$arg_1]$ transported $arg_2]$ in $arg_3]$ from $arg_4]$ place to $arg_5]$ place.

基于本体中的论元角色和模板的定义，我们可以基于Du和Cardie中提出的机制为每个论元角色生成常规的问题。例如，在本例中， $arg_1 (Transporter)$ ：“who is responsible for transport”， $arg_2 (Passenger)$ ：“who is being transported”， $arg_3 (Vehicle)$ ：“what is the vechile used”， $arg_4 (Origin)$ ：“where the transporting originated”， $arg_5 (Destination)$ ：”where the transporting is directed“。

演示样本(Demonstrations Store)：Brown等人提出使用上下文内演示（输入输出对）作为提示来测试大型预训练语言模型的零样本性能。对于我们的检索增强方法，我们表示要从 $S T$ 中选择的一组Demonstrations Store/提示。在这项工作中，我们使用训练集启动 $S T$ 。

数据和采样策略：在完全监督的环境中，我们使用整个训练集（1）来训练模型；（2）作为Demonstrations Store。

在少样本设置中，出于减少标注成本的需要，我们假设只有固定的预算用于注释 $K$ 个示例的训练论元，并将标注子集称为 $S_{few}$ 。然后，我们使用 $S_{few}$ 作为训练集和Demonstrations Store

3、方法

我们首先描述了检索增强生成问答模型（图2），包括（1）生成模型以及如何构建Demonstrations（提示）以及最终输入和目标序列；（2）训练、解码、后处理细节；以及它们与基于模板生成的模型的区别。然后，我们介绍了基于聚类的采样策略，以使少样本设置的训练示例多样化。

3.1 检索增强生成问答

BART是基于Vaswani等人的大型预训练编码器-解码器 transformer 架构。其预训练目标是重建原始输入序列（去噪自动编码器）。此前的工作报告称，这一目标有助于解决抽取问题。因此，我们使用预训练的BART作为基础模型。如图2所示。对于每个论元角色，R-GQA模型的输入 $x$ 都取决于（1）当前示例的上下文；（2）角色的问题（3） Demonstrations Store $S T$ 。我们将在下面解释详细信息。正确序列 $y$ 基于当前训练实例的正确的论元跨度。其目的是找到 $\hat y$ ，
$\hat y=\mathop {argmax} \limits_{y} \ p(y|x)$
其中 $p (y ∣ x)$ 是给定输入 $x$ 的预测论元序列 $y$ 的条件对数似然。

为了构建 $x, y$ ，除了BART词汇表中标记的特殊标记——包含分割token([sep])，序列的开始/结束 token( $,\$ )。我们新添加三个token：[demo]、[tgr]、[sep_arg]。更详细地讲：[demo]表示输入序列的哪个部分是陈述/提示，[trg]标志输入上下文事件触发词，[sep_arg]用于分隔正确的token论元。

给出一个案例(包含文本内容和触发词)，对于事件类型 $E$ 的每一个论元角色，输入格式如下所示，我们实例化所有的组件以获得最终的输入序列：

$x=\ [demo]$ ~~Demonstration $[d e m o]$ Question $[s e p]$ Input Context~~ $< / s >$

"Question"来自于各个本体(第二节)的问题集合；“Input Context”我们使用标记 $[t r g]$ 当前的示例的触发词强调。对于图2的示例，输入的上下文将变成“… John M is [trg] nominated [trg] by …”。

至于“Demonstration”，我们首先从demonstration store $ST=\{ d_1,d_2,...\})$ 中选择 $d_r$ ，它和当前问题和输入上下文最相似，他是一个 $(< Q u e s t i o n, C o n t e x t >, A r g u m e n t s)$ 对。我们将这些组件(他们之间有分隔标记)连接起来，作为最后的demonstration sequence。

Demonstration $d_r$ = $Q_r$ [sep] $C_r$ [sep] The answer is: $A_r$ .

我们使用S-BERT来计算当前实例和 $S T$ 中所有 demonstration 之间的相似性分数。S-BERT是BERT模型的修改，该模型使用语义和三元组网络结构来获得单词序列的语义意义嵌入。

为了构建目标（序列），我们首先确定要从 demonstration 中学习多少——如果相似度得分高于阈值（由 dev set 确定），并且demonstration 和当前实例都有非空答案，那么我们将 1（Y）分配给 $y_{analogy}$ ，否则为 0（N）。然后我们用[sep_arg]连接角色的所有论元跨度，以构造 $y_{seq2seq}$ ，

$y_{seq2seq} =\ Argument_1 \ [sep_arg] \ Argument_2 \ [sep_arg] \ ...$

最终的 $y$ 应该包含 $y_{seq2seq},y_{analogy}$ 。

3.2 训练和推理

训练：在准备好 $S=\{ (x^{(i)},y^{(i)}) \}_{i=1}^{|S|}$ 。损失函数将被定义如下：
$L=L_{seq2seq}+L_{anaalogy} \\ L_{seq2seq}=-\sum_{i=1}^{|S|} log p(y_{seq2seq}^{(i)}|x^{(i)};\theta) \\ =-\sum_{i=1}^{|S|} \sum_{j=1}^{|y_{seq2seq|}^{(i)}} log p(y_{j}^{(i)}|x^{(i)};y_{L=Lseq2seq+LanaalogyLseq2seq=−i=1∑∣S∣logp(yseq2seq(i)∣x(i);θ)=−i=1∑∣S∣j=1∑∣yseq2seq∣(i)logp(yj(i)∣x(i);y<j(i);θ)$

推理和后处理：在测试时，我们进行贪心策略解码以获得目标序列，然后使用[seq_arg]进行分割。由于还需要获取输入上下文中论元的偏移量，因此我们会自动将候选论元的跨度与输入上下文匹配。然后，如果没有匹配的跨度，我们丢弃候选论元；如果有多个匹配，我们选择最接近触发词的一个。例如，如果输入上下文是“One of those diffcult judges [John M.] is nominated (Type: nomination) by Adam to be chief justice in 2000… [John M.] started office on … ”，并且PERSON这个角色有两种候选论元（括号内），那么我们使用第一位候选论元的补偿。与我们的方法不同，基于模板的生成方法生成的序列类似于第2节中的序列——导致模型（1）没有充分利用事件类型之间角色的语义关系；（2）需要更复杂的后处理，包括从生成的模板获取论元的附加步骤。

3.3 少样本设置和采样策略

在少样本设置中，我们假设我们有预算为有限数量的示例论元（所有示例的5%-20%）获取标注以用于训练。我们将少数训练示例集表示为 $S_{few}$ 。我们研究了（1）不同的采样策略如何影响 $S_{few}$ 的分布和模型的性能；（2）如何选择最好的一组示例（零轮或一轮），并对其进行标注以进行训练，从而在测试时获得更好的性能。

我们提出一个采样方法叫做JointEnc。它使用k-means算法聚类输入上下文和触发词的嵌入。与一轮主动学习设置相比，这更容易实现，因为我们的方法不需要迭代训练/测试来选择未标记的示例。算法1中详细说明了我们如何获得 $S_{few}$ 。具体来说，我们首先为每个未标记的示例获得上下文和触发文本的嵌入（第3-6行）。然后我们对嵌入进行基于k_means的聚类（第7行）。最后，我们计算了所有集群中示例的比例；并将每个簇的相应数量的示例添加到 $S_{few}$ （第8-12行）。

4、实验和分析

我们在两个数据集上进行了实验，并在三种设置中将我们的模型与基线进行了比较：（1）全监督设置；（2）领域迁移设置；（3）少样本训练设置。

4.1 数据统计和评估

使用Precision§、Recall®、F-measure(F1) score评估指标。

4.2 Baseline

EEQA、GenIE、Generative QA。

4.3 全监督设置结果

4.4 R-GQA如何在领域迁移设置中执行

为了模拟真实世界的设置，我们检查了模型对测试新本体集（事件类型和论元类型）的可移植性。更具体地说，我们在ACE05（有33种事件类型）上进行训练，并在WikiEvent数据集（有50种事件）上进行测试。

在表3中，我们展示了领域迁移的结果。对于这种新设置，与完全监督的设置相比，最佳方法在WikiEvent上的性能降低了约20%（F1）。主要原因是：（1）与ACE05相比，WikiEvent数据集更为困难——各模型的性能下降约5-10%F1；（2） WikiEvent的测试集包含许多不同于ACE05现有事件/论元类型的事件/论元。因此，我们发现明显事件类型的数据子集的性能大幅下降。我们在附录B中列出了这些类型。当比较基于QA的生成模型和GenIE时，我们观察到（1）基于QA的模型的召回率显著较高（>10%）——导致了大参数识别性能的提高；而我们的模型没有在precision上大优势。但总体性能（F1）始终更高；（2）我们的R-GQA模型的检索组件有助于模型生成更多论元，并改进R和F1。

4.5 R-GQA在少样本设置中的表现如何以及采样策略的影响

我们展示了不同采样方法（包括一轮主动学习设置）的结果，以找出事件论元抽取任务标注（具有固定预算）的更重要因素。也就是说，我们使用以下策略从“未标记”的示例中进行采样：随机选择（几乎）匹配测试集中事件类型分布的示例；AL是一种基于一轮主动学习的方法——基本上，一个模型是在100个带有标注的示例上训练的，并选择最具挑战性（模型最不确定）的未标记示例。我们的JointEnc策略首先对未标记的示例进行聚类（基于输入上下文和触发词文本），并从每个集群中选择与每个集群的大小成比例的#个示例；上下文也进行类似于JointEnc的基于聚类的采样但是仅根据上下文嵌入每个示例。

对于采样量增加的少样本设置，我们计算了从每个策略采样的样本分布与真实数据分布（由带标签的训练数据表示）之间的 Hellinger 距离（Beran，1977）。距离如图3所示。我们观察到（1）采样样本分布与真实数据分布之间的距离随着采样大小的增加而减小；（2）基于JointEnc的采样数据通常最接近不同采样大小的真实数据分布。相应地，图4报告了在每个策略的样本上训练的R-GQA的性能。根据我们JointEnc的示例训练的模型优于其他策略，展示了JointEnc方法的有效性。

此外，我们发现分布距离与少样本实验结果之间存在相关性——距离越小，在采样集上训练的模型性能越好。当样本量较小（训练数据的5%-10%）时，这种现象尤为明显。我们还在附录（第D节）中提供了每种事件类型的分析。

5、相关工作

事件抽取、抽取和生成方法 传统上，研究人员一直在研究事件/信息抽取的抽取方法。具体而言，一个工作分支使用基于B-I-O序列标记的方法，使用CRF或结构化SVM模型，最近使用神经网络。提取方法的另一个分支包括使用跨度枚举，以及使用问题回答来鼓励论元角色之间的转换。

最近，提出了基于生成的方法。其中，TANL提出将基于翻译的方法用于结构化预测。更具体地说，它通过在输入句子中的实体提及周围插入文本token和标签来构造解码目标。更好地捕获跨实体依赖关系。Huang等人提出了基于模板生成的方法。他们用论元填充模板中的角色槽（例如第2节），以构建正确序列。与TANL和基于模板生成的方法相比，我们的R-GQA被设计为具有更简单生成目标的基于QA的生成模型。此外，它还使用训练集中最类似的 demonstration 作为提示来增强当前示例的上下文。它同时兼顾了两个方面（即问题回答和生成模型）。

检索增强文本生成和上下文学习 最近的研究表明，检索增强在许多生成性NLP任务中的有效性，如知识密集型问题解答和对话响应生成。它们主要检索附加知识或相关信息，但不检索 demonstration（输入输出对）。另一个密切相关的工作分支是上下文学习，这是一种无需调整的方法，通过提供演示（输入输出对）作为生成“答案”的提示来适应新任务。GPT-3建议使用随机示例作为演示。Liu等人提出检索语义上与当前示例相似的演示作为提示，从而改进了该策略。他们展示了PLM从类似例子中学习的能力。

与上述工作不同，我们的工作从检索增强文本生成和上下文学习中获得了见解。它（1）从训练集检索最相似的 demonstration （QA对）并将其用作提示；（2）使用梯度下降来优化模型。此外，它侧重于特定的论元抽取问题——我们的模型不仅通过 demonstration 来增强输入上下文，而且还决定从中学习多少（通过模拟损失训练）。

6、总结

在这项工作中，我们介绍了一种用于事件论元抽取的检索增强生成问题回答框架（RGQA）。我们的模型为每个角色生成论元（答案），条件是当前输入上下文和类比 demonstration 提示（基于它们的语义相似性）。经验上，我们表明，R-GQA在完全监督、跨领域和少样本学习环境中以较大的准确率优于当前基准。我们进行了彻底的分析，并对不同的采样策略如何在少样本学习环境中影响模型的性能进行了基准测试。我们发现，对于事件论元抽取，多样化的示例使采样分布更接近真实分布，并有助于模型更好的性能。

限制

这个工作包含几项限制：

首先，由于我们使用的预训练模型（BART Large）具有许多参数，一个模型的训练将几乎占用一个NVIDIA Tesla V100 16GB GPU；至于推断，大约需要1GB的空间。

尽管基于BART的模型（GenIE和R-GQA）是端到端的，并且有很大的性能提升，但与基于手动特征的方法相比，推断时间（约2个示例/秒）略长。

在真实的领域迁移设置中，模型的总体性能仍然低于40%（F1），使得系统在真实环境中没有竞争力。在未来，如何通过更一般的本体来应对这一挑战是值得研究的。

【限时干货】Calibre智能分类，轻松突破内网限制畅享电子书库比头发还脆弱服务器 tcp/ip linux
文章目录前言1.网络书库软件下载安装2.网络书库服务器设置3.内网穿透工具设置4.公网使用kindle访问内网私人书库前言本研究旨在构建一套运行于微软操作系统环境下的独立电子图书管理体系，核心目标是建立可远程操作的资源访问机制。该架构采用高可用性设计，在第三方阅读平台服务中断时仍能保障数字内容传输的稳定性。系统创新性地融合了两大核心技术组件：通过Calibre开源软件实现文献分类算法与格式转换功能
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
深入解析C++中 std::sort背后的实现原理 —Introsort（Introspective Sort）点云SLAM C++c++算法数据结构快速排序排序算法堆排序深度优先
Introsort简介Introsort是一种混合排序算法，结合了三种经典算法的优点：算法用于特点快速排序通常情况平均时间复杂度O(nlogn)堆排序当快速排序退化（递归过深）时最坏时间复杂度O(nlogn)插入排序小规模数组时（如长度≤16）常数开销小，快Introsort运行机制排序逻辑如下：if(size2*log2(n))堆排序（HeapSort）else快速排序（QuickSort）快速
冒泡排序算法详解（含Python代码实现）算法_小学生算法
冒泡排序（BubbleSort）是最基础的排序算法之一，通常用于学习排序算法的入门理解。本文将通过Python代码实现冒泡排序，并详细讲解其原理、执行流程、复杂度分析及适用情况。✨一、算法简介冒泡排序的核心思想是：相邻两个元素比较，将较大的元素不断“冒泡”至右侧，最终实现排序。其基本过程是重复比较相邻的元素，如果顺序错误就交换，重复这一过程，直到没有任何需要交换的为止。二、Python代码实现下面
揭秘 Spring Cloud Zuul 在后端的负载均衡策略大厂资深架构师 Spring Boot 开发实战 spring cloud 负载均衡 spring ai
揭秘SpringCloudZuul在后端的负载均衡策略关键词：SpringCloudZuul、负载均衡、微服务网关、Ribbon、请求路由摘要：在微服务架构中，API网关是流量的“总调度员”，而负载均衡则是它的“智能大脑”。本文将以“小区门卫派件”为故事主线，用通俗易懂的语言揭秘SpringCloudZuul如何通过集成Ribbon实现后端负载均衡。我们将从核心概念到算法原理，从代码实战到应用场景
【力扣（LeetCode）】数据挖掘面试题0013：1264. 页面推荐（泛化后，基于MySQL题解）言析数智数据挖掘常见面试题 leetcode 数据挖掘 mysql 笔试笔试题
文章大纲一、题目要求：二、模拟数据构建三、题解参考方案朋友关系列表：Friendship+---------------+---------+|ColumnName|Type|+---------------+---------+|user1_id|int||user2_id|int|+---------------+---------+(user1_id,user2_id)是这张表具有唯一值的列
【NWFSP问题】基于中华穿山甲算法CPO求解零等待流水车间调度问题NWFSP研究（Matlab代码实现）
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述1.引言2.理论基础2.1中华穿山甲算法（CPO）核心原理2.2NWFSP数学模型3.CPO-NWFSP求解框架设计3.1编码与解码3.2离散化位置更新3.3目标函数适配4.实验设计与性能分析4.1实验设置4.2结果分析4.3敏感性分析5.结论与展望
LRU Cache Mr_Xuhhh c++c语言算法开发语言 python
LRUCache定义缓存算法（LeastRecentlyUsed)核心思想最近最少使用或最久未使用。当缓存空间不足时，它会优先淘汰最长时间没有访问的数据项类比：图书馆的书架管理，经常被借阅的书放在最前面方便取用，而长期无人问津的书会被移到后面或下架数据结构选择与设计1）双向链表1.用于维护元素的访问顺序，最近访问的元素放在链表头部，最久未被访问的放在尾部2.支持O（1）时间复杂度的任意位置插入和删
【Python】simulink与python联合仿真
1.1Simulink的边界：事件驱动、算法复杂性与AI集成瓶颈Simulink的核心优势在于其强大的微分方程求解器和对连续时间系统、离散时间系统的精确描述能力。其基于“信号流”和“框图”的建模范式，使得工程师可以直观地构建与物理现实高度对应的数学模型。然而，这种优势也带来了其天然的局限性：基于时间的驱动核心(Time-BasedCoreEngine):Simulink的“心脏”是一个时间驱动的仿
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
【PyTorch】教程：torch.nn.GELU 老周有AI~算法定制 PyTorch pytorch 深度学习 python
torch.nn.GELU原型CLASStorch.nn.GELU(approximate='none')参数approximate(str,optional)–gelu近似算法用none或者tanh，默认为none;定义高斯误差线性单元函数GELU(x)=x∗ϕ(x)\text{GELU}(x)=x*\phi(x)GELU(x)=x∗ϕ(x)其中ϕ(x)\phi(x)ϕ(x)为高斯分布的累积分布
数据结构之栈实验 lannnn_ 学习记录数据结构 c语言栈
栈实验实验目的实验环境实验要求实验内容源代码运行结果实验目的掌握栈这种数据结构特性及其主要存储结构，并能在现实生活中灵活运用。实验环境CodeBlocks实验要求1.熟悉c语言的语法知识；2.掌握栈的顺序存储结构—顺序栈的定义、构造、获得栈顶元素、入栈、出栈等基本操作；实验内容完成栈的定义、构造、获得栈顶元素、进栈、出栈等函数的编写。要求在主函数中实现对以上操作的调用，编写一个算法判断给定的字符向
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
新手必看：入行大模型前一定要知道的几件事！和老莫一起学AI 人工智能 java 机器学习大模型算法程序员转行
大模型怎么转？适合哪些人？哪些方向对新手友好？又有哪些坑你必须避开？文章有点长，但全是我这几年观察下来最真实的经验，如果你真的想搞懂大模型、入场不踩坑，建议认真读完，或先收藏慢慢看。一、大模型≠ChatGPT，先搞清“全景图”再出发说句真话，很多人对“大模型”的第一印象就是——ChatGPT。但这只是它的"最上层"，底下的基建、平台、算法、数据处理、推理部署……才是撑起整个技术栈的骨架。入行大模型
php字符串匹配算法,字符串查找算法及原理
面试题:判断字符串是否在另一个字符串中存在？面试时发现好多人回答不好,所以就梳理了一下已知的方法,此文较长,需要耐心的看下去。从实现和算法原理两方面解此问题，其中有用PHP原生方法实现也有一些业界大牛创造的算法。实现方法一:语言特性-内置函数/*strpos示例*///testecho'match:',strpos('xasfsdfbk','xasfsdfbk')!==false?'true':'
字符串的两种模式匹配算法--暴力法与KMP算法
对于字符串而言，最常见的基本操作莫过于查找某一字符串（模式串）在另一字符串（主串）中的位置，这一操作过程叫做字符串的模式匹配，常见的模式匹配算法有朴素模式匹配算法和KMP模式匹配算法，下面结合代码对这两种模式匹配算法的思想做个总结。参考博客：很详尽的KMP算法（厉害）1.朴素模式匹配算法（暴力法）朴素模式匹配算法的思想就是，把主串中的每一个字符作为子串开头，与要匹配的字符串进行逐字符匹配，直到所有
DTW 动态时间规整：时间序列的柔性桥梁
在时间的长河中，数据如浪花般不断涌现，而时间序列数据更是其中璀璨的存在。当我们试图比较两段时间序列时，常常会遇到一个棘手的问题：就像两位舞者，他们演绎着相同的舞蹈，却有着不同的节奏与速度，直接对比难以判断二者的相似度。而DTW（DynamicTimeWarping，动态时间规整）算法，就像一座神奇的柔性桥梁，能够跨越时间节奏的差异，精准度量时间序列间的相似性，在众多领域发挥着不可或缺的作用。一、D
串---暴力字符串匹配算法实现 KYGALYX 数据结构算法数据结构
暴力字符串匹配算法详解暴力字符串匹配算法（BruteForceStringMatchingAlgorithm）是一种简单的字符串匹配算法，它通过逐个比较主串中的字符与模式串中的字符来进行匹配。虽然这种方法简单直观，但在最坏情况下可能需要多次比较，导致效率较低。本文档将详细介绍暴力字符串匹配算法的原理、步骤以及如何在C语言中实现。1.暴力字符串匹配算法原理1.1主串与模式串主串：待搜索的字符串。模式
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
搜索领域SEO进阶：内容优化与用户体验提升搜索引擎技术 ux ai
搜索领域SEO进阶：从关键词堆砌到用户价值——内容优化与体验升级的实战指南关键词SEO进阶、内容质量、用户体验、E-E-A-T、用户行为信号、结构化数据、页面速度优化摘要当“SEO=关键词堆砌”的时代成为历史，当搜索引擎算法从“识别文字”进化到“理解意图”，SEO从业者正面临一场从“技术投机”到“用户价值”的范式转移。本文将深度拆解搜索领域的进阶策略：从内容优化的核心逻辑（E-E-A-T框架、主题
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
LRU缓存算法在搜索引擎中的应用数据结构与算法学习缓存算法搜索引擎 ai
LRU缓存算法在搜索引擎中的应用关键词：LRU算法、缓存淘汰、搜索引擎、哈希表、双向链表、性能优化、访问频率摘要：本文深入探讨了LRU(最近最少使用)缓存算法在搜索引擎中的关键应用。我们将从基本概念出发，通过生活化的比喻解释LRU的工作原理，分析其在搜索引擎架构中的具体实现方式，并通过Python代码示例展示如何构建一个高效的LRU缓存系统。文章还将讨论LRU算法的数学建模、实际应用场景以及未来发
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
python系列之：使用md5和sha256完成签名认证，调用接口快乐骑行^_^ 前端和后端开发 python系列使用md5和sha256 完成签名认证调用接口
python系列之：使用md5和sha256完成签名认证，调用接口MD5签名和sha256签名认证md5认证代码sha256认证代码拼接签名生成签名拼接url调用接口MD5签名和sha256签名认证MD5签名认证算法特性：生成128位(16字节)的哈希值计算速度快已被证明存在碰撞漏洞(不同输入可能产生相同输出)签名认证流程：发送方对原始数据计算MD5哈希值将哈希值附加到数据中发送接收方重新计算接收
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
零基础数据结构与算法—— 第三章：高级数据结构-总结 qqxhb 零基础数据结构与算法小学生编程算法数据结构算法树堆哈希表图
3.1树（上）3.1树（下）3.2堆（Heap）3.3哈希表（HashTable）3.4图（Graph）3.5高级树结构3.6本章小结在本章中，我们深入学习了几种重要的高级数据结构，这些数据结构在解决复杂问题时具有强大的能力。让我们回顾一下本章的主要内容：1.堆（Heap）堆是一种特殊的完全二叉树，具有堆序性质。我们学习了：最大堆和最小堆的概念和性质堆的基本操作（插入、删除堆顶、获取堆顶、构建堆）
推客系统全栈开发指南：从架构设计到商业化落地 ywyy6798 系统小程序分销系统短剧系统海外短剧系统推客系统推客小程序
一、推客系统概述推客系统（TuiKeSystem）是一种结合社交网络与内容分发的创新型平台，旨在通过用户间的相互推荐机制实现内容的高效传播。这类系统通常包含用户关系管理、内容发布、智能推荐、数据分析等核心模块，广泛应用于电商导购、知识分享、新闻资讯等领域。推客系统的核心价值在于：利用社交关系链实现内容病毒式传播通过激励机制提升用户参与度基于用户行为数据优化推荐算法构建内容生产者与消费者的良性互动生
推客系统开发：从0到1构建高效社交化推荐引擎 wx_ywyy6798 推客系统分销系统海外短剧系统推客小程序推客系统开发推客小程序开发推客分销系统
在信息爆炸的时代，如何让用户快速获取感兴趣的内容？推客系统（推荐引擎）成为解决这一问题的核心方案。无论是电商、内容平台还是社交应用，精准的推荐算法都能显著提升用户粘性和转化率。本文将带您了解推客系统的核心模块与开发要点，助您快速构建高效的推荐体系。一、推客系统的核心价值个性化体验：基于用户行为数据（浏览、点赞、收藏等）生成定制化推荐。流量高效分发：解决“信息过载”问题，提升内容/商品的曝光率。商业
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

Retrieval-Augmented Generative Question Answering for Event Argument Extraction论元解读

Retrieval-Augmented Generative Question Answering for Event Argument Extraction

摘要

1、简介

2、问题描述和定义

3、方法

3.1 检索增强生成问答

3.2 训练和推理

3.3 少样本设置和采样策略

4、实验和分析

4.1 数据统计和评估

4.2 Baseline

4.3 全监督设置结果

4.4 R-GQA如何在领域迁移设置中执行

4.5 R-GQA在少样本设置中的表现如何以及采样策略的影响

5、相关工作

6、总结

限制

你可能感兴趣的:(算法,自然语言处理,信息抽取,数据挖掘)