自然语言处理CS

用于实体和关系抽取的封装式悬空标记

Packed Levitated Marker for Entity and Relation Extraction

用于实体和关系抽取的封装式悬空标记

1. Abstract

最近的实体和关系提取工作主要集中在研究如何从预先训练的编码器中获得更好的跨度表示。然而，现有工作的一个主要局限性是它们忽略了跨度(对)之间的相互关系。本文提出了一种新的跨度表示方法，称为填充悬浮标记(PL-Marker)，通过在编码器中策略性地包装token来考虑跨度(对)之间的相互关系。特别是，本文提出了一种面向邻域的布局策略，该策略综合考虑了邻域跨度，以更好地对实体边界信息进行建模。此外，对于较复杂的跨度对分类任务，本文设计了一种面向subject的打包策略，将每个subject及其所有object打包，以建模相同subject跨度对之间的相互关系。实验结果表明，利用增强的标记特征，本文的模型在6个NER基准上提升了基线，在ACE04和ACE05上获得了4.1%-4.3%的严格关系F1改进，并且速度更快。

2. Instruction

三种SPAN表示提取方法被广泛使用：(1)T-Concat将SPAN的边界(开始和结束)标记的表示连接起来，以获得SPAN表示。它在token级收集信息，但在跨度的边界标记通过网络时忽略它们之间的连接；(2)Solid Marker明确地在跨度前后插入两个实心标记，以在输入文本中突出显示该跨度。并插入两对标记来定位跨度对中的subject和object。然而，该方法不能同时处理多个跨距对，因为它在从序列中的多于两对标记中指定跨距对的固体标记方面存在弱点。(3)Levitated Marker悬浮标记首先设置一对悬浮标记与跨度的边界标记处于同一位置，然后通过定向注意将一对标记捆绑在一起。具体地说，一对内的标记被设置为在注意掩码矩阵中彼此可见，但对文本标记和其他标记对不可见。现有的工作简单地将固体标记替换为悬浮标记以实现高效的批处理计算，但牺牲了模型的性能。

在这项工作中，本文引入了包装悬浮标记(PL-Marker)，通过在编码阶段策略性地包装悬浮标记来建模跨度(对)之间的相互关系。将悬浮标记打包在一起用于跨度分类任务的一个关键挑战是，插入的悬浮标记的数量增加将平方地加剧PLM的复杂性。因此，为了提高速度和可行性，本文必须将跨度分成几组来控制每个输入序列的长度。在这种情况下，有必要整体考虑相邻跨度，这可以帮助模型比较相邻跨度，例如具有相同开始token的跨度，以获得更精确的实体边界。因此，本文提出了一种面向邻域的打包策略，将具有相同起始token的跨度尽可能地打包到一个训练实例中，以更好地区分实体边界。

对于较复杂的跨度对分类任务，理想的包装方案是将所有跨度对与多对悬浮标记打包在一起，对所有跨度对进行整体建模。然而，由于每一对悬浮标记已经被定向注意捆绑在一起，如果本文继续应用定向注意来绑定两对标记，悬浮标记将无法识别相同跨度的伙伴标记。因此，本文采用了固体标记物和悬浮标记物的融合，并使用面向subject的打包策略对subject及其所有相关object进行整体建模。具体地说，本文用固体标记物强调subject跨度，并用悬浮标记物包装其所有候选object跨度。此外，本文应用了面向subject的包装策略来实现完整的双向建模。

本文考察了PL-Marker在两个典型的跨度(对)分类任务NER和End-to-End RE上的效果。实验结果表明，面向邻域布局的PL-Marker在NER上的性能明显好于随机布局的模型，说明了综合考虑邻域跨度的必要性。并在6个NER基准上提出了TConcat模型，验证了SPAN标记获取特征的有效性。此外，与现有的RE模型相比，本文的模型在ACE04和ACE05上获得了4.1%-4.3%的严格关系F1改进，并且在SciERC上也取得了更好的性能，这表明了考虑面向subject的跨度对之间的相互关系的重要性。

3 Method

3.1 Background: Levitated Marker

悬浮标记被用作固体标记的近似，它允许模型同时对多对实体进行分类，以加快推理过程。与跨度相关联的一对悬浮标记由开始token标记和结束token标记组成。这两个标记与相应跨度的开始和结束标记共享相同的嵌入位置，同时保持原始文本标记的位置ID不变。为了并行地指定多对悬浮标记，应用了定向注意掩码矩阵。具体地说，每个悬浮标记对于注意掩码矩阵中成对的其伙伴标记是可见的，但对于文本标记和其他悬浮标记不可见。同时，悬浮标记器能够关注文本标记以聚集其关联跨度的信息。

3.2 Neighborhood-oriented Packing for Span

得益于悬浮标记器的并行性，本文可以灵活地将一系列相关跨度打包成一个训练实例。在实践中，本文将多个关联的悬浮标记附加到输入序列中，以对每个跨度进行全面的建模。

然而，即使实体长度受到限制，一些跨度分类任务仍然包含大量的候选跨度。因此，本文必须将标记分成几个批次，以使模型在实践中具有更高的速度和可行性。为了更好地模拟具有相同起始token的跨度之间的连接，本文采用了面向邻域的打包方案。如图2所示，本文首先对悬浮标记对进行排序，将开始标记的位置作为第一个关键字，结束标记的位置作为第二个关键字。之后，本文将它们分成大小最大为K的组，从而将相邻的跨度聚集到同一组中。本文将每组标记打包，并在多次运行中分散处理它们。

形式上，给定N个文本标记的序列， $X=\{x_1,...,x_N\}$ 和最大跨度长度L，本文将候选跨度集定义为 $S(X)=\{(1,1),...,(1,L),...,(N,N-L),...,(N,N)\}$ 。本文首先按顺序将S(X)分成直到K大小的多个组。例如，本文将K个跨度 $\{(1,1),(1,2),...,(\frac{K}{L},K-\frac{K-1}{L}*L)\}$ 聚集到组 $S_1$ 中。

本文将一对悬浮标记与 $S_1$ 中的每个跨度相关联。然后，本文将文本token和插入的悬浮标记的组合序列提供给PLM(例如BERT)以获得开始token标记 $H^{(s)}=\{h_i^{(s)}\}$ 和结束token标记 $H^{(e)}=\{h_i^{(e)}\}$ 的上下文表示。这里，$H^{{(s)}与跨度H}{(e)}相关联，本文得到其跨度表示：

其中[A；B]表示向量A和B上的串联运算。

例如，本文将悬浮标记应用于一个典型的重叠跨度分类任务NER，该任务旨在为句子中的每个可能的跨度分配一个实体类型或一个非实体类型。本文通过填充的悬浮标记从PLM中获得跨度表示，然后结合PL-Marker和T-Concat的特征来更好地预测候选跨度的实体类型。

3.3 Subject-oriented Packing for Span Pair

为了获得跨度对表征，一种可行的方法是采用悬浮标记来同时强调一系列主object跨度。通常，每一对悬浮标记都被定向注意捆绑在一起。但如果本文继续应用定向注意来绑定两对标记，悬浮的标记将无法识别相同跨度的伙伴标记。因此，如图2所示，本文的跨度对模型采用了面向融合subject的打包方案，为相同的subject跨度提供了一个完整的建模。

形式上，给定输入序列X，主语跨度 $s_i=(a,b)$ 及其候选宾语跨度 $c_1,d_1),(c_2,d_2),..,(c_m,d_m)$ ，本文在主语跨度前后插入一对实心标记[S]和[/S]。
然后，本文将悬浮标记[O]和[/O]应用到所有候选object跨度，并将它们打包成一个实例。让 $\overset{\wedge}{X}$ 表示此修改

其中由符号∪连接的token共享相同的位置嵌入。本文在 $\overset{\wedge}{X}$ 上应用预先训练的编码器，最终得到 $s_i=(a,b) and s_j=(c,d)$ 的跨度对表示：

其中[；]表示串联操作。 $h_{a-1} and h_{b+1}$ 表示用于 $s_i$ 的插入的实心标记的上下文表示； $h_c^{(s)} and h_d^{(e)}$ 是用于 $s_j$ 的插入的悬浮标记的上下文表示。

与分别在subject和object上使用两对固体标记物的方法相比，本文的融合标记物方案用悬浮标记物代替了固体标记物，这在一定程度上会影响对object跨度的强调。为了提供补充信息，本文引入了从object到主语的反向关系来进行双向预测。例如，本文在一个典型的SPAN对分类任务-端到端RE上对本文的模型进行了评估，该任务集中于识别所有SPAN对是否相关以及它们的关系类型。本文首先使用NER模型对候选实体跨度进行过滤，然后得到过滤后实体跨度对的跨度对表示，以预测它们之间的关系。此外，为了建立实体类型和关系类型之间的联系，本文增加了一个辅助损失来预测object实体的类型。

3.4 Complexity Analysis

在大型前馈网络的主导下，PLM的计算量几乎随着小序列长度的增加而线性上升。逐渐地，随着序列长度的继续增长，由于自我注意模块，计算呈二次曲线扩大。显然，悬浮标记的插入延长了输入序列的长度。对于跨度对分类任务，候选跨度数相对较少，因此增加的计算量有限。对于跨度分类任务，本文将tokens分成几个批次，这样可以将序列长度控制在复杂度近似线性增加的区间内。对于NER，本文列举了一个小句子中的候选跨度，然后利用它的上下文词将句子扩展到512个标记词，在实践中，一个句子中候选跨度的数量通常少于上下文长度。因此，在包装群数目较少的情况下，PL-Marker的复杂性仍然与以前的模型的复杂性接近线性。

此外，为了进一步降低推理成本，本文采用了PL-Marker作为两阶段模型的后处理模块，用于从一个更简单、更快的模型提出的少量候选实体中识别实体。

4 Experiment

4.2 Named Entity Recognition

4.2.1 Results

本文在表2中显示了平面NER结果，在表3的Ent列中显示了嵌套的NER结果。

实验结果表明：

在三个平坦的NER数据集上，基于邻域布局策略的模型性能均优于采用随机布局策略的模型，尤其是对Few-NERD的性能提高了9.4%。Few-NERD包含更长的句子，因此平均包含325个候选跨度，而CoNLL03和OntoNotes5.0分别仅包含90个和174个候选跨度。结果表明，面向邻域的打包策略能够很好地处理句子较长、标记组较多的数据集，较好地模拟了邻域跨度之间的相互关系。
在使用相同的大型预训练编码器的情况下，PL-Marker在所有六个NER基准测试中的F1绝对值比T-Concat提高了+0.1%-1.1%，这表明了悬浮式标记器在聚合跨度表示实体类型预测方面的优势。
在CoNLL03、OntoNote 5.0和Low-Nerd中，PL-Marker的绝对F1分别比SeqTagger高+0.4%、+0.7%和+1.9%，其中CoNL03、OntoNote 5.0和Low-Nerd分别包含4、18和66种实体类型。这些改进证明了PL-Marker在处理不同类型实体之间的不同相互关系方面的有效性。

4.3 Relation Extraction

4.3.1 Results

如表3所示，使用相同的BERT-BASE编码器，本文的方法比以前的方法在ACE05上的F1严格提高了1.7%，在ACE04上的F1值严格提高了2.5%。

使用SciBERT编码器，本文的方法在SciERC上也实现了最佳性能。使用更大的编码器ALBERT-XXLARGE，本文的NER和RE模型都得到了进一步的改进。与之前最先进的模型PURE(FULL)相比，本文的模型分别在ACE05和ACE04上获得了显著的+4.1%和+4.3%的严格关系F1改进。这些相对于PURE的改进表明了在训练过程中对相同subject或相同object实体对之间的相互关系进行建模的有效性。

4.4 Inference Speed

在这一部分中，本文比较了模型在批处理大小为32的A100 GPU上的推理速度。本文在实验中使用了用于ACE05和SciERC的基本尺寸编码器和用于平板NER模型的大尺寸编码器。

4.4.1 Speed of Span Model

在CoNLL03和FewNERD上评估了不同组大小的PL-Marker的推理速度。本文还评估了一个级联两阶段模型，它使用一个快速的基本大小的T-Concat模型来为本文的模型过滤候选跨度。如表4所示，与CoNLL03相比，PL-Marker实现了0.4F1的改进，但与SeqTagger模型相比，速度损失了60%。

本文观察到，本文提出的两阶段模型与PL-Marker的性能相似，在少数人上的加速比为3.1倍，这表明使用PL-Marker作为后处理模块来阐述简单模型中的粗略预测是更有效的。此外，当团队规模增长到512时，由于transformer的复杂性增加，PLMarker的速度会变慢。因此，在实践中，本文选择256个组大小。

4.5 Case Study

本文给出了几个例子来比较本文的SPAN模型和T-CONCAT，以及本文的SPAN对模型和纯(FULL)模型。如表6所示，本文的SPAN模型可以收集加下划线的SPAN的上下文信息，如台湾和大陆，帮助预测其类型为组织而不是艺术品。本文的SPAN模型学习在训练阶段综合考虑同一subject关系事实之间的相互关系，从而成功地获得利亚娜和她的父母都在曼哈顿的事实。

4.6 Ablation Study

在这一部分，本文进行消融研究，以调查不同的组件对本文的RE模型的贡献，其中本文在实验中使用了基本尺寸编码器。

Two pairs of Levitated Markers

本文评估了w/o实体标记基线，它将两对悬浮标记分别应用于subject和object，并将所有跨度对打包到一个实例中。如表7所示，与PL-Marker相比，当给出黄金实体时，没有可靠标记的模型在ACE05和SciERC上的F1下降了2.0%-3.8%。

结果表明，由于一对悬浮标记已经被定向注意捆绑，因此继续应用定向注意捆绑两对悬浮标记是次优的。

Inverse Relation逆关系

本文为双向预测的每个不对称关系建立一个逆关系。本文对没有逆关系的模型进行了评估，该模型用非关系类型代替了所构造的逆关系，并采用了单向预测。如表7所示，在给定黄金实体的情况下，没有反向关系的模型在两个数据集上都下降了0.9%-1.1%F1，这表明了在本文的非对称框架中对从object实体到subject实体的信息建模的重要性。

Entity Type

在RE模型中加入辅助实体类型损失，引入实体类型信息。如表7所示，当给定黄金实体时，没有实体类型损失的模型在两个数据集上都下降了0.4%-0.7%的F1，这表明了实体类型信息在RE中的重要性。此外，本文还尝试使用类型标记，如[subject：PER]和[object：GPE]，将NER模型预测的实体类型信息注入到RE模型中。

本文发现，在端到端设置中，带有类型标记的RE模型的性能略逊于具有实体类型丢失的模型。结果表明，如果采用类型标记符作为输入特征，则NER模型的实体类型预测误差可以传播到RE模型。最后，本文讨论了何时使用RE模型中的实体类型预测来细化附录中的NER预测，并根据ACE04和ACE05的数据集统计数据最终细化了除SciERC之外的ACE04和ACE05的实体类型。

5 启示

在大环境都是联合抽取的情况下，陈丹琪大佬提出了流水线方法，这篇文章是其升级版。
由于计算了所有可能的span，因此时间复杂度比较高，作者也提出了方法缓解这个问题，由于没有复现代码，因此不敢评论时间复杂度如何。
在实体和关系抽取上的表现出奇的高，有兴趣的可以尝试继续做下去。
欢迎关注微信公众号：自然语言处理CS，一起来交流NLP。

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

用于实体和关系抽取的封装式悬空标记

Packed Levitated Marker for Entity and Relation Extraction

用于实体和关系抽取的封装式悬空标记

1. Abstract

2. Instruction

3 Method

3.1 Background: Levitated Marker

3.2 Neighborhood-oriented Packing for Span

3.3 Subject-oriented Packing for Span Pair

3.4 Complexity Analysis

4 Experiment

4.2 Named Entity Recognition

4.2.1 Results

4.3 Relation Extraction

4.3.1 Results

4.4 Inference Speed

4.4.1 Speed of Span Model

4.5 Case Study

4.6 Ablation Study

Two pairs of Levitated Markers

Inverse Relation逆关系

Entity Type

5 启示

你可能感兴趣的:(论文笔记,人工智能,机器学习,算法,关系抽取,命名实体识别)