zenRRan

一文详解关系抽取模型 CasRel

每天给你送来NLP技术干货！

来自：AI算法小喵

写在前面

今天来跟大家分享一篇发表在 2020ACL 上的实体关系抽取论文CasRel。

论文名称：《A Novel Cascade Binary Tagging Framework for Relational Triple Extraction》

论文链接：https://aclanthology.org/2020.acl-main.136.pdf

代码地址：https://github.com/weizhepei/CasRel

1. 关系抽取任务定义

实体关系抽取（关系抽取）是构建知识图谱非常重要的一环，其旨在识别实体之间的语义关系。换句话说，关系抽取就是从非结构化文本即纯文本中抽取实体关系三元组（SRO）。这里代表头实体，代表关系，代表尾实体。

上图展示了3个例子：

第一句文本中，“刘翔”和“上海”两个实体之间的语义关系是“出生地”。
第二句文本中，“张艺谋”与“菊豆”两个实体之间的语义关系是“导演”。
第三句文本中，“史蒂夫.乔布斯”与“苹果”之间的语义关系是“创始人”。

2. 关系抽取方法

关系抽取方法主要可分为两类：

管道学习方法（pipeline）：管道学习方法通常先抽取句子中的实体，然后再对实体对进行关系分类，从而找出SRO三元组。
联合学习方法（Joint）：联合学习方法同时进行实体识别和实体对的关系分类两个子任务。

许多实验证明联合学习方法由于考虑了两个子任务之间的信息交互，大大提升了实体关系抽取的效果，所以目前针对实体关系抽取任务的研究大多采用联合学习方法。

进一步地，联合学习方法又可以细分为以下两种：基于参数共享的联合模型；基于联合解码的联合模型。另一方面，解码方式对实体关系抽取性能的影响也很大，主要的解码方式有三种：基于序列标注；基于指针网络；基于片段分类。

《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》^[1]是采用序列标注的联合解码的典型方法。简单地说，它将实体关系抽取当作了序列标注问题，设计了比较特别的标注标签可以实现实体、关系的联合抽取(如上图所示)。

3. 关系抽取难点

如上图所示，和大多数的自然语言处理任务一样，关系抽取同样有许多难点。我们今天所分享的 CasRel 关注的难点主要是三元组的重叠问题（实体关系重叠），即：输入文本中有多个实体关系三元组，彼此之间可能共享了某些实体。

上图给出了部分示例：

（刘翔, 出生地, 上海）与（刘翔, 出生时间, 1983年7月13日）都有“刘翔”；
（《少林足球》, 导演, 周星驰）、（《少林足球》, 编剧, 周星驰）、（周星驰, 参演, 《少林足球》）都有“《少林足球》”和“周星驰”；
（阿尔弗雷德.阿德勒, 出生地, 奥地利）与（阿尔弗雷德.阿德勒, 出生地, 维也纳）都有“阿尔弗雷德.阿德勒”..

前面我们所提的联合解码模型由于其标签设计或CRF层限定了每个token只能有一个tag，所以无法适用于实体关系重叠情况。此外，基于参数共享的关系抽取方法最后通常是一个多分类层，也就是一对实体只能有一个标签。简单地将其改成多标签分类就能一定程度上解决实体关系重叠问题，但是这种改进并不具备什么创新性。

那接下来我们就来看看 CasRel 是如何另辟蹊径来解决实体关系重叠问题的。

4. CasRel核心思想

CasRel 本质上也是基于参数共享的联合实体关系抽取方法，它通常被大家称作层叠指针网络。实际上，CasRel 的核心思想或者说作者改进现有模型的重点在于子层的设计。

因为CasRel 对于关系抽取这个任务的拆分不同，所以子任务及子任务求解顺序也不同。具体地：首先CasRel 会识别所有可能的主语（头实体）；然后在给定类别关系下，再去识别与主语相关的宾语（尾实体）。

更形式化的表达：如果说以前关系抽取/关系分类是这样一个映射函数，；那么现在在CasRel中关系抽取对应的映射函数则是。

与之相似的思想很早之前就有出现在知识图谱表示学习方法当中，比如在下图的 TransE^[2]模型中就有（这里为头实体，为尾实体）。

5. 模型细节

现在我们再来看 CasRel 的模型细节。CasRel 是一个基于联合解码的实体关系抽取模型，其思想和模型都很简单，主要包括三层：

编码端：基于BERT的编码层用于获取上下文语义信息对字/词进行表征；
解码端：解码端主要包括了头实体识别层、关系与尾实体联合识别层。

在这里，基于BERT的编码层我们就不做过多的介绍了，感兴趣的读者可以下载论文《Pre-trained Models for Natural Language Processing》进行阅读学习。接下来，我们将着重介绍CasRel的解码端。

5.1 头实体识别层

CasRel的头实体识别层直接对编码层的结果进行解码，去识别所有可能的头实体。这里CasRel是识别头实体span，也就是start和end位置，所以它采用的是二分类。这点和我们在实体识别BERT-MRC论文阅读笔记、实体识别LEAR论文阅读笔记中类似。

因此，模型本身很简单：

首先，利用一个线性层➕一个sigmoid激活函数判断每个token是不是头实体的开始token或结束token；

402 Payment Required

然后，利用最近匹配原则将识别到的start和end配对获得候选头实体集合。

5.2 关系、尾实体联合识别层

识别头实体后就要进行关系和尾实体的联合识别了。这里，CasRel是通过一组关系相关的尾实体识别层来实现的。每一层尾实体识别层的结构其实与头实体识别层是一样的，不同主要在于输入：

头实体识别层的输入直接就是编码层的输出；
而尾实体识别层的输入还考虑了头实体的特征 :

这里是第个候选头实体所包含的所有token的向量的平均。

5.3 概率解释

最后，我们从概率角度来看CasRel模型。

既然实体关系抽取任务就是识别文本中潜在的实体关系三元组，那么模型的优化目标可以直接建立在三元组这个层面上。

(1) 优化目标

假设为训练集，是第个输入样本，是文本中含有的所有三元组，CasRel的训练目标自然是如下似然函数值最大:

402 Payment Required

(2) 概率公式变换

根据联合概率=边缘概率*条件概率，我们有：

这里表示出现在中的一个头实体，表示出现在中且其头实体为的一组关系-尾实体对。为先验概率，为条件概率。

(3) 关系作为先验知识

然后，把关系作为先验知识，我们可以进一步把上式右端第二项拆成两部分，即出现在中且头实体为的关系、其他关系：

402 Payment Required

这里，是所有关系的集合，表示出现在中且头实体为的一组关系，是与的差集，也就是没有出现在中的其他关系。

表示对于文本与头实体以及没有出现在中的关系来说，尾实体识别结果应当为空。所以最终我们有：

402 Payment Required

(4) 结论

可以发现最终这个式子与 CasRel 抽取实体关系三元组的子任务顺序一致：

首先识别文本中所有可能的头实体；
然后在每个关系类别下，去抽取与识别到的头实体存在该关系的所有可能的尾实体。

另一方面，这个任务拆解方式也很自然解决了重叠实体关系三元组的提取问题。

5.4 实验

实验主要在两个公开的数据集 NYT 和 WebNLG 上进行。此外，需要注意的是CasRel 模型本身还有两个变体：

：表示编码端的BERT参数是随机初始化的；
：表示编码端使用的是LSTM而不是BERT。

当然CasRel则表示采用预训练好的BERT作为编码端。

(1) 整体实验效果对比

上图中展示了CasRel及其变体模型 ã€� 与其他基准方法在两个数据集上的效果。可以看到CasRel 及其变体的效果都高于其他方法；尤其在WebNLG数据上，相对提升得更多。仔细看 NYT、WebNLG两个数据分布差异还是蛮大的：

NYT、WebNLG两个数据中都有Normal类型的三元组、SEO类型的三元组、EPO类型的三元组，且三者在两个数据集中占比不同；
Normal、SEO、EPO分别代表常规实体关系三元组、单个实体重叠的实体关系三元组、实体对重叠的实体关系三元组；
NYT 中的实体关系三元组类型多为Normal类型，即数据中常规实体关系三元组居多。
WebNLG 中的实体关系三元组多为SEO类型，即单个实体重叠的实体关系三元组居多。

CasRel 在两个数据集上相对稳定的表现说明了在实体关系重叠这种复杂场景下，其框架的有效性。

(2) 不同三元组重叠类型实验对比

上图展示了在不同三元组重叠类型的样本上各个基准方法与CasRel的实验结果。可以发现随着场景逐渐复杂（Normal->EPO、SEO），基准方法的效果都逐渐下降，但CasRel 则取得了相对稳定且优异的表现。这个对比实验进一步说明了 CasRel 在重叠三元组场景下的有效性。

(3) 不同三元组个数实验对比

随着样本中三元组个数的增多，每个方法的效果都或多多少地受到了影响。尤其在即多于五个三元组的样本上，基准方法效果基本都大幅度下降，而CasRel相对要好一些。同时，在的样本上 CasRel 的效果相对于基准方法提升的最多。

这个对比实验反映了CasRel 相比其他基准方法在处理多实体关系三元组下的能力更强。

6. 延伸思考

CasRel 的思想可以很自然地迁移到上去信息抽取中的另一大任务事件抽取上，因为在事件抽取同样存在一些类似的挑战：

输入文本里面存在多个事件；
事件论元可能重叠，同一个论元可能扮演不同的角色、同一个角色下也可能有多个论元：同一个事件论元可能重叠；不同事件之间论元可能重叠。

6.1 事件抽取任务描述

事件抽取任务可拆为两个子任务：

事件检测（event detection）：即触发词的抽取和事件类型判断；
事件论元识别（argument extraction）：即识别事件论元并判断论元所扮演的角色。

6.2 CasRel范式迁移到事件抽取

阿墨最初看到 CasRel 时就想到它的层叠指针范式可以迁移到事件抽取中：

建模思路和子任务顺序：CasRel 建模思路（TransE 中也是类似的）是“头实体+关系=尾实体”，即 CasRel 先抽头实体，再抽关系和尾实体；迁移到事件抽取中，可以是“触发词+角色=论元”即先抽触发词，再抽角色和论元。
模型适配：CasRel 模型中的头实体识别子结构适配到事件抽取中触发词检测， CasRel模型中的关系➕尾实体识别子结构适配到事件论元识别。这样就完成了事件检测任务中的触发词抽取、事件论元识别任务，那么事件类型判定呢？
事件类型判定：事件类型判定既可在触发词检测完后做，即仅对触发词分类，也可以在最后结合触发词/论元/角色信息进行事件分类。
小改动完成完全适配：如果考虑“原文+事件类型=触发词”，那么实际上事件类型判定和触发词抽取可一并完成。只需要把用于抽取触发词子结构换成和用于事件论元识别子结构类似或者说一致即可。

实际上，在2020年阿墨进行事件抽取相关实验过程中，陆陆续续就有这个系列的工作出来如：JMCEE^[3]、PLMEE^[4] 及CasEE^[5]。CasEE 代码也开源了，阿墨去年也在上面进行了一些实验。文末附上了相关论文链接，感兴趣的读者可下载阅读。

总结

今天我们分享了实体关系抽取模型 CasRel，并在最后联系事件抽取做了一些延伸思考。

如果本文对你有帮助的话，欢迎点赞&在看&分享，这对我继续分享&创作优质文章非常重要。感谢！

参考资料

[1]

《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》: https://arxiv.org/abs/1706.05075

[2]

TransE: https://proceedings.neurips.cc/paper/2013/file/1cecc7a77928ca8133fa24680a88d2f9-Paper.pdf

[3]

JMCEE: https://link.springer.com/chapter/10.1007/978-3-030-63031-7_13

[4]

PLMEE: https://aclanthology.org/P19-1522.pdf

[5]

CasEE: https://arxiv.org/abs/2107.01583

论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

EMNLP 2022 和 COLING 2022，投哪个会议比较好？

一种全新易用的基于Word-Word关系的NER统一模型

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手+中科院提出一种数据增强方法：Text Smoothing

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易，还望给个在看！

IntelliJ IDEA 使用技巧与插件推荐：提升开发效率的终极指南海豹工匠 ide jetbrain JAVA 编程工具
在现代软件开发中，IntelliJIDEA作为一款功能强大的集成开发环境（IDE），深受开发者的喜爱。它不仅支持多种编程语言和框架，还提供了丰富的功能和插件，帮助开发者提高工作效率和代码质量。本文将深入探讨IntelliJIDEA的使用技巧和插件推荐，助您充分利用这款优秀的开发工具。目录IntelliJIDEA简介高效使用IntelliJIDEA的技巧快捷键大全代码导航与搜索高级重构实时错误检查与
算法训练DAY28 |力扣93.复原IP地址&&力扣78.子集&&力扣90.子集Ⅱ Syhaun 算法
93.复原IP地址原题链接：力扣93.复原IP地址题目描述有效IP地址正好由四个整数（每个整数位于0到255之间组成，且不能含有前导0），整数之间用'.'分隔。例如："0.1.2.201"和"192.168.1.1"是有效IP地址，但是"0.011.255.245"、"192.168.1.312"和"[email protected]"是无效IP地址。给定一个只包含数字的字符串s，用以表示一个IP地址，返回所
【Leetcode】3201. 找出有效子序列的最大长度 I 想要AC的dly 练习题(记录做题想法)leetcode 算法职场和发展
文章目录题目题目描述示例提示思路分析核心观察有效子序列的四种模式算法思路代码实现Java版本C++版本Python版本优化版本复杂度分析时间复杂度空间复杂度示例验证总结题目题目链接题目描述给你一个整数数组nums。nums的子序列sub的长度为x，如果其满足以下条件，则称其为有效子序列：(sub[0]+sub[1])%2==(sub[1]+sub[2])%2==...==(sub[x-2]+sub
TimSort：论Java Arrays.sort的稳定性 lifallen Java 算法排序算法算法数据结构 java 开发语言后端
TimSort是一种混合的、稳定的排序算法，结合了归并排序（MergeSort）和二分插入排序（BinaryInsertionSort）的优点，尤其适用于部分有序的数据。在Java中，Arrays.sort()对对象数组排序时内部使用了TimSort算法。对于集合的排序实际上也是使用Arrays.sort如List.javadefaultvoidsort(Comparatorc){Object[]
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1179 数字统计
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1179[NOIP2010普及组]数字
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1109 学生分组热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1109学生分组-洛谷【题目描述】有n
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1449 后缀表达式热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1449后缀表达式-洛谷【题目描述】所
Python 内存分析方法 focksorCr python 开发语言 linux
概述本文档描述了如何分析Python应用中各部分内存使用量的方法，不含削减方法（如果你知道问题出在哪里，那你就应该知道如何解决）。内存分析统计分析Python的tracemalloc模块可以跟踪Python应用中的内存开销情况。阅读链接上的文档可以解决你所有问题。下面是上述文档的一些摘抄。尽早开始跟踪要追踪Python所分配的大部分内存块，模块应当通过将PYTHONTRACEMALLOC环境变量设
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
LETTERS（dfs，搜索与回溯）ナナ色のブランク算法学习搜索与回溯算法 c++dfs
题目描述】给出一个roe×col的大写字母矩阵，一开始的位置为左上角，你可以向上下左右四个方向移动，并且不能移向曾经经过的字母。问最多可以经过几个字母。【输入】第一行，输入字母矩阵行数R和列数S，1≤R,S≤20。接着输出R行S列字母矩阵。【输出】最多能走过的不同字母的个数。【输入样例】36HFDFFBAJHGDHDGAGEH【输出样例】6题目分析：这属于dfs（深度优先搜索算法）。dfs带有三个
解决Python爬虫访问HTTPS资源时Cookie超时问题
一、问题背景：Cookie15秒就失效了？很多互联网图片站为了防止盗链，会把图片地址放在HTTPS接口里，并且给访问者下发一个带Path=/的Cookie，有效期极短（15s～60s）。常规Requests脚本在下载第二张图时就会401或403。本文以某壁纸站https://example-pics.com为例，演示如何：自动化获取并刷新Cookie；在下载高并发图片时维持Cookie活性；把方案
Python - 数据分析三剑客之Pandas MinggeQingchun Python Python Pandas
阅读前可参考NumPy文章https://blog.csdn.net/MinggeQingchun/article/details/148253682https://blog.csdn.net/MinggeQingchun/article/details/148253682‌Pandas是Python中一个强大的开源数据分析库，专门用于处理结构化数据（如表格、时间序列等），其核心数据结构为Seri
C语言基础7——两种简单排序算法和二维数组 Gu_shiwww C基础 c语言算法数据结构小白初步
两种简单的排序方法二维数组1.排序1.1冒泡排序冒泡排序，顾名思义，像水中的鱼吐泡泡，一点点的把最小（或最大）的数一步步的从水里一点点的冒出水外的过程。思想：两两比较，第j个和j+1个比较，若满足大小关系，则交换两个数的位置。需要用到两轮for循环，一层遍历整个数组，将所有的数排序，内层是比较大小的时候进行值的交换。inta[5]={5,4,3,2,1};将数组a进行升序。第一轮：i=0j=045
自学力扣：最长连续序列
给定一个未排序的整数数组nums，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为O(n)的算法解决此问题。示例1：输入：nums=[100,4,200,1,3,2]输出：4解释：最长数字连续序列是[1,2,3,4]。它的长度为4。示例2：输入：nums=[0,3,7,2,5,8,4,6,0,1]输出：9示例3：输入：nums=[1,0,1,2]输出：3方法
Java实现端到端加密终极指南：密钥管理与分发的深度解析墨夶 Java学习资料4 java python 开发语言
一、为什么选择Java实现端到端加密？企业级可靠性：Java生态提供BouncyCastle等成熟加密库，支持国密SM2/SM4及国际标准算法。全栈可控：从密钥生成到存储、分发、销毁，全程代码可审计，符合GDPR等安全规范。扩展性强：可集成HSM硬件安全模块，支持密钥轮换策略与前向安全性设计。二、核心代码实战：密钥管理与分发全流程2.1密钥生成与存储（国密SM2算法）importorg.bounc
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)学习python网络爬虫的完整路径：（第一章即此篇文章）（第二章）python网络爬虫(第二章/共三章：安装浏览器驱动，驱动浏览器加载网页、批量下载资源)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149431071?
力扣 hot100 Day48 qq_51397044 Hot100 算法数据结构
35.搜索插入位置给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为O(logn)的算法。//自己写的classSolution{public:intsearchInsert(vector&nums,inttarget){intleft=0;intright=nums.size()-1;while(left
mac mlx大模型框架的安装和使用 liliangcsdn python java 前端人工智能 macos
mlx是apple平台的大模型推理框架，对macm1系列处理器支持较好。这里记录mlx安装和运行示例。1安装mlx框架condacreate-nmlxpython=3.12condaactivatemlxpipinstallmlx-lm2运行mlx测试例以下是测试程序，使用方法和hf、vllm等推理框架基本一致。importosos.environ['HF_ENDPOINT']="https://
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

一文详解关系抽取模型 CasRel

写在前面

1. 关系抽取任务定义

2. 关系抽取方法

3. 关系抽取难点

4. CasRel核心思想

5. 模型细节

5.1 头实体识别层

402 Payment Required

402 Payment Required

5.2 关系、尾实体联合识别层

5.3 概率解释

402 Payment Required

402 Payment Required

402 Payment Required

5.4 实验

(1) 整体实验效果对比

(2) 不同三元组重叠类型实验对比

(3) 不同三元组个数实验对比

6. 延伸思考

6.1 事件抽取任务描述

6.2 CasRel范式迁移到事件抽取

总结

参考资料

你可能感兴趣的:(自然语言处理,算法,编程语言,python,机器学习)