PaperWeekly

乘风破浪的Seq2Seq模型：在事件抽取上的应用

©PaperWeekly 原创 · 作者 | 王增志

单位 | 南京理工大学硕士生

研究方向 | 情感分析与观点挖掘

引言

2020 年自然语言处理方向出现了很多令人印象深刻的工作, 其中就包括了这一系列 Seq2Seq 大规模预训练语言模型，比如 BART [1]，T5 [2] 和 GPT-3 [3]，直觉上这些生成模型一般会用于摘要和翻译这种典型的生成任务，2021年的很多工作开始尝试利用这些强大的生成模型来建模一些复杂的自然语言理解任务，比如命名实体识别，属性级情感分析和事件抽取任务等等。本文将会按照时间线简要对基于生成式方法的事件抽取相关的工作进行梳理。

事件抽取（Event Extraction, EE）是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术。其任务目标是根据触发词识别句子中所有目标事件类型的事件，并根据论元角色集合抽取事件所对应的论元，这里的事件类型和论元都是预定义好的。举个例子，给定一个句子，事件抽取旨在识别出句子中包含的结构化事件。

Input: The man returned to Los Angeles from Mexico following his capture Tuesday by bounty hunters.
Output:

该任务分为如下几个子任务：

Trigger Identification：检测（抽取）句子中的事件的触发词，可以是一个词也可以是一个span；
Trigger Classification：判断抽取到的触发词对应的事件类型；
Argument Identification：检测（抽取）句子中的论元比如某种事件发生的时间，地点等；
Argument Classification：判断抽取到的论元对应的论元角色；

TANL

这是一篇来自 AWS 团队 ICLR 2021 的工作 [4]，作者致力于研究结构预测任务（比如命名实体识别，实体关系抽取，语义角色标注，共指消解，事件抽取，对话状态追踪等）的多任务学习，之前的大多数方法都是针对具体的特定的任务进行建模，训练一个任务特定的判别器，但是这样的方法一方面结构不能被适配到其他类似的任务上，给迁移学习带来了困难，另一方面这种判别式的结构很难利用标签的语义知识。

基于此，作者提出了 TANL 模型（Translation between Augmented Natural Language），即给定输入，输出原有文本和对应的文本标注。如下图所示，输入文本，输出的文本在原文本的上做了 augmented，即加上了标注，图中的实体关系联合抽取任务，会在头实体上加上对应的实体类别，在尾实体上除了加上实体类型，还会加上关系，以及对应的头实体 span；语义角色标注任务，模型会标注出主语，谓语，时间地点等；共指消解任务，模型会标注出所有的第一个 mention，然后在后续出现的 mention 上标注对应的本体，最后对输出的文本进行解析，得到预测的结构。

下图是模型对事件抽取任务的建模示例，首先进行触发词的抽取，输出的句子会在触发词后面加上对应的事件类型，然后针对事件论元的抽取，输入会标注出触发词和对应的事件类型，然后输出时会在相关的 span 标注实体的类型，比如个人，时间等，还会标注出论元的类型，用“=”来对应触发词。

作者在 single-model-single-dataset，multi-dataset 和 multi-task 三种 setting 上进行了实验，实验结果显示模型在实体关系联合抽取，关系分类和语义角色标注达到了新的 SOTA，在其他的任务上取得了跟 SOTA 相比还可以的（comparable）实验结果。在事件抽取任务上的实验结果如下图所示：

整体来说该工作就是一个 unified 的框架可以建模多种常见的结构预测任务（这里可能会有一个问题，既然是结构预测问题，为什么没有做依存句法解析这种经典的结构预测任务，作者在 OpenReview 上的回答是主要考虑对于标签语义知识进行建模，因此并没有在依存句法任务上进行实验），而且有助于迁移学习。其实早在的 EMNLP2020 上的一篇工作已经有了这样的做法来做序列标注和分类任务 [5]，作者同样来自 AWS，而这篇 ICLR 可以看作一个扩展/进一步推广。后续这种方法也被在其他下游任务上，比如属性级情感分析 [6]。

BART-Gen

这是一篇发表在 NAACL 2021 [7] 的工作，针对常见的句子级的任务存在信息不完整的问题，作者研究文档级的事件论元抽取任务，并将其建模为按照事件模板进行生成的形式。同时作者还提出了一个文档级的事件抽取 Benchmark: WIKIEVENTS，并且包含了完整的事件和共指标注。

模型如下图所示，整体的思路是用标记好触发词的文档和触发词对应的事件类型的预定义模板（用 < arg> 做为论元的占位符）拼到一起，送入 BART，然后按照模板生成对占位符进行填充，生成完整的模板句子。作者还对生成策略加上了约束，比如生成时的词表限制在输入的文本中。该模型不需要提前进行共指消极的预处理，而且能够轻易处理不完整的论元和相同的 role 存在多个论元的情况，不再需要像之前的 BERT-QA [8] 那种方法一样需要设置阈值，仅需一步就可以抽取出所有的论元。

上述只是提到了事件的论元抽取，但是模型的输入需要含有对触发词的标注，故此作者提出了一个基于关键词的触发词抽取方法（抽取触发词和对应的类型），不用于常见的全监督的 setting，这里只提供关键词级别的监督，即针对每个类别，提供几个描述该类别的词汇，作为监督信号，然后通过 BERT 获得关键词的平均词向量作为类别的表示，然后使用 BERT-CRF 模型和 IO 的标注方案，对 CRF 中的特征/发射分数和转移分数进行了一定的改动（毕竟没有完整的标注信息）。

此外作者还提出了一个新的更有挑战性的任务：文档级信息化的论元抽取任务，动机是考虑到文档的特殊性，希望模型能够捕捉到更加长距离的信息，具体来说作者定义名词比代词含有更多的信息，在 mention 的类型相同的条件下，选择最长的 mention（具备更多的信息）。在这个任务设定下，希望模型能够抽取具备更多信息的论元。（简而言之，希望能够对共指问题有一个很好的处理）。实验结果如下表所示：无论是在跨句的 RAMS 数据集上还是该论文提出的新的 WIKIEVENTS 数据集上，都是大幅超过了之前方法。

Text2Event

这是一篇发表在 ACL 2021 [9] 上的一个工作，之前的事件抽取的工作主要是将任务拆解成几个子任务分开来解决，在这个工作中作者提出模型 Text2Event，将事件抽取建模成 Seq2Seq 的形式，输入句子，输出结构化的事件。下面是一个输入输出的例子，输出的结构格式为 ((事件类型触发词 (角色论元)) ...)，然后对输出的文本进行解析就可以得到结构化的事件。

Input: The man returned to Los Angeles from Mexico following his capture Tuesday by bounty hunters.
Output: ((Transport returned, (Artifact The man), (Destination Los Angeles), (Origin Mexico)), (Arrest-Jail capture (Person The man), (Time Tuesday) (Agent bounty hunters))

为了避免模型的生成式自由随便地生成，作者还用 event schema 对解码做一个约束，使用基于字典树的解码算法。不同于常规的生成策略（每次生成 token 都是在全词表上做选择），基于字典树的解码算法会根据当前的状态对词表做剪枝，这里简单理解就是对生成的词表做约束，词表中的词除了来自于输入的 text，还来自于事件类型中的词，当然还有用于格式控制的'(' , ')'。

为了避免使用生成模型（T5）直接生成这种非自然的句子过于困难，作者使用课程学习的思路，先去训练做简单的子任务比如生成（type, trigger words）和（role, argument words）这种相对简单的格式，最后再去训练学习直接生成完整的事件抽取任务的句子格式。

整体实验结果如下图所示，相比之前的方法需要 token-level 的标注信息，Text2Event 只需要粗粒度的标注信息，即不需要定位到 token，只需给出完整的事件即可。可以发现，相比其他的方法，Text2Event 取得了相对有竞争力的性能。

消融实验的实验结果如下图所示，课程学习（CL）和约束解码策略（CD）尤其在低资源的情况下提升显著，生成的格式中将其中的事件类型和角色名字换成没有真实意义的符号（w/o ES）之后，性能有大幅下降，这也证明了生成含有真实意义的词更具备丰富的语义，可以更好的利用预训练模型。

TempGen

这是一篇发表在 EMNLP 2021 [10] 上的工作，虽然做的任务不是事件抽取，但是任务形式上跟事件抽取很像。该工作通过将文档级的角色填充的实体抽取（role-filler entity extraction (REE)）和关系抽取任务转换成 seq2seq 的形式来解决在对文档级建模存在的实体间长程依赖问题。

任务形式如下图所示：针对 REE 任务，使用预先定义的模板，和表示模板的开始和结束，和表示 slot name 的开始和结束，和表示实体的开始和结束；针对关系抽取任务，同样使用以上类似的模板。

实验结果如下图所示，可以发现 TempGen 在角色填充的实体抽取和二元，四元关系抽取任务上，均取得了最好的性能。

DEGREE

该工作 [11] 也是类似的做法，是采用生成式的方法利用 Prompt 去生成预定义的模板。这样做可以融入标签的知识，而且还是一种端到端的设计，模型能够捕捉到触发词与论元之间的依赖。模型如下图所示：整体的思路是给定模型 passage 和事件类型，然后将 passage 和对应的 prompt 拼接到一起，然后模型按照模板生成，最后从生成的模板中解析事件。

首先考虑事件检测任务（Event Detection），我们将给定的事件类型对应的描述和事件关键词，还有生成的事件检测的模板 'Event trigger is ' 以上内容作为 Prompt 跟 passage 拼接到一起，模型将会把 trigger 词填充后的模板输出出来。针对事件论元抽取任务，对应的 Prompt 是事件类型的描述，和第一步检测出来的触发词，还有针对论元抽取设计的模板，模型将会输出用 passage 中的词填充过的模板。以上是一种 Pipeline 的方法，Joint 的方法的就是将事件类型的描述，事件的关键词，还有针对端到端设计的生成模板（如下图最下方），最终按照模板生成。

在最开始的时候提到事件类型是给定的，实际上的做法是对所有的事件类型进行采样 m 个，然后枚举这 m 个事件类型，然后进行训练。其中 m 是超参。

实验结果如下表所示，在端到端的事件抽取任务上，DEGREE 虽然没有取得 SOTA 的性能，但是也是相对比较有竞争力。

在低资源的端到端事件抽取任务上的实验结果如下表所示，可以发现 DEGREE 在这种低资源的设定下更加有效，基本上超过了所有的 baseline，正如模型的名字那样：A Data-Efficient Generative Event Extraction Model.

PoKE

该工作 [12] 同样也是利用 Prompt 做事件抽取任务，之前的 Prompt 相关的工作大多基于简单的文本分类任务，对于事件抽取这样复杂的任务还很少被被探究过，作者使用 Prompt 来探测语言模型中的知识。

PoKE 模型用于事件检测任务的模型结构如下图所示，Prompt 分为两部分一部分是 external 的，一部分是 internal 的，这个主要是看 mask 的地方是在 passage 内部还是在添加的 prompt 上。具体来说针对 External 的 Prompt，在 passage 后面拼接上桥接词 'In the passgae above'，还有针对每个事件类型的 Prompt （格式为：verb indictates xxx Event）然后送进 T5 中预测 mask 处的词。为了帮助模型更好地理解，作者还使用了 internal 的 Prompt，内容上跟前者一样，只是在前者 mask 的地方填上正确的 trigger 词，反而将上下文中的 trigger 词 mask 掉，然后送入 T5 预测。

本质上这样做的动机还是靠近T5的预训练任务，更好地探测和利用模型。

下面介绍用于论元抽取的模型架构，如下图所示，整体思路也跟上面事件检测的一致，也是分为两种 Prompt 方式，这里称为 Single Argument Prompt 和 Joint Argument Prompt。针对前者，在送入的 passage 中标出 trigger 词，然后拼上桥接词 'In the passgae above'，每个 trigger 对应一个事件类型以及相关的论元，构造简单的 Prompt 来抽取对应的论元，然后在最后拼上后缀用来指明事件类型和 trigger 词，最后送入 T5 中得到相关的论元的预测。Joint 的 Prompt 也是类似，只是将 mask 的位置放在了 passage 的对应的论元上，将原本的 mask 的位置替换成了真实的论元，最后同样送入 T5 中辅助模型理解上下文。

事件抽取的实验结果如下表所示，PoKE 可以取得相对有竞争力的性能。

总结

本文梳理了六篇 2021 年的使用 seq2seq 的语言模型去建模事件抽取任务的相关工作，按照他们做的任务，使用的语言模型以及是否在解码时做了一定的约束这个三个信息将这六篇工作做一个简单的对比，如下表所示。可以发现 T5 和 BART 是选择比较多的 Seq2Seq 预训练模型，大部分工作都是做的端到端的事件抽取，也有很多工作对解码做了约束以便更好地生成。从以上的工作不难看出更加强有力的端到端的事件抽取模型，文档级的事件抽取建模依旧是个挑战。

参考文献

[1] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. ACL 2020

[2] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. PMLR 2020

[3] Language Models are Few-Shot Learners.

[4] Structured Prediction as Translation between Augmented Natural Languages. ICLR 2021

[5] Augmented Natural Language for Generative Sequence Labeling. EMNLP 2020

[6] Towards Generative Aspect-Based Sentiment Analysis. ACL 2020

[7] Document-Level Event Argument Extraction by Conditional Generation. NAACL 2021

[8] Event Extraction by Answering (almost) Natural Questions. EMNLP 2020

[9] TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction. ACL 2021

[10] Document-level Entity-based Extraction as Template Generation. EMNLP 2021

[11] DEGREE: A Data-Efficient Generative Event Extraction Model. ArXiv 2021

[12] Eliciting Knowledge from Language Models for Event Extraction. ArXiv 2021

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

socket网络通信TCP与UDP原理及代码实现（c++、python）
目录Socket原理通信协议原理TCPUDP代码实现TCPC++pythonUDPC++pythonSocket原理Socket（套接字）是计算机网络中用于实现进程间通信的一种机制，特别是在不同主机之间通过网络进行数据传输时。它是网络编程的核心概念之一，为应用程序提供了统一的接口，使得开发者可以通过网络发送和接收数据。可以将Socket类比为电话系统中的“电话机”。两台设备通过Socket建立连接
【Qt Designer使用快捷键】
QtDesigner简介QtDesigner是Qt框架提供的可视化界面设计工具，用于快速创建GUI（图形用户界面）。用户可通过拖拽控件（如按钮、文本框等）设计界面，无需手动编写布局代码。生成的界面文件（.ui）可通过pyuic或uic工具转换为代码（如Python或C++），与业务逻辑集成。常用快捷键及用途通用操作Ctrl+N：新建界面文件。Ctrl+O：打开现有.ui文件。Ctrl+S：保存当前
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
假冒朱民！通达OA社科院朱民ST-balance项目就是假的，被骗亏损真相揭秘，亲身亏损经历正义青天
通达OA社科院朱民ST-balance项目不正规——杀猪盘不能提现投票骗局曝光！随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
“重复”定义函数的睿智(Python/与ai助手“智普清言”深度交流) 梦幻精灵_cq 笔记学习
镜像双胞谬重复，定制便捷巧活工。笔记模板由python脚本于2025-07-1612:16:30创建，本篇笔记适合至少通晓一门语言，熟悉基本编程范式的coder翻阅。学习的细节是欢悦的历程博客的核心价值：在于输出思考与经验，而不仅仅是知识的简单复述。Python官网：这里，才python前沿。英文原版，原汁原味，才是寻根溯源的正统。地址：https://www.python.org/F
偶拾《退让》，一阙仿七律带出的文化思考(中文诗创作) 梦幻精灵_cq 笔记学习
礼貌温言沐春风，谦让理解通彼此。笔记模板由python脚本于2025-07-0111:29:03创建，本篇笔记适合喜欢中文仿古七言诗的coder翻阅。学习的细节是欢悦的历程博客的核心价值：在于输出思考与经验，而不仅仅是知识的简单复述。Python官网：这里，才python前沿。英文原版，原汁原味，才是寻根溯源的正统。地址：https://www.python.org/Free：大咖
008、Python+fastapi，第一个后台管理项目走向第8步：ubutun 20.04下配置远程桌面、安装vscode+python环境配置浪淘沙jkp 学习 fastapi
一、说明白飘了3个月无影云电脑，开始选了个windowsserver非常不好用，后台改为ubuntu想升级到22，没成功，那就20.04吧。今天先安装下开发环境，后续2个月就想把他当做开发服务器，不知道行不行，公网ip是否可以外部链接。本来想装个宝塔面板直接管理，不过那玩意用了一次，决定说方便也不方便，还是放弃，要用也搞个掏钱的，你懂的，免费的不放心啊那我们就一个一个安装好了，大概要安装mysql
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
python爬大学生就业信息报告_Python语言爬虫——Python 岗位分析报告 weixin_39578457
本文主要向大家介绍了Python语言爬虫——Python岗位分析报告，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。前两篇我们分别爬取了糗事百科和妹子图网站，学习了Requests,BeautifulSoup的基本使用。不过前两篇都是从静态HTML页面中来筛选出我们需要的信息。这一篇我们来学习下如何来获取Ajax请求返回的结果。本篇以拉勾网为例来说明一下如何获取Ajax请求内容
快速入门Robocorp：用Python构建和操作工作流 jaioyfpo python 开发语言
快速入门Robocorp：用Python构建和操作工作流引言在现代开发环境中，自动化是提高效率和降低成本的关键。Robocorp作为一个强大的平台，它帮助您使用Python构建和操作工作流，无论在何地运行都可以保持无缝连接和高扩展性。本文将带领您快速入门Robocorp的基本安装和设置，并展示如何使用ActionServer进行项目的创建和管理。主要内容1.安装和设置要开始使用Robocorp，首
Python关于pandas的基础知识 WeiJingYu. python pandas 开发语言
一.扫盲（一）、pandas是什么pandas是Python的一个第三方数据处理库，它提供了高效、灵活的数据结构（如Series和DataFrame），能方便地对结构化数据进行清洗、转换、分析和处理。（二）、pandas与NumPy的关系NumPy是Python中用于科学计算的基础库，主要用于存储和处理数值型数组。但它有一个局限，就是不能直接存储和处理字符串等非数值类型的数据。而pandas是在N
Python 爬虫——Pyppeteer
Python爬虫——PyppeteerPythonSpider——Pyppeteer一、爬虫的两种方式二、Pyppeteer三、爬虫实现PythonSpider——Pyppeteer爬虫具有时效性，该文产生于2023年末一、爬虫的两种方式爬虫大致可以分为两类方式：直接请求直接请求的方式一般是使用python的HTTP请求库发起HTTP请求，然后接收返回的数据再进行解析，这种方式存在很大的局限性。当
Python关于numpy的基础知识数组的升维 WeiJingYu. python numpy 开发语言
在Python数据处理中，numpy是常用的科学计算库，数组操作是其核心内容之一。下面通过代码示例，展示如何从Python自带列表构建numpy一维数组，再进一步升维构建二维数组。\importnumpyasnp#一维数组构建：从Python列表到numpy一维数组list1=[1,2,3,4,5]#Python自带的列表数据类型print("Python列表list1:",list1)v=np.
Selenium+Java 自动化测试入门到实践：从环境搭建到元素操作 yy鹈鹕灌顶 selenium java 测试工具
在自动化测试领域，Selenium凭借其强大的跨浏览器兼容性和灵活的API，成为Web应用测试的首选工具。而Java作为一门稳定且广泛应用的编程语言，与Selenium结合能构建出高效、可维护的自动化测试框架。本文将从环境搭建开始，逐步介绍Selenium+Java的核心用法，帮助新手快速上手。一、环境搭建：让工具跑起来1.安装Java开发环境Selenium的Java客户端需要依赖JDK，建议安
Selenium Python 代码之打开网页自动填充内容并搜索 iCloudEnd
SeleniumPython代码之打开网页自动填充内容并搜索流程通过id找到文本框inputElement.send_keys(Keys.BACK_SPACE)发送删除键，清除一下之前文字inputElement.send_keys(Keys.BACK_SPACE)发送需要查询对内容并送个回车inputElement=driver1.find_element_by_id("TextBox1")in
python双引号打不出来_在python 3中使用单引号和双引号时出错 - python weixin_39897749 python双引号打不出来
使用os.system（）函数时，我在python中遇到了EOL错误。以下是代码行生成错误：os.system("catsubdomains.txt|cut-d'"'-f1")基本上，我试图使用分号[“]修改输出字符串（双引号）参考方案如果需要在带"的字符串中编写"，则可以将其写为\""catsubdomains.txt|cut-d'\"'-f1"在PythonCloudFunction中使用错误
python办自动化--读取邮箱中特定的邮件，并下载特定的附件宝山哥哥 python办公自动化 python 自动化信息可视化
系列文章目录python办公自动化–数据可视化（pandas+matplotlib）–生成条形图和饼状图python办公自动化–数据可视化（pandas+matplotlib）–生成折线图python办公自动化–数据可视化（pandas读取excel文件，matplotlib生成可视化图表）python办公自动化-openpyxl学习-工资表生成工资条python办公自动化–使用将csv大文件分割
Here-Document的`＜＜` 与 `＜＜-` 与 `＜＜＜` 多解说笔记250722 kfepiza #Linux #控制台命令行 Shell bash cmd 等笔记 linux bash
Here-Document的poem.txt静夜思床前明月光疑是地上霜FORMATTED#2.空格敏感的配置catconfig.ymlindentation:level:4#必须4空格SPACE何时用tabs.txt重要制表符:→这里Tab会被保留但行首Tab会被移除TABS#2.空格缩进的环境#（如Python脚本）技术原理图解HereDocumentquery.sqlSELECT*FROM${
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
第二阶段-第二章—8天Python从入门到精通【itheima】-133节（SQL——DQL——基础查询） Patrick_kafka sql python 数据库开发语言学习 android 程序人生
目录133节——DQL：基础查询1.学习目标2.基础数据查询：select3.进行过滤的基础数据查询：where4.代码演练5.小节总结6.关于MySQL和SQL的DDL、DML、DCL、DQL的最底层逻辑MySQL与SQL的底层逻辑：从磁盘到内存的数据流解析一、DDL（数据定义语言）：构建数据大厦的蓝图二、DML（数据操作语言）：数据流动的三重关卡三、DCL（数据控制语言）：权限的多维管控四、D
Python爬虫教程：抓取地方政府网站的公开文件与政策信息 Python爬虫项目 python 爬虫开发语言数据分析 mysql
1.引言在信息化时代，政府网站已成为信息公开的重要渠道。各级地方政府网站上发布的政策、公告和公开文件，通常包含了政府决策、法律法规等关键信息。爬取这些公开数据，可以为研究人员、政策分析师、企业决策者等提供有价值的数据支持。本文将通过Python爬虫技术，展示如何抓取地方政府网站上的公开文件、政策等信息。我们将使用最新的爬虫技术，如requests、BeautifulSoup、Selenium等工具
Python 库手册：xml.etree.ElementTree 处理 XML 数据模块
xml.etree.ElementTree（简称ElementTree）是Python标准库中用于解析、创建和操作XML数据的模块。它提供了一种轻量、易用的方式来读取、修改和写入XML文件，适用于配置文件处理、数据交换、网络通信等应用场景。常见应用场景：（1）读取XML配置文件并提取参数。（2）修改XML数据结构（如节点属性、内容）。（3）创建新的XML文档并保存。（4）从WebAPI获取的XML
[学习] 笛卡尔坐标系的任意移动与旋转详解极客不孤独学习算法信号处理
笛卡尔坐标系的任意移动与旋转详解文章目录笛卡尔坐标系的任意移动与旋转详解**1.笛卡尔坐标系基础****2.坐标变换原理****2.1平移变换****2.2旋转变换****3.组合变换**Python仿真与动态展示**动画说明**：**关键数学原理**：1.笛卡尔坐标系基础笛卡尔坐标系用(x,y)(x,y)(x,y)表示平面内任意点的位置，原点为(0,0)(0,0)(0,0)。几何图形可视为点的集
第二阶段-第二章—8天Python从入门到精通【itheima】-134节（SQL——DQL——分组聚合） Patrick_kafka sql 数据库 mysql 大数据开发语言 python pycharm
目录134节——DQL：分组聚合1.学习目标2.分组聚合3.论MySQL中GROUPBY和WHERE的异同MySQL中GROUPBY和WHERE的异同：一、相同点：都是“筛数据”的工具二、不同点：筛的时机和对象完全不一样1.作用时机不同：先筛行，再分组2.作用对象不同：筛单行vs筛分组3.不能混搭的“规矩”三、一句话总结4.小节总结编辑好了，又一篇博客和代码写完了，励志一下吧，下一小节等等继续：1
python库下载超时_Python pip使用超时问题解决方案 weixin_39597318 python库下载超时
Pythonpip使用超时问题解决方案引言之前有位群友在群里发了个问题，说使用pip安装第三方包遇到"Readtimeout"。我相信很多时候，大家在使用pip都会遇到这个问题，所以，我想有必要写一遍文章来总结一下。具体如下：解决方案在这之前，你要明白一点，直接使用pip安装超时，绝大多数原因是pip源在外国，所以国内使用，网络就算稳定，也有一定超时。要想解决pip安装软件包超时问题，目前只有两种
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
python基础变量之---集合暴龙胡乱写博客 python基础 python chrome 开发语言
python基础变量之—集合文章目录python基础变量之---集合一、集合1.集合介绍2.集合创建3.集合操作4.集合常见API二，可变与不可变类型1.可变2.不可变3.二者区别三，类型转换一、集合1.集合介绍在Python中，集合（set）是一种无序的、不重复的数据结构，用于存储唯一的元素，支持数学集合的一些操作，如交集、并集、差集等。集合中的元素是无序的，即不记录元素的插入顺序，且每个元素只
对话谷歌前 CEO Eric Schmidt：数字超智能将在十年内到来，AI 将创造更多更高薪的工作 AI科技大本营人工智能
责编|王启隆出品|CSDN（ID：CSDNnews）投稿或寻求报道|[email protected]科技巨擘、谷歌前CEOEricSchmidt最近做客PeterDiamandis的Moonshots播客，与主持人PeterDiamandis及DaveLondon展开了一场关于人工智能未来的深度对话。全世界都在为AI的飞速发展感到兴奋又焦虑时，这位曾经执掌谷歌帝国长达十年、亲眼见证并推动了这场技术
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

乘风破浪的Seq2Seq模型：在事件抽取上的应用

你可能感兴趣的:(自然语言处理,编程语言,python,机器学习,人工智能)