PaperWeekly

When 多模态 meets 信息抽取

©PaperWeekly 原创 · 作者 | 宁金忠

单位 | 大连理工大学

研究方向 | 信息抽取

都 2222 年了，信息抽取领域早已经是诸神黄昏。然而，多模态方法的兴起给这个卷成麻花的领域带来的新的希望。就像阳光穿过黑夜，黎明悄悄划过天边，既然新的多模态风暴已经出现，我们怎能停滞不前？

让我们通过本文了解一下信息抽取领域中多模态方法的最新进展。本文分为两大主要章节，第一章介绍多模态关系抽取任务（Multimodal Neural Relation Extraction, MNRE），第二章介绍多模态命名实体识别任务（Multimodal Named Entity Recognition MNER）。

多模态关系抽取

任务介绍：多模态关系抽取任务的一个例子如下图所示。和基于文本的关系抽取方法相比，其他模态数据（例如图片）中的提示信息有利于性能的提升。

1.1 MNRE

论文标题：

MNRE: A Challenge Multimodal Dataset for Neural Relation Extraction with Visual Evidence in Social Media Posts

收录会议：

ICME 2021

论文链接：

https://ieeexplore.ieee.org/document/9428274

代码链接：

https://github.com/thecharm/MNRE

Motivation：关系抽取模型在面对社交媒体领域中长度偏短且缺少有效内容的文本时表现乏善可陈。同样，远程监督方法面对这种情景也显得力不从心。于是，寻找文本之外的内容来补充文本信息势在必行。

Contribution：

作者首次提出了多模态关系抽取这个任务，即利用图片中的视觉内容来对文本中缺失的信息进行补充。
作者构建并发布了一个人工标注的多模态关系抽取数据集。该数据集包含 10089 条实例，包含 31 中关系类别。
作者提出了几个多模态关系抽取的 baseline。

作者选择 Glove+CNN，BERTNRE，BERT+CNN 为本文的对比实验。在三个对比实验的基础上分别增加 Image Labels、Visual Objects、Visual Attention 做为多模态关系抽取的基准模型。

1.2 Mega

论文标题：

Multimodal Relation Extraction with Efficient Graph Alignment

收录会议：

ACM MM 2021

论文链接：

https://dl.acm.org/doi/abs/10.1145/3474085.3476968

代码链接：

https://github.com/thecharm/Mega

Motivation：使用 image-related information 对纯 text-based 信息中的缺失内容进行补充，从而提升社交媒体领域的关系抽取任务的性能。

Method：

对于输入文本，作者使用 BERT 作为语义特征编码器。除此之外，作者使用句法解析工具提取了文本的句法解析树。对于输入图片，作者提取出其中目标的 scene graph。作者使用双流模型结构分别从图关系结构和语义两个方面来对齐文本和图像两个模态的信息。在模态特征融合阶段，作者把包含双模态的图结构对齐信息和语义表示对齐信息融合成一个向量，然后将其与头尾实体的表示向量进行拼接，最终得出关系的预测。

多模态命名实体识别

相比于多模态关系抽取任务，多模态多模态命名实体（MNER）任务由于起步较早已经涌现出了较多的工作。本章节中，我们把多模态命名实体识别任务按照使用的模态划分为：（1）基于语音-文本的 MNER（2）基于汉字结构特征 MNER（3）基于图片-文本的 MNER。

2.1 基于语音-文本的MNER

论文标题：

A Large-Scale Chinese Multimodal NER Dataset with Speech Clues

收录会议：

ACL 2021

论文链接：

https://aclanthology.org/2021.acl-long.218

代码链接：

https://github.com/dianbowork/cnerta

Motivation：

由于中文缺少天然的分词间隔，中文 NER 任务面临着比较大的挑战。语音中包含的停顿信息对于确定中文的分词边界具有很大的潜在的价值。例如上图所示的“南京市长江大桥”这个例子。

Method：

作者构建了一个包含语音和文本数据的中文 MNER 数据集，其中包含 34102 条训练样本，测试集数量为 4445，开发集容量为 4440。

作者使用 BERT 作为文本特征编码器，使用 CNN 下采样的梅尔滤波器组特征作为语音特征表示。文中提出的模型使用多任务学习的方法来对齐和融合模型特征。模型包含 CRF loss 和 masked CTC loss 两部分。对于 masked CTC loss 的获得，首先把语音特征表示会输入到一个 Transformer 模块进行编码，然后使用语音识别领域中常用的 CTC loss 进行语音和文本的对齐。

由于模型重点关注于同一条数据中语音和文本的对齐，作者提出了 masked CTC loss，将 CTC 对齐结果里没有在文本中出现的字的概率置为负无穷。这样操作将 CTC 的对齐结果限制到了文本的词汇之内。对于 CRF loss 的获取，作者使用多模态领域常用的 Cross-Transformer 将 masked CTC loss 约束的语音表示和文本表示进行交叉融合，得到语音信息辅助的文本表示，然后经过 CRF 层得到 CRF loss。最终，CRF loss 和 masked CTC loss 相加进行联合训练。

2.2 使用汉字结构信息的MNER

汉字属于象形文字，汉字的结构中具有语义相关的信息。例如包含部首“疒”的汉字，例如，“病”，“痉”等汉字可能代表某些疾病。因此，利用汉字的结构信息具有提升命名实体识别性能的潜力。

2.2.1 Glyce

论文标题：

Glyce: Glyph-vectors for Chinese Character Representations

收录会议：

NeurlPS 2019

论文链接：

https://arxiv.org/abs/1901.10125

代码链接：

https://github.com/ShannonAI/glyce

Motivation：将汉字图片的视觉特征融合进模型以提升 NLP 任务。

Method：

由于简体字经过了简化，其结构体现出的语义信息变少，作者使用隶属，繁体字等古汉字的文字图片来编码汉字结构信息。

作者设计了一种名叫“田字格 CNN”的 CNN 结构进行汉字图片的特征提取。输入的汉字图像以此经过上图所示的卷积层，max-pooling 层，卷积层。最后经过一个 group convolutions 得到最终的输出——Glyph Embedding。作者在文中解释到，使用尺寸较小的 group convolutions 可以防止过拟合，并且在全体汉字上具有较好的泛化性能。

关于 Glyph Emb 和 BERT 输出向量的融合，作者把 Glyph Emb 和其对应的位置编码向量进行相加，然后与 BERT 拼接到一起。

使用汉字图片的分类任务作为一个 auxiliary 任务和下游的 nlp 任务联合训练。以 NER 任务为例，模型的损失函数由汉字图片分类任务和 CRF loss 加权相加得到。

2.2.2 MECT

论文标题：

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

收录会议：

ACL 2021

论文链接：

https://arxiv.org/abs/2107.05418

代码链接：

https://github.com/CoderMusou/MECT4CNER

Motivation：使用汉字的部首特征来提升命名实体识别模型的性能。

▲ MECT

Method：作者把文本中的每个汉字拆解成部首，然后使用 CNN 提取汉字的部首特征。把汉字和文本中匹配上的词汇，作为文本的一个特征。作者把汉字的部首特征看做文本的另外一个模态。对于两个模态的特征，作者使用多模态领域中常用的 two-stream Cross-Transformer 来进行特征的融合。作者在 Cross-Transformer 中引入相对位置信息和 Random Attention 增强模型的表达能力。

2.2.3 ChineseBERT

论文标题：

ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

收录会议：

ACL 2021

论文链接：

https://arxiv.org/abs/2106.16038

代码链接：

https://github.com/ShannonAI/ChineseBert

motivation：使用汉字的 Glyph embedding 来提升命名实体识别模型的性能。

method：

对于同一个汉字，作者使用汉字的词向量，汉字图片的特征表示和拼音的特征表示这三个模态的特征得到一个汉字的融合特征。作者将三个模态的特征向量拼接，然后经过线性层进行特征的融合表示。

作者将汉字的多模态融合特征输入到一个 BERT 当中，然后使用大规模语料从头进行预训练。作者在预训练的过程中，使用了 Whole WordMasking（WWM） and Char Masking（CM）策略。

2.3 使用图片-文本的MNER

社交媒体用户产生的文本具有噪音大，长度短等特点。因此社交媒体的命名实体识别面临着很大挑战。然而，社交媒体上的配图可以作为文字的补充可以结合文字中的信息共同提升多模态 NER 任务。

2.3.1 MNER

论文标题：

Multimodal Named Entity Recognition for Short Social Media Posts

收录会议：

NAACL 2018

论文链接：

https://arxiv.org/abs/1802.07862

Method：

作者首次提出了多模态命名实体识别（MNER）任务，并且发布了一个 MNER 数据集 SnapCaption。

作者将词汇的词向量，词汇的字符信息以及 Inception 提取的目标特征融合到三个模态的通过一个注意力机制融合到一起，当做词汇的多模态融合特征，然后使用 Bilstm+CRF 来编码出 NER 标签。

2.3.2 NERmultimodal

论文标题：

Adaptive co-attention network for named entity recognition in tweets

收录会议：

AAAI 2018

论文链接：

https://ojs.aaai.org/index.php/AAAI/article/view/11962

代码链接：

https://github.com/jlfu/NERmultimodal

method：作者首次提出字 MNER 任务上使用 co-attention 进行融合视觉和文本两个模态的特征，启发了日后使用 Cross-Transformer 来进行信息抽取领域中视觉-文本特征的融合的工作。作者使用 Char 表示和 word 表示进行拼接，作为文本的语义特征表示。然后使用双向 LSTM 进行序列编码。

对于图像，作者使用 VGG-NET16 进行图像特征编码。之后，作者提出了 Co-attention 得到 Word-Guided Visual Attention 和 Image-Guided Textual Attention，然后使用注意力机制融合两个 attention。这是初代的 two-stream 多模态模型。

2.3.3 UMT

论文标题：

Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer

收录会议：

ACL 2020

论文链接：

https://aclanthology.org/2020.acl-main.306

代码链接：

https://github.com/jefferyYu/UMT

Method：作者提出使用统一的 Transformer 结构来进行多模态信息的交互。作者使用三个 cross transformer 分别获得图像指导的文本表示、文本指导的图像表示以及文本模态内部的交互表示。作者在两个模态信息交互的过程中通过一个 Visual Gate 动态控制两个模态之间的交互。除此之外，作者还附加了一个实体范围识别的任务作为 auxiliary 任务，通过多任务的方式训练模型。

2.3.4 RIVA

论文标题：

RIVA: A Pre-trained Tweet Multimodal Model Based on Text-image Relation for Multimodal NER

收录会议：

COLING 2020

论文链接：

https://aclanthology.org/2020.coling-main.168

Motivation：在模型中引入判断图像-文本关系的部分来应对社交媒体数据存在“图文无关”现象。

Method：

作者的总体思路为：搭建模型，利用文本和图像两种模态的信息，得到一个融合双模态的文本表示。然后作者利用双模态的文本表示在数据集上使用自监督的方式预训练出一个语言模型。具体来看，作者使用 Bilstm 编码文字的表示，使用 resnet 编码图像的表示。RGN 是用来判断图文关系的模块，作者使用在 Bloomberg 图文匹配数据集上训练的一个模型当做 teacher 模型，RGN 模块当做teacher模型来得到预训练的图文关系判断能力。

VCN 和 Transformer 中的多头注意力部分类似，使用文本信息当做 query，图像信息当做 key 和 value，得到的是视觉信息指导的文本表示序列，然后通过一个线性层得到。和图文关系调节因数相乘得到视觉向量。在前向 lstm 中当做头向量，在后向 lstm 中当做尾向量，最终的输出为文本的最终表示。然后使用 Next word prediction 方式对模型进行预训练。

预训练完成后，模型在 MNER 任务上进行微调，使用最终的文本图像融合表示和词向量，拼接，输入到 LSTM 中。

2.3.5 RpBERT

论文标题：

RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER

收录会议：

AAAI 2021

论文链接：

https://arxiv.org/abs/2102.02967

代码链接：

https://github.com/Multimodal-NER/RpBERT

method：作者使用了一个共享参数的多模态 BERT 结构——RpBERT，来同时完成图像-文本关系判断以及图像文本特征的融合。词特征和 resnet 编码的图特征，通过 [SEP] 符号相连，输入到 rpBERT 中，输出的 [CLS] 表示向量用来图像文本分类。和上一篇论文相同，作者同样使用一个外部的数据集上训练了图像文本关系分类器。之后作者根据图文关系的置信度乘以视觉表示，连同词向量一同输入到 RpBERT 进行 NER 任务的训练。

2.3.6 UMGF

论文标题：

Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance

收录会议：

AAAI 2021

论文链接：

https://ojs.aaai.org/index.php/AAAI/article/view/17687

代码链接：

https://github.com/TransformersWsz/UMGF

Motivation：使用图像中检测出来的 objects 和文本模态进行交互和融合。

Method：和之前的 MNER 任务使用的图像划分方案不同，本文的作者使用图像目标检测器检测出的 objects 作为图像模态的交互单元。作者使用图神经网络来实现多模态的交互。在构图过程中，每个图像目标作为一个图像节点，每个词当做一个文本节点。除此之外，作者使用了句法解析器来辅助构图。使用图神经网络交互过的两个模态的单元再使用一个双流的 cross-transformer 级联一层交叉的门控机制，然后再经过一个线性层和 CRF，得到最终输出。

总结与展望

本章节为开放环节，欢迎各位小伙伴把自己的想法发到评论区，供大家讨论交流。

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

Python 潮流周刊#77：Python 依赖管理就像垃圾场火灾？（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2200字。以下是本期摘要：文章&教程①Python依赖管理一种垃圾场火灾②Python的膨胀：精细的项目间依赖关系分析③分享我的Django项
Python 潮流周刊#74：创下吉尼斯世界记录的 Python 编程课（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。本期分享了12篇文章，12个开源项目，2则音视频，全文2300字。好消息：即日起至万圣节（12.31），周刊限时99元/年，欢迎订阅！！以下是本期摘要：文章&教程①创下吉尼斯世界记录的Python
Python 潮流周刊#71：PyPI 应该摆脱掉它的赞助依赖（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，1则音视频，全文2000字。以下是本期摘要：文章&教程①PyPI应该摆脱掉它的赞助依赖②创建不分大小写的Python字符串类③用Tree-sitter&Jedi重
Python 潮流周刊#72：Python 3.13.0 最终版已发布！（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了14篇文章，12个开源项目，4则音视频，全文2300字。以下是本期摘要：文章&教程①Python3.13.0最终版已发布！②关于Python3.13，了解这些信息就够了③Python3.13
Python 潮流周刊#67：uv 的重磅更新（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2000字。以下是本期摘要：文章&教程①uv：统一的Python打包工具②PyJWT和python-jose在处理JWT令牌时的差异③Kindle+Pytho
Python 潮流周刊#68：2023 年 Python 开发者调查结果（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2100字。以下是本期摘要：文章&教程①2023年Python开发者调查结果②为什么在Docker中我仍然要用Python虚拟环境？③我如何用P
Python WebSocket服务器介绍一只会写程序的猫 Python python websocket 服务器
PythonWebSocket服务器介绍WebSocket是一种在Web浏览器和服务器之间实现全双工通信的协议。它允许服务器主动发送消息到浏览器，而不需要浏览器发起请求。Python提供了许多库和框架来实现WebSocket服务器，本文将介绍如何使用Python构建一个简单的WebSocket服务器。WebSocket协议和工作原理WebSocket协议是通过HTTP协议的升级实现的。在HTTP协
python如何读取csv文件？ gaogsf Python python 开发语言
CSV（CommaSeparatedValues）文件是一种常见的文件格式，它将数据以逗号分隔的形式存储，通常用于存储表格数据。在Python中，我们可以使用多种方法来读取CSV文件，本文将从多个角度分析Python如何读取CSV文件。一、Python内置的csv库Python内置了csv库，可以使用该库中的reader对象来读取CSV文件。下面是一个示例代码：importcsvwithopen(
探索装饰器的奥秘：Python里的超级英雄披风大梦百万秋知识学爆 python 开发语言
引言：每一行代码都可以是一件披风有没有想过，代码写得再帅气，读起来再优雅，它始终是千篇一律的套路？有时候，代码中的函数就像是穿着普通衣服的路人，默默地完成任务。而这时候，你可能会想：“嘿，我要给它们一点魔法，让它们更具超能力！”别担心，Python里的装饰器正是你需要的神秘工具，它能给你的函数加上一件“超级英雄披风”，让它们瞬间拥有更多的功能，且不改变它们原本的外貌。今天我们就来一起揭开装饰器的面
在 Python 中使用 PyPDF2 向 PDF 文件批量添加水印信息科技云课堂 python pdf
目录：使用PyPDF2添加水印到PDF文件批量添加水印到PDF文件所有页PDF文件广泛用于不同的设备和平台上，在某些情况下，可能需要在PDF文件中申明版权，需要将水印、条形码、二维码等添加到PDF中。PyPDF2提供了一种将另一个PDF文件作为水印，添加到PDF文件的方法。在下面的示例中，制作一个PDF水印文档，可以加入文字、二维码，通过合并的方法为PDF文件添加水印。使用PyPDF2添加水印到P
Python 潮流周刊#86：Jupyter Notebook 智能编码助手（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2000字。以下是本期摘要：文章&教程①介绍JupyterNotebook智能助手②用纯Python写一个“Redis”，速度比原生Redis还快？③30分钟
Python 中最易误解的功能前端
有些功能即使是经验丰富的开发者也会被难住。我也曾被它们绊倒，花数小时挠头苦思，最终才学会如何正确应对。所以，不浪费时间，让我们来探索Python中最易误解的功能，它们为何棘手，以及你如何能最终掌握它们。1.可变默认参数问题：如果你曾写过一个带有默认列表或字典参数的函数，你可能会注意到一些奇怪的现象。它会在函数调用之间“记住”值！defadd_item(item,items=[]):items.ap
python注册nacos服务 MTonj Python python 开发语言
根据nacosopenapiOpenAPI指南主要是实现以下接口：创建服务注册实例注销实例删除服务发送实例心跳实现demo如下：一个web服务1http_server1.py#coding:utf-8importsocketfrommultiprocessingimportProcessdefhandle_client(client_socket):"""处理客户端请求"""request_dat
《智守数据堡垒——AI驱动的MySQL数据治理合规框架》墨夶数据库学习资料2 人工智能 mysql 数据库
在当今数字化转型加速的时代，企业面临着前所未有的数据挑战。一方面，海量的数据为企业带来了巨大的商业价值；另一方面，如何确保这些数据的安全性、一致性和合法性成为了亟待解决的问题。尤其是在金融、医疗等高度监管行业中，任何数据泄露或不当使用都可能导致严重的法律后果和社会影响。为此，构建一个既高效又能满足法律法规要求的数据治理体系显得尤为重要。今天，我们将探讨一种创新性的解决方案——利用人工智能（AI）技
用Python进行websocket接口测试代码小念软件测试自动化测试技术分享 python websocket 开发语言
这篇文章主要介绍了用Python进行websocket接口测试，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下我们在做接口测试时，除了常见的http接口，还有一种比较多见，就是socket接口，今天讲解下怎么用Python进行websocket接口测试。SocketSocket又称"套接字"，应用程序通常通过"套接字"向网络发出请求或者应答网络请求，使主机间或者一台计算机上的进程间可
吴恩达系列——微调（Fine-tuning）与生成模型的应用疯狂小料 ai prompt
微调（Fine-tuning）是指在已有预训练模型的基础上，对模型进行进一步训练，以适应特定任务或需求。在自然语言处理领域，生成模型通过微调可以在特定场景下生成更加准确、一致的输出，同时保护用户的隐私，减少不当信息的泄露。本文将结合生成模型的工作原理和实际应用，解释微调如何提升生成模型的效果，并探讨其在保护隐私方面的优势。1.生成模型与Prompt的作用生成模型，如GPT系列，通常通过接受一个输入
机器学习02-发展历史补充坐吃山猪机器学习机器学习人工智能
机器学习02-发展历史补充文章目录机器学习02-发展历史补充1-机器学习个人理解1-初始阶段：统计学习和模式识别（20世纪50年代至80年代）2-第二阶段【集成时代】+【核方法】（20世纪90年代至2000年代初期）3-第三阶段【特征工程】+【模型优化】（2000年代中期至2010年代初期）4-大规模数据和分布式计算（2010年代中后期）5-自动化机器学习和特征选择（2010年代末至今）2-神经网
使用 Python 实现 WebSocket 服务器与客户端通信又蓝 python websocket
简介WebSocket是一种基于TCP协议的通信协议，能够在客户端与服务器之间进行全双工（双向）通信。相比传统的HTTP协议，WebSocket可以实现实时数据的传输，尤其适合需要实时交互的应用场景，如在线游戏、实时聊天、金融交易等。我通过Python实现一个简单的WebSocket服务器，并使其与客户端进行通信。我们将创建两个Python文件：websocket.py和main.py，webso
基于Python实现读取嵌套压缩包下的文件袁袁袁袁满 Python实用技巧大全 python 嵌套压缩包下文件读取 Python实现嵌套压缩包压缩包 zipfile BytesIO
文章目录前言思路完整代码代码优化前言工作中遇到的问题，需要用Python实现嵌套压缩包下文件读取，这里记录下方法，希望能帮助到更多的人。思路打开外层zip压缩包并遍历文件：使用withzipfile.ZipFile(outer_zip_path,'r')asouter_zip语句以读取模式'r'打开用户输入的外层zip压缩包对应的文件，这样在代码块结束后会自动关闭该文件，避免资源泄露。通过oute
【如何利用Python抢演唱会门票】python利用selenium实现大麦网抢票 Python小炮车 python selenium 数据库
一、selenium原理介绍Selenium是一个用于Web[应用程序](https://link.juejin.cn/?target=https%3A%2F%2Fbaike.baidu.com%2Fitem%2F%25E5%25BA%2594%25E7%2594%25A8%25E7%25A8%258B%25E5%25BA%258F%2F5985445%3FfromModule%3Dlemma_i
Python 实现七大排序算法 weixin_30527323 python shell 数据结构与算法
技术博客：github.com/yongxinz/te…本文用Python实现了插入排序、希尔排序、冒泡排序、快速排序、直接选择排序、堆排序、归并排序。先整体看一下各个算法之间的对比，然后再进行详细介绍：排序算法平均时间复杂度最好情况最坏情况空间复杂度排序方式稳定性插入排序O(n²)O(n)O(n²)O(1)In-place稳定冒泡排序O(n²)O(n)O(n²)O(1)In-place稳定选择排
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
Python数据分析常见面试题和答案01-10 飞翔还哈哈6 Python数据分析 python pandas 数据分析
以下是一些Python数据分析常见面试题和答案：1.Python中的list和tuple的区别是什么？答：List是可变的，而元组（tuple）是不可变的。因此，使用list来存储需要频繁修改的数据，而使用元组来存储不能更改的数据项。2.解释NumPy中的数组？为什么numpy在数据分析中很重要？答：NumPy是Python中提供高性能科学计算和数据分析的包。NumPy数组是一种类似于列表的数据结
【Python小技巧】使用prettytable格式化显示dataframe数据 IT里的交易员 Python经验池 python
文章目录前言一、安装prettytable二、函数打包三、应用示例总结前言经常我们使用print(df)输出dataframe数据，打印输出的数据没有格式，看起来屏幕一篇乱。有没有一种可以格式化输出的工具？还真有，那就是prettytable。一、安装prettytablePrettyTable是Python中的一个库，用于以美观的表格形式显示数据。要使用PrettyTable，首先需要安装它，可
Python中用ollama库实现连续对话 longnershot python 开发语言 AI编程
找来找去没找到一个简单示例，用4o和问心来回调整简单生成了一个，抛砖引玉了。importollamadefchat_with_ollama():#初始化一个列表来存储对话历史，每个元素是一个包含用户输入和模型回复的元组history=[]whileTrue:#获取用户输入，并转换为小写，方便后续判断退出条件user_input=input("\nUser:")#判断用户是否想要退出对话ifuser
Python电子书教程汇总 iteye_3941 python
From:http://bathome.net/thread-15554-1-1.html[转载教程]Python电子书教程汇总（2012-02-16更新）简明Python教程(AByteofPython)_1.20_中文版pdfhttp://www.rayfile.com/zh-cn/files/6cdcc561-58b2-11e1-ad5e-0015c55db73d/Python语言从入门到精
深入理解观察者模式 —— Qt信号槽机制的实现拾工软件设计观察者模式 qt 开发语言
观察者模式是一种行为型设计模式，允许一个对象（被观察者）状态发生变化时通知一组依赖它的对象（观察者），从而实现对象之间的解耦。在这篇文章中，我们将探讨如何用C++和Python实现观察者模式，并在代码中清晰地体现这一设计模式的核心思想。其实Qt的信号槽机制，就是借住了这一设计模式，并对其进行了一些扩展。由于Qt广泛的被C++和Python用户使用，所以这里给出Python和C++两个版本的简单实现
Pytorch 三小时极限入门教程 power-辰南人工智能深度学习 pytorch 人工智能
一、引言在当今的人工智能领域，深度学习占据了举足轻重的地位。而Pytorch作为一款广受欢迎的深度学习框架，以其简洁、灵活的特性，吸引了大量开发者投身其中。无论是科研人员探索前沿的神经网络架构，还是工程师将深度学习技术落地到实际项目，Pytorch都提供了强大的支持。本教程将带你从零基础开始，一步步深入了解Pytorch的核心知识，助你顺利踏上深度学习的征程。二、Pytorch基础环境搭建安装An
Python网络编程之UDP套接字编程 Ssaty. udp 网络 python
第1关：UDP初体验任务描述本关任务：完成一个客户端程序，向服务器端发出请求，传输数据，并设置超时丢包，体验UDP的基本连接过程。相关知识为了完成本关任务，你需要掌握：创建socket对象；发送UDP数据；接收UDP数据；设置超时。创建socket对象创建socket对象是第一步，后续所有的操作都是通过socket对象完成的。创建对象使用socket()函数：s=socket(参数1,参数2)#s
PCL 点云高程渲染：实现点云高程信息的颜色渲染技术征服冒险 PCL
PCL点云高程渲染：实现点云高程信息的颜色渲染点云渲染在计算机视觉和图形学中具有重要的应用价值。在处理点云数据时，一种常见的需求是通过将高程信息映射到颜色空间，以实现对点云的可视化。本文将介绍如何使用PCL（PointCloudLibrary）库实现点云的高程渲染，并提供相应的源代码。引言在开始之前，我们首先需要了解点云的基本概念。点云是由大量的三维点组成的数据集合，每个点都具有X、Y和Z坐标。点
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

When 多模态 meets 信息抽取

多模态关系抽取

任务介绍：多模态关系抽取任务的一个例子如下图所示。和基于文本的关系抽取方法相比，其他模态数据（例如图片）中的提示信息有利于性能的提升。

1.1 MNRE

1.2 Mega

多模态命名实体识别

2.1 基于语音-文本的MNER

2.2 使用汉字结构信息的MNER

2.2.1 Glyce

2.2.2 MECT

2.2.3 ChineseBERT

2.3 使用图片-文本的MNER

2.3.1 MNER

2.3.2 NERmultimodal

2.3.3 UMT

2.3.4 RIVA

2.3.5 RpBERT

2.3.6 UMGF

总结与展望

你可能感兴趣的:(自然语言处理,python,计算机视觉,机器学习,人工智能)