墨理学AI

LayoutLMv2:多模态预训练用于富含视觉元素的文档理解【论文翻译】

文章目录

- 基础信息
- 摘要
- 1 Introduction
- 2 Approach
- - 2.1 Model Architecture
  - 2.2 2.2 Pre-training Tasks
  - - Masked Visual-Language Modeling
    - Text-Image Alignment (对齐)
    - Text-Image Matching(匹配)
- 3 Experiments
- - - 3.1 Data
  - 3.2 Settings
  - - Pre-training LayoutLMv2
    - Fine-tuning LayoutLMv2
    - Baselines
  - 3.3 Results
  - 3.4 Ablation Studies
- 4 Related Work
- 5 Conclusion
- Acknowledgments
- 预祝各位前途似锦、可摘星辰

基础信息

LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding
https://arxiv.org/pdf/2012.14740.pdf
https://github.com/microsoft/unilm/tree/master/layoutlmv2

摘要

由于其有效的模型架构和大规模未标记的扫描/数字文档，文本和布局的预训练已经在各种富含视觉元素的文档理解任务中证明了其有效性。我们提出了LayoutLMv2架构，其中包含了新的预训练任务，以在单一的多模态框架中建模文本、布局和图像之间的交互。具体来说，LayoutLMv2采用了一个 two-stream multi-modal Transformer encoder，不仅使用了现有的遮蔽视觉-语言建模任务，还使用了新的文本-图像对齐和文本-图像匹配任务，从而更好地捕捉了预训练阶段的跨模态交互。同时，它还将空间感知的自注意力机制集成到Transformer架构中，使模型能够充分理解不同文本块之间的相对位置关系。实验结果表明，LayoutLMv2在各种下游富含视觉元素的文档理解任务中都大幅优于LayoutLM，并在FUNSD（0.7895 → 0.8420）、CORD（0.9493 → 0.9601）、SROIE（0.9524 → 0.9781）、Kleister-NDA（0.8340 → 0.8520）、RVL-CDIP（0.9443 → 0.9564）和DocVQA（0.7295 → 0.8672）等多个任务上取得了新的最优结果。We made our model and code publicly available at https://aka.ms/layoutlmv2.

1 Introduction

“富含视觉元素的文档理解（VrDU）旨在分析扫描/数字化的商业文件（发票图像、PDF格式的表单等），可以自动提取和组织结构化信息，用于许多商业应用。与传统信息提取任务不同，VrDU任务不仅依赖于文本信息，还依赖于对富含视觉元素的文档至关重要的视觉和布局信息。不同类型的文档表明感兴趣的文本字段位于文档的不同位置，这通常由每种类型的文档的风格和格式以及文档内容确定。因此，要准确识别感兴趣的文本字段，必须充分利用富含视觉元素的文档的跨模态特性，在单一框架中端到端地联合建模和学习文本、视觉和布局信息。”

最近对于VrDU的进展主要有两个方向。第一个方向通常建立在文本与视觉/布局/样式信息之间的浅层融合之上（Yang等，2017；Liu等，2019；Sarkhel和Nandi，2019；Yu等，2020；Majumder等，2020；Wei等，2020；Zhang等，2020）。这些方法分别利用预训练的自然语言处理（NLP）和计算机视觉（CV）模型，将来自多个模态的信息结合进行监督学习。尽管取得了良好的性能，但一个文档类型的领域知识不能轻松转移到另一个文档类型，因此这些模型通常需要在文档类型发生变化时重新训练。因此，通用文档布局中的局部不变性（左右布局中的键值对，网格布局中的表格等）无法得到充分利用。为此，第二个方向依赖于来自不同领域的大量未标记文档中的文本、视觉和布局信息的深度融合，其中预训练技术在以端到端方式学习跨模态交互方面发挥了重要作用（Lockard等，2020；Xu等，2020）。通过这种方式，预训练模型吸收了来自不同文档类型的跨模态知识，这些布局和样式之间的局部不变性得到了保留。此外，当模型需要转移到具有不同文档格式的另一个领域时，只需要少量已标记的样本就足以对通用模型进行微调，以实现最先进的准确性。因此，本文提出的模型遵循第二个方向，并探讨如何进一步改进VrDU任务的预训练策略。

在这篇论文中，我们介绍了LayoutLM的改进版本，即LayoutLMv2（Xu等，2020）。与传统的LayoutLM模型不同，其中视觉嵌入是在微调阶段合并的，LayoutLMv2在预训练阶段通过利用Transformer架构来整合视觉信息，从而学习视觉和文本信息之间的跨模态交互。此外，受到1-D相对位置表示（Shaw等，2018；Raffel等，2020；Bao等，2020）的启发，我们为LayoutLMv2提出了空间感知的自注意机制，其中包括用于标记对的2-D相对位置表示。与LayoutLM用于模拟页面布局的绝对2-D位置嵌入不同，相对位置嵌入明确地提供了更广泛的上下文空间建模视角。对于预训练策略，我们为LayoutLMv2使用了两种新的训练目标，除了遮蔽的视觉-语言建模。第一种是提出的文本-图像对齐策略，它对齐文本行和相应的图像区域。第二种是在先前的视觉-语言预训练模型中流行的文本-图像匹配策略（Tan和Bansal，2019；Lu等，2019；Su等，2020；Chen等，2020；Sun等，2019），其中模型学习文档图像和文本内容是否相关。

我们选择了六个公开可用的基准数据集作为下游任务，以评估预训练的LayoutLMv2模型的性能，包括FUNSD数据集（Jaume等，2019）用于形式理解，CORD数据集（Park等，2019）和SROIE数据集（Huang等，2019）用于收据理解，Kleister-NDA数据集（Gralinski等，2020）用于具有复杂布局的长文档理解，RVL-CDIP数据集（Harley等，2015）用于文档图像分类，以及DocVQA数据集（Mathew等，2021）用于文档图像上的视觉问答。实验结果表明，LayoutLMv2模型明显优于强基线模型，包括传统的LayoutLM，并在所有这些任务中取得了新的最先进的结果。

本文的贡献总结如下：

我们提出了一个多模态Transformer模型，用于在预训练阶段集成文档文本、布局和视觉信息，从而在单一框架中学习跨模态交互。同时，我们在Transformer架构中集成了一个空间感知的自注意机制。
除了遮蔽的视觉-语言模型，我们还添加了文本-图像对齐和文本-图像匹配作为新的预训练策略，以强制执行不同模态之间的对齐。
LayoutLMv2在传统的VrDU任务上显著优于以往模型，并且在文档图像的VQA任务上取得了新的最先进结果，这表明多模态预训练在VrDU领域具有巨大潜力。

2 Approach

在本节中，我们将介绍LayoutLMv2的模型架构和多模态预训练任务，如图1所示。

2.1 Model Architecture

我们构建了一个多模态Transformer架构作为LayoutLMv2的骨干，该架构将文本、视觉和布局信息作为输入，以建立深入的跨模态交互。我们还为模型架构引入了一个空间感知的自注意机制，以更好地对文档布局进行建模。模型的详细描述如下。

Text Embedding

按照通常的做法，我们使用WordPiece（Wu等人，2016年）对OCR文本序列进行分词，并将每个标记分配给某个段落si ∈ {[A]，[B]}。然后，我们在序列的开头添加[CLS]，在每个文本段落的末尾添加[SEP]。额外的[PAD]标记被附加到末尾，以便最终序列的长度恰好等于最大序列长度L。最终的文本嵌入是三个嵌入的总和。标记嵌入表示标记本身，1D位置嵌入表示标记索引，段落嵌入用于区分不同的文本段落。
形式上，我们有第i个（0 ≤ i < L）文本嵌入。

Visual Embedding

尽管我们需要的所有信息都包含在页面图像中，但模型难以捕捉整个页面的详细特征，因为它需要将这些信息转化为一个信息丰富的固定长度序列表示。因此，我们利用基于CNN的视觉编码器的输出特征图，该编码器将页面图像转换为一个固定长度的序列。我们使用ResNeXt-FPN（Xie等人，2017年；Lin等人，2017年）架构作为视觉编码器的主干，其参数可以通过反向传播进行更新。

给定一个文档页面图像 I，首先将其调整为 224 × 224 的大小，然后输入到视觉主干中。接下来，对输出的特征图进行平均池化，使其宽度为 W，高度为 H。然后，将其展平为长度为 W × H 的视觉嵌入序列。该序列被命名为 VisTokEmb(I)。接着，对每个视觉令牌嵌入应用线性投影层，以统一其维度与文本嵌入的维度。由于基于CNN的视觉主干不能捕获位置信息，我们还向这些视觉令牌嵌入添加了一个1D位置嵌入。这个1D位置嵌入与文本嵌入层共享。至于分段嵌入，我们将所有视觉令牌附加到视觉分段 [C] 上。第 i 个（0 ≤ i < W H）视觉嵌入可以表示为：

Layout Embeddin

布局嵌入层用于嵌入由OCR结果表示的轴对齐令牌边界框所代表的空间布局信息，其中边界框的宽度和高度以及角坐标都被识别出来。与原始的 LayoutLM 一样，我们将所有坐标标准化并离散化为位于 [0, 1000] 范围内的整数，并使用两个嵌入层分别嵌入 x 轴特征和 y 轴特征。对于第 i 个（0 ≤ i < W H + L）文本/视觉令牌的规范化边界框 boxi = (xmin、xmax、ymin、ymax、width、height)，布局嵌入层将六个边界框特征连接起来，构建一个令牌级别的二维位置嵌入，也称为布局嵌入。

请注意，CNN执行局部转换，因此可以逐个将视觉令牌嵌入映射回图像区域，既不重叠也不遗漏。在计算边界框时，可以将视觉令牌视为均匀划分的网格。一个空的边界框 boxPAD = (0, 0, 0, 0, 0, 0) 附加到特殊令牌 [CLS]、[SEP] 和 [PAD]。

按照Transformer的架构，我们构建了一个多模态编码器，包括一堆多头自注意力层和一个前馈网络。然而，原始的自注意力机制只能隐式捕捉输入令牌之间的关系，带有绝对位置提示。为了高效地建模文档布局中的局部不变性，我们需要显式地插入相对位置信息。因此，我们在自注意力层中引入了空间感知自注意力机制。为了简化描述，以下内容涉及单个自注意力层中的单个头，其隐藏大小为dhead，并且包括投影矩阵WQ、WK、WV。原始的自注意力机制通过对查询项xi和关键项xj进行投影，然后计算注意力分数来捕获它们之间的相关性。

2.2 2.2 Pre-training Tasks

Masked Visual-Language Modeling

类似于原始的LayoutLM，我们使用了“Masked Visual-Language Modeling”（MVLM）来让模型在语言方面学习更好，借助跨模态线索。我们随机遮盖一些文本标记，要求模型恢复被遮盖的标记。同时，布局信息保持不变，这意味着模型知道每个被遮盖标记在页面上的位置。来自编码器的遮盖标记的输出表示被馈送到整个词汇表上的分类器，由交叉熵损失驱动。为了避免视觉线索泄漏，在将原始页面图像输入视觉编码器之前，我们会遮盖与被遮盖标记对应的图像区域。

Text-Image Alignment (对齐)

为了帮助模型学习图像与文本标记之间的空间位置对应关系，我们提出了“文本-图像对齐”（TIA）作为一项精细的跨模态对齐任务。在TIA任务中，会随机选择一些文本行，并在文档图像上覆盖它们的图像区域。我们称这个操作为“覆盖”，以避免与MVLM中的掩码操作混淆。在预训练期间，在编码器输出之上构建了一个分类层。该层根据每个文本标记是否被覆盖（即[Covered]或[Not Covered]）来预测标签，并计算二进制交叉熵损失。考虑到输入图像的分辨率有限，而一些文档元素（例如图中的符号和条形图中的线条）可能看起来像被覆盖的文本区域，因此找到一个与词大小相符的覆盖图像区域可能会有噪音。因此，覆盖操作是在行级别执行的。当MVLM和TIA同时执行时，不考虑在MVLM中被屏蔽的标记的TIA损失。这可以防止模型学习从[MASK]到[Covered]的无用但直接的对应关系。

Text-Image Matching(匹配)

此外，还应用了一项粗粒度的跨模态对齐任务，即“文本-图像匹配”（TIM），以帮助模型学习文档图像和文本内容之间的对应关系。我们将[CLS]位置的输出表示输入到一个分类器中，以预测图像和文本是否来自同一文档页面。正常的输入被视为正样本。为构建负样本，可以将图像替换为来自另一份文档的页面图像，或者直接舍弃图像。为防止模型通过找到任务相关特征来作弊，我们对负样本中的图像执行相同的掩码和覆盖操作。在负样本中，TIA的目标标签都设置为[Covered]。在优化过程中，我们应用 binary cross-entropy loss。

3 Experiments

3.1 Data

3.2 Settings

按照典型的预训练和微调策略，我们更新所有参数，包括视觉编码器层，并为所有设置端到端地训练整个模型。有关训练细节，请参阅附录。

Pre-training LayoutLMv2

我们训练了两个不同参数大小的LayoutLMv2模型。在LayoutLMv2BASE中，我们使用了一个12层12头的Transformer编码器，并设置了隐藏大小d = 768。而在LayoutLMv2LARGE中，编码器具有24个Transformer层，16个头和d = 1024。两个模型中的视觉骨干都基于相同的ResNeXt101-FPN架构。LayoutLMv2BASE和LayoutLMv2LARGE的参数数量分别约为200M和426M。

对于编码器以及文本嵌入层，LayoutLMv2使用了与UniLMv2相同的架构，因此它是从UniLMv2初始化的。对于视觉嵌入层中的ResNeXt-FPN部分，采用了在PubLayNet上训练的Mask-RCNN模型的骨干网络。模型中的其余参数是随机初始化的。

在预训练过程中，我们从IIT-CDIP数据集中随机选择页面，并在样本太长时选择文本序列的随机滑动窗口。我们将最大序列长度设置为L = 512，并将所有文本标记分配给段落[A]。平均池化层的输出形状被设置为W = H = 7，这样它可以将特征图转换成49个视觉标记。在MVLM中，有15%的文本标记被掩盖，其中80%被替换为特殊标记[MASK]，10%被替换为从整个词汇表中随机抽样的随机标记，而10%保持不变。在TIA中，有15%的文本行被覆盖。在TIM中，有15%的图像被替换，而5%的图像被删除。

Fine-tuning LayoutLMv2

我们在文档级别的分类任务RVL-CDIP中使用[CLS]输出，以及汇总的视觉标记表示作为全局特征。对于抽取式问答任务DocVQA和其他四个实体抽取任务，我们遵循类似于(Devlin et al., 2019)的常见做法，构建了特定任务的头部层，覆盖LayoutLMv2输出的文本部分。

Baselines

在实验中，我们选择了三个基准模型来与LayoutLMv2进行比较，这些基准模型包括仅使用文本进行预训练的模型，以及原始的LayoutLM模型。具体来说，我们将LayoutLMv2与BERT (Devlin等人，2019)、UniLMv2 (Bao等人，2020) 和 LayoutLM (Xu等人，2020) 进行了比较，针对所有的实验设置都使用了这些基线方法。我们使用了公开可用的PyTorch模型来实现BERT (Wolf等人，2020) 和LayoutLM，而对于UniLMv2模型，我们使用了我们内部的实现。对于每个基线方法，实验都使用了BASE和LARGE两种参数设置。

3.3 Results

3.4 Ablation Studies

4 Related Work

近年来，预训练技术在自然语言处理（NLP）和计算机视觉（CV）领域变得非常流行，并且也被应用于视觉丰富的文档理解（VrDU）任务。

Devlin等人（2019）引入了一种新的语言表示模型称为BERT，它旨在通过联合考虑所有层中的左右上下文，在未标记的文本上进行深度双向表示的预训练。 Bao等人（2020）提出了一种统一的语言模型，用于自动编码和部分自回归语言建模任务，采用了一种称为伪掩码语言模型的新型训练过程。我们的多模态Transformer架构和MVLM预训练策略扩展了Transformer和MLM，以利用视觉信息。

Lu等人（2019）提出了ViLBERT，用于学习图像内容和自然语言的任务无关的联合表示，通过将流行的BERT架构扩展为多模态的双流模型。Su等人（2020）提出了VL-BERT，采用Transformer模型作为骨干，并将其扩展为接受视觉和语言嵌入特征作为输入。与这些视觉-语言预训练方法不同，LayoutLMv2的视觉部分直接使用特征图，而不是池化的ROI特征，并受益于新的TIA预训练任务。

Xu等人（2020）提出了LayoutLM，以联合建模扫描文档图像中的文本和布局信息之间的交互作用，从而受益于大量的真实世界文档图像理解任务，例如从扫描文档中提取信息。这项工作是对基本的LayoutLM的自然扩展，它利用文本、布局和视觉信息在单一的多模态预训练框架中。

5 Conclusion

在这篇论文中，我们提出了一种用于富于视觉的文档理解任务的多模态预训练方法，即LayoutLMv2。与现有的VrDU方法不同，LayoutLMv2模型不仅考虑文本和布局信息，还在预训练阶段与单一的多模态框架集成了图像信息。与此同时，我们还在Transformer架构中集成了一种空间感知的自注意机制，以捕捉不同边界框之间的相对关系。此外，我们还利用了新的预训练目标来强制学习不同模态之间的跨模态交互。在6种不同的VrDU任务上的实验结果表明，预训练的LayoutLMv2模型在文档智能领域大大优于SOTA基线，这极大地有利于许多实际的文档理解任务。

对于未来的研究，我们将进一步探讨LayoutLM家族的网络架构和预训练策略。同时，我们还将研究语言扩展，使多语言的LayoutLMv2模型适用于不同的语言，特别是世界各地的非英语地区。

Acknowledgments

This work was supported by the National Key R&D Program of China via grant 2020AAA0106501 and the National Natural Science Foundation of China (NSFC) via grant 61976072 and 61772153.

预祝各位前途似锦、可摘星辰

作为全网 AI 领域干货最多的博主之一，❤️ 不负光阴不负卿 ❤️

❤️ 过去的每一天、想必你也都有努力、祝你披荆斩棘、未来可期

深度学习模型训练推理——基础环境搭建推荐博文查阅顺序【基础安装—认真帮大家整理了】
计算机视觉：硕博士，交流、敬请查阅
点赞收藏 ⭐留言都是博主坚持写作、更新高质量博文的最大动力！

【C#】Task.Delay与Thread.Sleep 我不是程序猿儿 C#c#开发语言
Task.Delay和Thread.Sleep都是用来使程序暂停一段时间，但它们有一些关键的区别，特别是在多线程和异步编程的上下文中。1.Thread.Sleep：阻塞当前线程Thread.Sleep是同步操作，它会让当前线程暂停执行，直到指定的时间过去。它会阻塞当前线程，导致线程无法继续执行任何代码，直到休眠时间结束。这意味着如果你在UI线程中使用Thread.Sleep，会导致UI卡顿，用户无
stm32h7关串口中断怎么弄_stm32h7“HardFault_Handler（硬件异常中断）分析” weixin_39926191 stm32h7关串口中断怎么弄
在stm32调试中有时候会进入硬件异常中断HardFault_Handler。SEGGER公司(旗下有大名鼎鼎的emWin图形工具)提供一种硬件异常中断HardFault_Handler定位调试方法。在MDK和IAR开发环境都适用。这里，我们在MDK开发环境上记录一次调试经历。1、硬件异常案例主函数是对按键K1和摇杆OK的接收处理操作，如伪代码1伪代码1intmain(void){//按键初始化函
使用CSS3实现炫酷的3D翻转卡片效果木木黄木木 css3 3d 前端
使用CSS3实现炫酷的3D翻转卡片效果这里写目录标题使用CSS3实现炫酷的3D翻转卡片效果项目介绍技术要点分析1.3D空间设置2.核心CSS属性3.布局和定位实现难点和解决方案1.3D效果的流畅性2.卡片内容布局3.响应式设计性能优化建议浏览器兼容性总结项目介绍在这个项目中，我们使用纯CSS3技术实现了一个具有3D翻转效果的交互卡片。当用户将鼠标悬停在卡片上时，卡片会沿Y轴优雅地旋转180度，展示
计算机视觉毕业设计选题推荐：选题技巧建议收藏 HaiLang_IT 毕业设计人工智能计算机视觉
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
编译时报错“LNK2019 无法解析的外部符号”的可能原因及其解决办法烟锁池塘柳0 程序设计与编程语言 c++
在VS2022中运行C++程序的时候，有时候会遇到这样的问题：1>（源文件名称）.obj:errorLNK2019:无法解析的外部符号"public:__cdecl（函数名(参数列表)）"(??0（函数名与乱码）@@QEAA@XZ)，函数main中引用了该符号1>项目路径\x64\Debug\可执行程序名.exe:fatalerrorLNK1120:1个无法解析的外部命令遇到这种问题，可以说是很难
OpenCV 图像几何变换：旋转，缩放，斜切奈何小洪 OPENCV opencv 图像旋转缩放
几何变换几何变换可以看成图像中物体（或像素）空间位置改变，或者说是像素的移动。几何运算需要空间变换和灰度级差值两个步骤的算法，像素通过变换映射到新的坐标位置，新的位置可能是在几个像素之间，即不一定为整数坐标。这时就需要灰度级差值将映射的新坐标匹配到输出像素之间。最简单的插值方法是最近邻插值，就是令输出像素的灰度值等于映射最近的位置像素，该方法可能会产生锯齿。这种方法也叫零阶插值，相应比较复杂的还有
软件研发项目管理软件有哪些？8Manage PM等5款产品深度对比 Sadie_d 软件研发
软件研发项目的复杂性往往让团队面临诸多挑战：需求变更频繁、进度难以把控、资源分配不均、团队协作效率低下……这些问题如果得不到有效管理，不仅会拖延项目周期，还可能导致成本超支甚至项目失败。为了应对这些挑战，软件研发项目管理系统应运而生。它通过集成化的工具和科学的方法论，帮助研发团队提升效率、优化流程、确保项目按时交付。本文将探讨项目管理系统对软件研发团队的具体好处，并介绍5款主流产品助您找到适合的解
项目经理的情商革命：从流程管家到团队灵魂的进化之路
在硅谷某头部AI公司的项目复盘会上，技术总监突然摔掉手中的报告：“这种反人类的进度要求，你们PM除了会催进度还懂什么？”会议室陷入死寂时，项目经理Lisa平静起身：“我理解各位连续加班三周的疲惫，上周四发现Tom在工位睡着时，我就该叫停这个冲刺——这是我的失职。现在请大家一起重新评估优先级，我申请将上线日期延后两周。”这段对话后，团队自愿启动“996攻坚”，最终提前3天交付。这个真实案例揭示了一个
C# 的 base 关键字 visual-studio
base关键字用于从派生类中访问基类的成员。使用它可以：调用基类上已被另一个方法覆盖（override）的方法。指定在创建派生类的实例时应该调用基类的构造函数。基类访问只允许在构造函数、实例方法和实例属性访问器中进行。在静态方法中使用base关键字会产生错误。被访问的基类是类声明中指定的基类。例如，如果指定classClassP:ClassJ，则无论ClassJ的基类是什么，都可以从ClassP访
AI让奥运报道一键跨越，见证新华社新科技云计算视频云音视频
媒体智能与巴黎奥运的一场邂逅。随着巴黎奥运会开幕式为全世界掀起一场文艺浪潮，塞纳河畔也从浪漫艺术的盛宴，转向体育竞技的击攘。让全世界不可错过巴黎前方的每刻高光，更需要一场多媒体技术的迎赶革新。于是，我们看到另一场媒体技术舞台，浮出塞纳河的水面。新华社作为国际奥委会认可的唯一非西方的国际通讯社，此次启用由阿里云和山东广电信通联合打造的重大报道共享系统，以AI领先应用，助力巴黎奥运报道。图示：新华社在
如果企业数据仓库全部使用 Couchbase Analytics 服务，可能会面临哪些问题？ PersistDZ 数据存储数据仓库
如果企业数据仓库全部使用CouchbaseAnalytics服务，可能会面临哪些问题？一、概述CouchbaseAnalytics服务是一项强大的工具，旨在为NoSQL数据提供近实时的分析能力。然而，如果企业的数据仓库全部依赖于CouchbaseAnalytics服务，可能会遇到一些问题和挑战。以下将从多个角度详细分析这些可能的问题。二、可能的问题和挑战资源消耗和成本高资源需求：Couchbase
dig 命令深入学习服务器linuxdns解析
一、dig命令有什么用dig命令（DomainInformationGroper）是一个用于查询DNS(域名系统）记录的强大工具，它提供了详细的DNS信息，主要用于帮助用户诊断、调试和验证与域名解析相关的问题。除了dig命令，还有一种跟dig功能是差不多的命令nslookup二、dig命令安装如果您的Linux系统默认没有安装dig，可能会提示dig:commandnotfound。请使用以下命令
多种弹窗实现方法鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例介绍以下五种常见的弹窗场景化案例。应用启动时的隐私政策和用户协议弹窗网络请求完成的结果提示弹窗应用返回上一级页面的退出确认弹窗个人信息填写的信息弹窗应用使用过程中出现的付费类广告弹窗弹窗场景化源码链接效果预览使用说明进入应用会立马弹出一个隐私协议窗口，点同意关闭该窗口，点不同意退出应用。点击网络请求完成的结果提示弹窗，会弹出一个等待的子窗口弹窗，网络请求完毕
泛型擦除和TypeToken liudachu java
泛型可以让代码更加通用，但同时也可能会导致一些类型信息在运行时丢失，这就是所谓的类型擦除。Guava的TypeToken帮咱们巧妙地解决了这个问题。第1章：泛型编程的挑战先来说说泛型。在Java中，泛型是一种在编译时进行类型检查的机制。它让咱们能在类、接口、方法中使用类型参数，比如List或者Map。这样的好处是代码更安全，更易读，同时还能重用。但是，泛型也有个大问题——类型擦除。听起来有点高深，
java八股文之常见的集合 qq_45923849 java 开发语言
一、数组的索引为什么从0开始？寻址公式：数组的首地址+索引乘以存储数据的类型大小在根据数组索引获取元素的时候，会用索引和寻址公式来计算内存所对应的元素数据。如果数组的索引从1开始，寻址公式中，就需要增加一次减法操作（数组的首地址-1），对于CPU来说就多了一次指令，性能会降低。二、数组进行查找操作的时间复杂度如果是通过下标，查询的时间复杂度是O(1)如果不通过下标，和使用的查找方式有关–从头往后顺
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
Rust语言介绍和猜数字游戏的实现栖林_ Rust rust 游戏开发语言
文章目录Rust语言介绍和猜数字游戏的实现cargo是什么使用Rust编写猜数字Rust语言介绍和猜数字游戏的实现Rust语言是一种系统编程语言，核心强调安全性、并发性以及高性能，由类似于C/C++的底层控制能力，性能也非常接近，Rust有一些特性所有权系统，这个可以自动管理内存，无需垃圾回收器，保证数据的安全零成本抽象，高层抽象不会带来运行时的开销，运行时的效率会很高线程安全，在编译阶段就能防止
RuoYi框架连接SQL Server时解决“SSL协议不支持”和“加密协议错误” 专注代码十年 ssl 网络协议网络
RuoYi框架连接SQLServer时解决“SSL协议不支持”和“加密协议错误”在使用RuoYi框架进行开发时，与SQLServer数据库建立连接可能会遇到SSL协议相关的问题。以下是两个常见的错误信息及其解决方案。错误信息1com.zaxxer.hikari.pool.HikariPool$PoolInitializationException:Failedtoinitializepool;'e
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等） DoYangTan python 学习分布式
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等）前言随着业务规模的不断扩大以及对系统性能、可扩展性的更高要求，后端应用往往会朝着分布式系统的方向发展。然而，分布式系统带来诸多优势的同时，也面临着如数据一致性等复杂的挑战。本期我们就聚焦于分布式系统中的关键问题——数据一致性，深入探讨分布式锁、分布式事务等相关知识以及保障数据一致性的策略与实践，让我们一起深入学习
【Leetcode刷题随笔】844 比较含退格的字符串 Poor_DayDreamer 移除元素篇字符串篇 leetcode 算法职场和发展
1.题目描述给定s和t两个字符串，比较s和t是否在删除所有由#字符表示的退格操作后相等。退格操作会删除其前面（不包括#本身）的一个字符，如果前面没有字符则忽略该#。如果字符串的末尾有多个退格符，它们会相互抵消，直到没有退格符剩余或者所有字符都被删除。示例1：输入：s=“ab#c”,t=“ad#c”输出：true解释：s和t都会变成“ac”，因为#前面的b和d都被删除。示例2：输入：s=“ab##”
人生重开模拟器 -deepseek版 Cccc吃吃吃 python 开发语言
人生重开模拟器是一个有趣的文字类游戏，玩家可以通过选择不同的选项来体验不同的人生轨迹。下面是一个简单的Python实现，模拟了人生重开的过程。玩家可以通过输入数字来选择不同的选项，游戏会根据选择生成不同的人生结局。```pythonimportrandomdefprint_intro():print("欢迎来到人生重开模拟器！")print("你将重新开始你的人生，通过不同的选择体验不同的人生轨迹
STM32HAL库，解决串口UART中断接收到的第一个字节数据丢失 IT.小航 STM32-—hal库 stm32 单片机嵌入式硬件
1.问题描述：只有上电后第一次接收到的第一字节数据会丢失，往后再接收也不会存在问题了。2.先贴出来重写UART中断回调函数我在接收到第一字节数据后开启定时器中断的，做一个超时处理，每次接收到数据会对定时器计数值清零，如果超过6ms则认为一帧数据接收完毕。voidHAL_UART_RxCpltCallback(UART_HandleTypeDef*huart){if(huart->Instance=
详细介绍 Jupyter nbconvert 工具及其用法：如何将 Notebook 转换为 Python 脚本源代码杀手 python使用技巧 python jupyter ide
nbconvert是Jupyter提供的一个非常强大的工具，允许用户将JupyterNotebook文件（.ipynb）转换成多种格式，包括Python脚本（.py）、HTML、PDF、LaTeX等。你可以通过命令行来运行nbconvert，也可以在JupyterNotebook中通过一些自定义的设置来实现转换。安装nbconvert通常情况下，nbconvert会随Jupyter一起安装，因此不
python -- assert函数我不是程序员‍ python知识 python
一、assert函数在Python中，assert语句用于调试和测试代码。它用于检查某个条件是否为真。如果条件为假，assert语句会抛出一个AssertionError异常，并可以选择性地附加一条错误消息。assert语句的基本语法是：assertcondition,optional_messagecondition:一个布尔表达式。如果结果为True，程序继续执行。如果为False，会触发As
如何用Python和Selenium实现表单的自动填充与提交？字节王德发 python python selenium 开发语言
在今天的数字化时代，自动化工具可以极大地提高工作效率。很多人可能会觉得填表单是个繁琐的任务，不过你知道吗？用Python和Selenium可以轻松解决这一问题！本文将带你走进如何利用这两个强大的工具，实现表单的自动填充和提交，让你省去不少时间。什么是Selenium？Selenium是一个广泛使用的自动化测试工具，它能够模拟用户在浏览器中的操作。通过它，我们可以自动化执行诸如点击按钮、输入文本、选
aixbt 被盗 55.5 ETH，本就孱弱的 AI 代理叙事会「雪上加霜」吗人工智能区块链以太坊
作者：Techub热点速递撰文：Yangz，TechubNews在大部分行业目光都投向币安「组合拳」引发的BNBChain热潮、OKX因合规问题暂停DEX聚合服务以及Solana深陷政治广告风波的同时，周一CT上爆出的关于头部AI代理aixbt被「钓鱼诈骗」55.5ETH一事再次引发了社区关于AI代理叙事可持续性的思考。不少用户担忧，目前本就孱弱的AI代理叙事是否会因此「雪上加霜」？周一下午，多名
金三银四快过去一半了，是时候加把劲了后端go找工作面试
从复旦春招会的15000+岗位争夺战，到AI算法岗年薪百万的“神仙打架”，再到游戏行业20:1的残酷竞争比，今年的金三银四像极了《三体》里的黑暗森林：机会看似遍地，但稍有不慎就成了别人的“背景板”。但现实真的是“投晚了就凉了”吗？数据告诉你真相：智联研究院统计显示，算法工程师、机器人算法工程师等岗位需求同比激增44%，而中小企业的“捡漏窗口”才刚开启。这半个月，我整理了20+场面试实录（含小鹅通、
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
【项目实战】Redis常见问题之缓存击穿、缓存穿透、缓存雪崩本本本添哥 004 -数据库 003 -中间件缓存 redis spring
Redis作为一款流行的内存数据存储系统，经常被用作缓存来提高应用的性能。然而，在使用Redis作为缓存时，可能会遇到一些问题，如缓存击穿、缓存穿透和缓存雪崩。这些问题可能导致系统性能下降甚至服务不可用。下面是对这三种常见问题的简要解释及解决方案，每种方案都有其适用场景与限制条件，在实际应用中需要根据具体情况选择最合适的方法来优化系统性能并保障稳定性。此外，合理的架构设计以及对业务逻辑的理解也是有
软考中级软件设计师考点知识点笔记总结 day05 莫问alicia 软考中级软件设计师笔记算法
文章目录4、栈和队列4.1、栈的定义4.2、队列定义5、串、数组、矩阵和广义表5.1、串5.2、数组5.3、稀疏矩阵5.4、广义表4、栈和队列4.1、栈的定义线性表是具有相同数据类型的n个数据元素的有限序列，n为表厂。n=0时线性表是一个空表L=（a1,a2,a3,…an）栈是只允许在一端进行插入或删除操作的线性表栈顶允许插入和删除的一端栈顶进栈顶出栈底不允许插入和删除的一端4.2、队列定义队列是
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&