CV技术指南（公众号）

计算机视觉中的transformer模型创新思路总结

前言

本文回顾了ViT的结构，总结了计算机视觉中的transformer的主要改进思路：改进分块，改进位置编码，改进Encoder，增加Decoder。每个思路下都介绍了相关的论文，介绍了这些论文的提出出发点和改进思路。

本文的目的不在于介绍transformer现在有哪些模型，而在于学习借鉴别人发现问题并改进的思路，从而在自己方向上提出合适且合理的改进。

本文来自公众号CV技术指南的论文分享系列,技术总结系列

关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。

ViT回顾

在讲计算机视觉中transformer的模型创新总结之前，先有必要对它整体模型进行回顾。在本文选取了最常用的ViT。

如图所示，对于一张图像，先将其分割成NxN个patches,把patches进行Flatten，再通过一个全连接层映射成tokens,对每一个tokens加入位置编码(position embedding)，会随机初始化一个tokens，concate到通过图像生成的tokens后，再经过transformer的Encoder模块，经过多层Encoder后，取出最后的tokens(即随机初始化的tokens),再通过全连接层作为分类网络进行分类。

这个过程中存在很多值得改进的空间，下面我们看看其它论文是如何思考并改进的。以下内容按照上面这个实现过程对每个步骤的改进来排序。

改进思路

1. 分块的改进

渐进采样式vision transformer

论文：Vision Transformer with Progressive Sampling(ICCV2021)

代码：https://github.com/yuexy/PS-ViT

提出问题

ViT采用了一种朴素的标记化(tokenization)方案，该方案将一幅图像分割成一系列规则间隔的patches，这些patches被线性投影到tokens中。通过这种方式，图像被转换成数百个视觉tokens。

然而，这种tokens化方案的局限性是显而易见的。

首先，硬分割可能会分离出一些高度相关的区域，这些区域应该用同一组参数建模，这破坏了固有的对象结构，并使输入patches的信息量变得较少。图显示猫头被分成几个部分，导致仅基于一个部分的识别挑战。其次，tokens被放置在规则网格上，而与底层图像内容无关。图显示，大多数网格聚焦在不感兴趣的背景上，这可能导致感兴趣的前景对象淹没在干扰信号中。

改进思路

人类视觉系统以一种完全不同的方式组织视觉信息，而不是一次不加区别地处理整个场景。取而代之的是，它循序渐进地、选择性地将注意力集中在视觉空间的有趣部分，无论何时何地需要它，而忽略不感兴趣的部分，随着时间的推移，结合来自不同注视的信息来理解场景。

受上述过程的启发，论文提出了一种新的基于transformer的渐进采样（Progressive Sampling）模块，该模块能够学习从哪里看图像，以缓解ViT中简单的tokens化方案带来的问题。

论文提出的模块不是从固定位置采样，而是以迭代的方式更新采样位置。如图所示，在每次迭代中，当前采样步骤的tokens被馈送到transformer编码层，并预测一组采样偏移量以更新下一步的采样位置。该机制利用transformer的能力来捕获全局信息，通过结合本地上下文和当前tokens的位置来估计对感兴趣区域的偏移量。这样，注意力就会像人类视觉一样，一步一步地集中到图像的可辨别区域。

详情请阅读：ICCV2021 | 渐进采样式Vision Transformer

2.相对位置编码的反思与改进

论文：Rethinking and Improving Relative Position Encoding for Vision Transformer(ICCV2021)

代码：https://github.com/microsoft/Cream/tree/main/iRPE

提出问题

transformer位置表示的编码方法主要有两类。一个是绝对的，另一个是相对的。

绝对方法将输入tokens的绝对位置从1编码到最大序列长度。也就是说，每个位置都有单独的编码向量。然后将编码向量与输入Tokens组合，以将位置信息输入给模型。

相对位置方法对输入tokens之间的相对距离进行编码，并学习tokens之间的成对关系。相对位置编码(relative position encoding, RPE)通常通过具有与self-attention模块中的 query 和 key 交互的可学习参数的查询表来计算。这样的方案允许模块捕获Tokens之间非常长的依赖关系。

相对位置编码在自然语言处理中被证明是有效的。然而，在计算机视觉中，这种效果仍然不清楚。最近很少有文献对其进行阐述，但在Vision Transformer方面却得出了有争议的结论。

例如，Dosovitski等人观察到相对位置编码与绝对位置编码相比没有带来任何增益。相反，Srinivaset等人发现相对位置编码可以诱导明显的增益，优于绝对位置编码。此外，最近的工作声称相对位置编码不能和绝对位置编码一样好用。这些工作对相对位置编码在模型中的有效性得出了不同的结论，这促使我们重新审视和反思相对位置编码在Vision Transformer中的应用。

另一方面，语言建模采用原始相对位置编码，输入数据为一维单词序列。但对于视觉任务，输入通常是2D图像或视频序列，其中像素具有高度空间结构。目前尚不清楚：从一维到二维的扩展是否适用于视觉模型；方向信息在视觉任务中是否重要？

改进思路

1.论文分析了相对位置编码中的几个关键因素，包括相对方向、上下文的重要性、query、key、value和相对位置嵌入之间的交互以及计算代价。该分析对相对位置编码有了全面的理解，并为新方法的设计提供了经验指导。

2.提出了一种高效的相对编码实现方法，计算成本从原始O()降低到O(nkd)(其中k<

3.综合考虑效率和通用性，提出了四种新的vision transformer的相对位置编码方法，称为image RPE(IRPE)。这些方法很简单，可以很容易地插入self-attention层。实验表明，在不调整任何超参数和设置的情况下，该方法在ImageNet和COCO上分别比其原始模型DeiTS和DETR-ResNet50提高了1.5%(top-1ACC)和1.3%(MAP)。

4.实验证明，在图像分类任务中，相对位置编码可以代替绝对编码。同时，绝对编码对于目标检测是必要的，其中像素位置对于目标定位是重要的。

详情请阅读：ICCV2021 | Vision Transformer中相对位置编码的反思与改进

3.Encoder的改进

关于Encoder的改进，大部分都是在将transformer用于具体任务时，针对各个任务的特点或出现的问题进行改进的。虽然不一定是一个通用的模型，但其在改进过程中体现的改进思路仍值得学习和借鉴。

TransFER

论文：TransFER: Learning Relation-Aware Facial Expression Representations With Transformers(ICCV2021)

提出问题

表情识别具有类内相似性小、类间相似性大的特点。同时，需要提取不同的局部表征来对不同的表情进行分类。即使某些局部块(patches)不可见，更多样化的局部块也可以发挥作用。同时，不同的局部块可以相互补充。

例如，如图所示，仅根据嘴巴区域(列2)很难区分惊讶(第1行)和愤怒(第2行)。我们提出的TransFER模型探索了不同的关系感知面部部位，如眼睛(第3列，第1行)和眉毛之间的区域(第3列，第2行)，这有助于区分这些不同的表情。

因此，应该在全局范围内探索不同局部块(patches)之间的关系，突出重要的块(patches)，抑制无用的块(patches)。

改进思路

论文提出了TransFER模型来学习不同关系感知的FER局部表示。

首先，提出了随机丢弃注意力图的多注意丢弃算法(Multi-Attention Dropping, MAD)。通过这种方式，推动模型去探索除最具区分性的局部斑块之外的综合局部斑块，自适应地聚焦于不同的局部斑块。当某些部位因姿势变化或遮挡而不可见时，此方式特别有用。

其次，Vision Transformer(VIT)适用于FER，称为VIT-FER，用于对多个局部块之间的连接进行建模。由于采用全局范围对每个局部块进行增强，充分挖掘了多个局部块之间的互补性，提高了识别性能。

第三，多头自我注意(multi-head self-attention)使VIT能够在不同位置共同关注来自不同信息子空间的特征。然而，由于没有明确的指导，可能会建立冗余关系。为解决这一问题，提出了随机丢弃一个自我注意的多头自我注意丢弃(Multi-head Self-Attention Dropping, MSAD)方法。在这种情况下，如果放弃了self-attention，模型就被迫从其他地方学习有用的关系。因此，不同局部块之间的丰富关系被挖掘出来，从而使FER受益。

结合新的MAD和MSAD模块，提出了最终的体系结构，称为TransFER。如图所示，与VIT-FER基线(列2)相比，TransFER定位更多样化的关系局部表示(列3)，从而区分这些不同的表达式。它在几个FER基准上达到了SOTA性能，显示了它的有效性。

详情请阅读：ICCV2021 | TransFER：使用Transformer学习关系感知的面部表情表征

SOTR

论文：SOTR: Segmenting Objects with Transformers(ICCV2021)

代码：https://github.com/easton-cau/SOTR

提出问题

transformer用于语义分割方面还在一些不足。一方面，transformer在提取低层特征时表现不佳，导致对小目标的错误预测。另一方面，由于特征映射的广泛性，需要大量的内存和时间，特别是在训练阶段。

改进思路

为了克服这些缺点，论文提出了一种创新的自下而上模型SOTR，该模型巧妙地结合了CNN和transformer的优点。

SOTR的重点是研究如何更好地利用transformer提取的语义信息。为了降低传统self-attention机制的存储和计算复杂度，论文提出了双注意力，它采用了传统注意力矩阵的稀疏表示。

1.论文提出了一种创新的CNN-Transformer-hybrid实例分割框架，称为SOTR。它可以有效地对局部连接和远程依赖进行建模，利用输入域中的CNN主干和transformer编码器，使它们具有高度的表现力。更重要的是，SOTR通过直接分割对象实例而不依赖于box检测，大大简化了整个流水线。

2.设计了双注意力，这是一种新的position-sensitive self-attention机制，是为transformer量身定做的。与原来的transformer相比，SOTR这种设计良好的结构在计算量和内存上都有很大的节省，特别是对于像实例分割这样的密集预测的大输入。

3.除了纯粹基于transformer的模型外，提出的SOTR不需要在大数据集上进行预训练，就可以很好地推广归纳偏差。因此，SOTR更容易应用于数据量不足的情况。

4.在MS Coco基准上，SOTR的性能达到了使用ResNet-101-FPN主干的AP的40.2%，在精确度上超过了大多数最SOTA方法。此外，由于twin transformer对全局信息的提取，SOTR在中型物体(59.0%)和大型物体(73.0%)上表现出明显更好的性能。

详情请阅读：ICCV2021 | SOTR:使用transformer分割物体

PnP-DETR

论文：PnP-DETR: Towards Efficient Visual Analysis With Transformers

代码：https://github.com/twangnh/pnp-detr

提出问题

将transformer网络应用于图像特征映射可能在计算上代价高昂，这主要是由于对长展平的特征向量的注意操作。这些特征可能是冗余的：除了感兴趣的对象之外，自然图像通常包含巨大的背景区域，这些背景区域可能在相应的特征表示中占据很大一部分；而且，一些区分特征向量可能已经足以检测对象。

现有的提高transformer效率的工作主要集中在加速注意操作上，很少考虑上面讨论的空间冗余。

改进思路

为了解决上述局限性，论文开发了一个可学习的轮询和池化(Poll and Pool, PnP)采样模块。它的目的是将图像特征图压缩成由精细特征向量和少量粗略特征向量组成的抽象特征集。

从输入特征图中确定性地采样精细特征向量，以捕捉精细前景信息，这对于检测目标是至关重要的。粗略特征向量聚合来自背景位置的信息，所产生的上下文信息有助于更好地识别和定位对象。然后，transformer对细粗特征空间内的信息交互进行建模，并获得最终结果。

由于抽象集比直接扁平化的图像特征图短得多，因此transformer的计算量大大减少，并且主要分布在前景位置。这种方法与提高transformer效率的方法是正交的，可以进一步与它们结合得到更有效的模型。

详情请阅读：ICCV2021 | PnP-DETR：用Transformer进行高效的视觉分析

PiT

论文：Rethinking Spatial Dimensions of Vision Transformers

代码：https://github.com/naver-ai/pit

提出问题

CNN 以大空间尺寸和小通道尺寸的特征开始，并逐渐增加通道尺寸，同时减小空间尺寸。由于称为空间池化的层，这种维度转换是必不可少的。现代 CNN 架构，包括 AlexNet、ResNet和 EfficientNet，都遵循这一设计原则。

池化层与每一层的感受野大小密切相关。一些研究表明，池化层有助于网络的表现力和泛化性能。然而，与 CNN 不同的是，ViT 不使用池化层，而是在所有层中使用相同大小的空间。

改进思路

首先，论文验证了 CNN 上池化层的优势。实验表明，池化层证明了 ResNet 的模型能力和泛化性能。为了将池化层的优势扩展到 ViT，论文提出了一种基于池化的视觉transformers (PiT)。

PiT 是一种与池化层相结合的transformer架构。它可以像在 ResNet 中一样减少 ViT 结构中的空间大小。

最后，为了分析 ViT 中池化层的效果，论文测量了 ViT 的空间交互比，类似于卷积架构的感受野大小。论文展示了池化层具有控制自注意力层中发生的空间交互大小的作用，这类似于卷积架构的感受野控制。

详情请阅读：ICCV2021 | 重新思考视觉transformers的空间维度

Swin Transformer

论文: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

代码：https://github. com/microsoft/Swin-Transformer

提出问题

论文试图扩展Transformer的适用性，使其可以作为计算机视觉的通用主干，就像它在NLP中所做的那样，也可以像CNNs在视觉中所做的那样。

论文提到，将transformer在语言领域的高性能转换到视觉领域的重大挑战可以用这两种模式之间的差异来解释。这些不同之处之一涉及到规模。

与作为语言transformer中处理的基本元素的单词tokens不同，视觉元素在尺度上可以有很大的变化，这是一个在诸如目标检测之类的任务中受到关注的问题。在现有的基于transformer的模型中，tokens都是固定比例的，这一特性不适合这些视觉应用。

另一个不同之处在于，与文本段落中的文字相比，图像中像素的分辨率要高得多。存在许多视觉任务，如语义分割，需要在像素级别进行密集预测，这对于高分辨率图像上的Transformer来说是很困难的，因为它的self-attention的计算复杂度是图像大小的二次方。

改进思路

为了克服这些问题，论文提出了一种通用的Transformer骨干网，称为Swin Transformer，它构造了分层的特征映射，并且计算复杂度与图像大小成线性关系。

如图1(A)所示，Swin Transformer通过从小块(灰色轮廓)开始，逐渐合并更深的Transformer层中的相邻块来构建分层表示。

有了这些分层的特征图，Swin Transformer模型可以方便地利用先进的技术进行密集预测，如特征金字塔网络(FPN)或U-Net。线性计算复杂度是通过在分割图像(红色轮廓)的非重叠窗口内局部计算self-attention来实现的。每个窗口中的patches数量是固定的，因此复杂度与图像大小成线性关系。

这些优点使得Swin Transformer适合作为各种视觉任务的通用主干，而不是以前基于Transformer的架构，后者生成单一分辨率的特征地图，并且具有二次方复杂性。

Swin Transformer的一个关键设计元素是窗口分区在连续的self-attention层之间的移动，如图2所示。移动的窗口桥接了前一层的窗口，提供了它们之间的连接，显著增强了建模能力。

这种策略在实际延迟方面也是有效的：一个窗口内的所有query patch都共享相同的key集，这便于硬件中的内存访问。相反，较早的基于滑动窗口的self-attention方法由于不同query像素的不同key集而在一般硬件上受到低延迟的影响。

实验表明，所提出的移位窗口方法比滑动窗口方法具有更低的延迟，但在建模能力上是相似的。事实证明，移位窗口方法对于全MLP体系结构也是有益的。

详情请阅读：ICCV2021 | Swin Transformer: 使用移位窗口的分层视觉Transformer

对于视频中的transformer，主要改进思路是将patches在空间上和时间上分开进行attention。这里列举一篇。

TimeSformer

论文：Is Space-Time Attention All You Need for Video Understanding?

代码：https://github.com/lucidrains/TimeSformer-pytorch

提出问题

视频理解与NLP有很多的相似的地方。首先，视频和语句都具有序列性；而且，一个字只能与语句中其它字联系才能理解，在视频行为中一个片段也需要与视频的上下文相关联。于是，论文期望NLP中这种long-range self-attention模型可以在视频模型中也有很高的表现。

在视频领域，2D或3D卷积是用来提取时空特征的主流操作，但卷积操作比较明显的一个问题是感受野是有限的，若要获得全局感受野，需要堆叠很多层卷积层，它们的信息传播路径比较长。而self-attention这种操作可以很轻松地获得全局感受野，捕获局部和长范围的依赖关系。

卷积操作的另一个问题是受到内存的限制，特别是视频领域，往往需要在高分辨率和长范围帧之间权衡。而最近几年一些研究者的工作指出Transformer可以比CNN获得更快的训练和推理，因此在同样计算量预算下，transformer可以使用更大学习容量。

标准的self-attention需要计算所有tokens相互之间的相似性，这样的做法就是计算量比较大，因此需要考虑如何利用self-attention来处理图像块。论文比较了这方面的几种处理方式：Joint Space-Time Attention、Sparse Local Global Attention 和Axial Attention。这几种方式的共同点是采用ViT中的方式将图像进行分块，而它们之间的区别在于如何用self attention来处理这些块。论文提出Divided attention的方式具有最好的表现。

改进思路

详情请阅读：CVPR2021| TimeSformer-视频理解的时空注意模型

4.增加Decoder

论文：End-to-End Object Detection with Transformers

代码：https://github.com/facebookresearch/detr

DETR中似乎没有介绍为何这么设计结构，而只是在说要做一个End-to-End的transformer模型。因此这里只介绍一下它的结构。

欢迎关注公众号 CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。

在公众号中回复关键字 “入门指南“可获取计算机视觉入门所有必备资料。

相关文章阅读

论文创新的常见思路总结 | 注意力机制技术总结

数据增强方法总结 | 特征金字塔技术总结

归一化方法总结 | 又名"BN和它的后浪们"

CNN结构演变总结（一）经典模型

CNN结构演变总结（二）轻量化模型

神经网络的初始化方法总结 | 又名“如何选择合适的初始化方法”

小目标检测常用方法总结

神经网络超参数的调参方法总结

PNNX: PyTorch 神经网络交换格式

ICCV2021 | 渐进采样式Vision Transformer

MobileVIT：轻量级视觉Transformer+移动端部署

ICCV2021 | Swin Transformer: 使用移位窗口的分层视觉Transformer

ICCV2021 | 梯度归一化用于GAN

ICCV2021 | SOTR:使用transformer分割物体

ML2021 | PatrickStar：通过基于块的内存管理实现预训练模型的并行训练

ICCV2021 | PnP-DETR：用Transformer进行高效的视觉分析

ICCV2021 | 医学影像等小数据集的非自然图像领域能否用transformer？

ICCV2021 | Vision Transformer中相对位置编码的反思与改进

ICCV2021 | MicroNet：以极低的 FLOPs 改进图像识别

ICCV2021 | 重新思考视觉transformers的空间维度

CVPR2021 | TransCenter: transformer用于多目标跟踪算法

CVPR2021 | 开放世界的目标检测

CVPR2021 | TimeSformer-视频理解的时空注意模型

CVPR2021 | 一个高效的金字塔切分注意力模块PSA

CVPR2021 | SETR: 使用 Transformer 从序列到序列的角度重新思考语义分割

CVPR2021 | Transformer用于End-to-End视频实例分割

经典论文系列 | 重新思考在ImageNet上的预训练

经典论文系列 | Group Normalization & BN的缺陷

经典论文系列 | 目标检测--CornerNet & anchor boxes的缺陷

经典论文系列 | 缩小Anchor-based和Anchor-free检测之间差距的方法：自适应训练样本选择

2021-视频监控中的多目标跟踪综述

统一视角理解目标检测算法：最新进展分析与总结

全面理解目标检测中的anchor | 实例分割综述总结综合整理版
单阶段实例分割综述 | 小目标检测的一些问题，思路和方案

目标检测中回归损失函数总结 | 小目标检测常用方法总结

视觉Transformer综述 | 2021年小目标检测最新研究综述

Siamese network综述 | 姿态估计综述 | 语义分割综述

视频理解综述：动作识别、时序动作定位、视频Embedding

你可能感兴趣的:(计算机视觉中的transformer模型创新思路总结)

Java中的多租户城南|阿洋-计算机从小白到大神 java 开发语言
大家好，我是城南。今天我们来聊聊Java中的多租户（Multi-Tenancy）。这是一个在现代软件开发中非常重要的概念，特别是在需要处理大量客户或用户的应用中。我们将深入探讨多租户的架构、实现方式以及在Java中具体的实现细节。什么是多租户？多租户架构是一种软件架构，其中单个实例的应用程序为多个客户（租户）服务。每个租户的数据和配置是相互隔离的，但它们共享相同的应用程序和硬件资源。这种方式不仅可
4.指派问题匈牙利解法以及其优化 HughSylar 转载 z
指派问题匈牙利解法以及其优化本人第一次写blog，难免有不足之处，还请大家不吝指正。1、问题的提出简单的说，n个人恰好分别承担n个任务，每个人对于不同的任务效率不同；我们的目的就是为使任务完成效率尽可能的高。例如：有4个工人，要分别指派他们完成4项不同的工作，每人做各项工作所消耗的时间如下表所示，问应如何指派工作，才能使总的消耗时间为最少。若用0-1整数规划问题的常规思路来解，即：解：令xij=1
Java应用的多租户架构设计楠贝 java 开发语言
Java应用的多租户架构设计大家好，我是微赚淘客返利系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！多租户架构（Multi-Tenancy）是SaaS（SoftwareasaService）应用中常见的设计模式，它允许多个租户（客户）共享同一个应用实例，同时保证数据隔离和独立性。在Java应用中实现多租户架构，涉及到数据模型设计、访问控制、资源隔离等多个方面。1.数据模型设计在多租户架构
指派问题程序c语言,指派问题lingo程序样例 weixin_39917437 指派问题程序c语言
《指派问题lingo程序样例》由会员分享，可在线阅读，更多相关《指派问题lingo程序样例(1页珍藏版)》请在人人文库网上搜索。1、指派问题的样例：现在要在五个工人中确定四个人来分别完成四项工作中的一项工作。由于每个工人的技术特长不同，他们完成各项工作所需的工时也不同。每个工人完成各项工作所需工时如下表所示，试找出一个工作分配方案，使总工时最小。工作工人ABCDI9438II4653III5375
python中drop用法去重_如何使用drop_duplicates进行简单去重（入门篇） weixin_39991055 python中drop用法去重
什么是去重呢？简单来说，数据去重指的是删除重复数据。在一个数字文件集合中，找出重复的数据并将其删除，只保存唯一的数据单元。在我们的数据预处理过程中，这是一项我们经常需要进行的操作。去重有哪些好处？节省存储空间提升写入性能提高模型精度今天我们就来简单介绍一下，在pandas中如何使用drop_duplicates进行去重。一、函数体及主要参数函数体：df.drop_duplicates(subset
linux进程状态Ds,Linux下ps aux中进程状态为Ss，S+, Rs，Ds是什么意思？ weixin_39816062 linux进程状态Ds
系统维护的时候难免会遇到进程的状态的查询和管理，到底什么是R，有的是S，有的还是S+呢？一直有些混沌的问题，今天细细的来总结一下：PS是用来报告系统中程序执行状况的命令这个是无可厚非的，linux进程的状态：D不可中断睡眠(通常是在IO操作)收到信号不唤醒和不可运行,进程必须等待直到有中断发生R正在运行或可运行(在运行队列排队中)S可中断睡眠(休眠中,受阻,在等待某个条件的形成或接受到信号)T已停
linux 进程状态显示dl,Linux系统中的实时调度器DL调度器的原理是什么？详细概述... 筱潄艾尼 linux 进程状态显示dl
一、概述实时系统是这样的一种计算系统：当事件发生后，它必须在确定的时间范围内做出响应。在实时系统中，产生正确的结果不仅依赖于系统正确的逻辑动作，而且依赖于逻辑动作的时序。换句话说，当系统收到某个请求，会做出相应的动作以响应该请求，想要保证正确地响应该请求，一方面逻辑结果要正确，更重要的是需要在最后期限(deadline)内作出响应。如果系统未能在最后期限内进行响应，那么该系统就会产生错误或者缺陷。
淘宝客APP的数据同步与一致性保障 wx_tangjinjinwx java 开发语言
淘宝客APP的数据同步与一致性保障大家好，我是微赚淘客返利系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天我们来讨论淘宝客APP中的数据同步与一致性保障问题。随着系统复杂度的提升，特别是在分布式架构的情况下，如何确保数据同步和一致性成为了一个重要的技术挑战。本文将深入探讨在淘宝客APP中实现数据同步与一致性保障的关键技术和方法，并提供Java代码示例。一、数据同步的挑战在淘宝客APP
详解类与对象——c++对象模型和this指针 tanactor c++
（^_^）一.成员变量和成员函数分开存储只有非静态成员变量才属于类的对象上classPerson{public:Person(){mA=0;}//非静态成员变量占对象空间intmA;//静态成员变量不占对象空间staticintmB;//函数也不占对象空间，所有函数共享一个函数实例voidfunc(){coutmAage=age;}Person&PersonAddPerson(Personp){t
【IDEA】插件篇沉梦听雨. #开发工具篇 intellij-idea java ide
插件篇美化类中文化IDEAChinese(Simplified)LanguagePack/中文语言包：实现编辑器中文化彩虹括号RainbowBrackets：将括号按照不同的颜色进行显示，方便您在代码中匹配括号。Alt+鼠标右键：除了当前括号内的代码，其余代码都会显灰Ctrl+鼠标右键：会高亮当前括号里面的内容高亮括号HighlightBracketPair：可以对选中的括号进行高亮显示。日志高亮
Fluss 与数据湖的深度解析（二）大圣数据星球大数据 Flink 设计模式
上一篇文章中我们说了Fluss与Paimon数据湖的三个相关问题：如何查询Paimon数据湖中的数据？如何查询Fluss和Paimon数据的“联合视图”？如何只查询Fluss中的数据？大家可以先去看这一篇文章，其中第二点如何查询Fluss和Paimon数据的“联合视图”中还遗留一个问题：在做数据查询的时候Fluss和Paimon数据湖是怎么保证数据一致性的，也就是事务的。还有第三点如何只查询Flu
基于人工智能的Python面试题请一直在路上 python 开发语言
基于人工智能的Python面试题1.Python中的元组与列表区别是什么？列表是可变类型，元组不是。列表是引用类型，元组不是。列表使用场景更宽泛，元组更多用于一些数据不可变的场景，例如参数、或者返回值。2.Python中的字典是否有序？python3.6之前字典是无序的，之后是有序的。原因可以参考下这个帖子https://blog.csdn.net/weixin_48629601/article/
电磁兼容学习笔记12-电子设备中的主要骚扰源胡你一脸团团团学习笔记单片机
跟杨老师学习电磁兼容电子设备中的主要骚扰源#第16课典型的骚扰源（找du/dt、di/dt比较大的电路）：骚扰源1：二次电源（几乎所有的电路都需要DC/DC），传导骚扰骚扰源2：数字电路，传导骚扰和辐射骚扰DC/DC模块骚扰产生原理：du/dt：开关导通时，直流电压直接传送到输出端；开关断开时，电流无法传送到输出端，依靠输出端电容进行供电。开关导通时，输出电压为0；断开时电容放电，开关上电压为输入
SD ComfyUI工作流平面模型房屋3D渲染 Mr数据杨 Stable Diffusion AI绘画 ComfyUI AI绘画
文章目录平面模型房屋3D渲染SD模型Node节点工作流程开发与应用效果展示平面模型房屋3D渲染此工作流是为将平面模型房屋图转换为3D渲染而设计，利用先进的模型和节点处理图像，增加细节和色彩，以及通过超分辨率技术增强最终图像的清晰度。流程从加载图像开始，经过一系列的处理步骤，包括图像缩放、条件编码、模型加载，最终通过高级放大技术提高图像分辨率，以达到高清的视觉效果。SD模型模型名称说明majicMI
Java实战：Spring Boot实现多租户思路拥抱AI java spring boot 开发语言
引言在当今云计算与SaaS服务盛行的时代，多租户架构成为了很多企业级应用的基础设计之一。这种架构允许单一应用程序实例为多个组织（租户）提供服务，同时保持各租户数据和配置的隔离性。SpringBoot作为现代Java开发领域的翘楚框架，其简洁明快的风格与高度灵活性使它成为构建多租户应用的理想选择。本文将带领您走进SpringBoot的世界，详细探讨如何实现多租户架构。一、多租户架构概述多租户模型多租
基于Damo-YOLO和DyHead检测头的YOLOv8优化：多尺度目标检测的创新方案【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLO 目标检测人工智能 YOLOv8
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录基于Damo-YOLO和DyHead检测头的YOLOv8优化：多尺度目标检测的创新方案【YOLOv8
提升YOLOv8性能：用Swin Transformer替换Backbone的详细实现与分析【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLOv8 YOLO 目标跟踪
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录YOLOv8改进|主干篇|SwinTransformer替换Backbone（附代码+详细修改步骤+
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
每日一题45：统计移除递增子数组的数目锂享生活每日一题算法数据结构
一、每日一题给你一个下标从0开始的正整数数组nums。如果nums的一个子数组满足：移除这个子数组后剩余元素严格递增，那么我们称这个子数组为移除递增子数组。比方说，[5,3,4,6,7]中的[3,4]是一个移除递增子数组，因为移除该子数组后，[5,3,4,6,7]变为[5,6,7]，是严格递增的。请你返回nums中移除递增子数组的总数目。注意，剩余元素为空的数组也视为是递增的。子数组指的是一个数组
JAVA 反射(JAVA面试题) geejkse_seff java 开发语言
5.1.2.JAVA反射5.1.2.1.动态语言动态语言，是指程序在运行时可以改变其结构：新的函数可以引进，已有的函数可以被删除等结构上的变化。比如常见的JavaScript就是动态语言，除此之外Ruby,Python等也属于动态语言，而C、C++则不属于动态语言。从反射角度说JAVA属于半动态语言。5.1.2.2.反射机制概念（运行状态中知道类所有的属性和方法）在Java中的反射机制是指在运行状
十.java入门【案例】 JuGeGer java入门 java
day10【练习】减肥计划案例逢七必过案例统计成绩数组求和数组中的元素查找案例数组中的元素反转评委打分案例快捷键:自动分配变量newXxx(...).var或者newXxx(...)alt+回车方法调用(...).var或者方法调用(...)alt+回车生成输出语句表达式.sout方法调用(...).sout第一章基础练习1.1减肥计划if版本需求输入星期数[1,7]，显示今天的减肥活动周一：跑步
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
PHP常用函数总结（180多个） Jim仔 PHP php 函数基础
PHP常用函数总结转载自：http://blog.csdn.net/lzuacm数学函数1.abs():求绝对值$abs=abs(-4.2);//4.211输入:数字输出:绝对值数字2.ceil():进一法取整echoceil(9.999);//1011输出:浮点数进一取整3.floor():去尾法取整echofloor(9.999);//911输出:浮点数直接舍去小数部分4.fmod():浮点数
Node.js 到底是什么 yqcoder Node.js 从入门到精通 node.js
Node.js是一个基于ChromeV8引擎的JavaScript运行环境，它允许开发者使用JavaScript编写服务器端代码。一、主要特点1.事件驱动和非阻塞I/O模型Node.js采用事件驱动架构，通过回调函数处理I/O操作，这使得它在处理大量并发请求时表现出色。当执行I/O操作（如文件读写、网络请求等）时，Node.js不会阻塞程序的执行，而是继续处理其他任务，当I/O操作完成后，通过回调
《揭秘客服 RPA：网购背后的智能助手》 coding侠客 AI+RPA系列 rpa 人工智能
在如今的网购时代，我们的购物体验不仅仅取决于商品的质量和价格，还与购物过程中的服务密切相关。从选品时的疑问解答，到比价过程中的信息咨询，再到退换货时的沟通协调，一个高效的客服系统至关重要。而客服RPA正是为了满足这一需求而诞生的。今天，我们聊聊AI如何赋能RPA，打造更智能的客户助手，解放人力。首先客服RPA需要登录某宝、某东或者某多的信息后台系统。关于自动登录RPA的实现可参考揭秘AI+RPA：
Prometheus Alertmanager设置与告警规则配置详解范范0825 prometheus
PrometheusAlertmanager设置与告警规则配置详解Prometheus是一个开源的监控和告警系统，其设计理念是通过时间序列数据库存储指标数据，并通过多维数据模型和查询语言进行数据分析。Prometheus的告警系统由两部分组成：Prometheus服务器本身和Alertmanager。Alertmanager负责接收来自Prometheus的告警，执行通知的分发、抑制和聚合。本文将
【JVM-9】Java性能调优利器：jmap工具使用指南与应用案例 AllenBright #JVM jvm java 开发语言
在Java应用程序的性能调优和故障排查中，jmap（JavaMemoryMap）是一个不可或缺的工具。它可以帮助开发者分析Java堆内存的使用情况，生成堆转储文件（HeapDump），并查看内存中的对象分布。无论是内存泄漏、堆内存溢出，还是对象分布不均的问题，jmap都能提供关键的数据支持。本文将详细介绍jmap的使用方法，并结合实际案例展示其应用场景。1.什么是jmap？jmap是JDK自带的一
运行python程序的两种方式交互式和文件式_执行Python程序的两种方式 weixin_39610085
交互式(了解)交互式环境下，敲完一条命令按下enter键马上能看到结果，调试程序方便。程序无法永久保存，关掉cmd窗口数据就消失了。命令行式(了解)打开文本编辑器，在文本编辑器中写入一串字符。文本编辑器写的代码毫无意义，只是一堆字符，并且文件的后缀名没有影响。由于python语言是解释型语言，我们直接使用python打开文件，python会读一行翻译一行，并且这个文件是永久保存在硬盘中的。但是需要
基于Spring Boot和Vue的人脸识别项目（源码） AI人H哥会Java JAVA大作业项目实战 spring boot vue.js java 人工智能计算机视觉后端 sql
背景随着人工智能技术的迅猛发展，生物识别技术的迅猛发展，人脸识别已经成为最具潜力的人工智能应用之一。它不仅在安全监控、金融支付、智能家居等多个领域得到了广泛应用，也逐渐进入日常生活场景。人脸识别作为一种生物特征识别技术，能够通过分析人脸图像中的特征点，实现对个体的身份识别。利用计算机视觉技术，系统能够快速从大量图片中定位并识别特定人脸，实现身份验证和信息检索。这一技术的应用，不仅提高了安全性，还提
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户