jjw_zyfx

CoAtNet: Marrying Convolution and Attention for All Data Sizes翻译

点击下载论文

实现代码

摘要

人们对Transformers应用在在视觉领域越来越感兴趣，但是他们仍然落后于现在的最好的卷积神经网络。在本篇论文中，我们显示了尽管 Transformers试图有更大的模型性能，但是由于缺乏正确的归纳偏置，Transformers的泛化能力比卷积神经网络要差。为了有效的结合两个架构的强项，我们呈现了 CoAtNets模型(读作‘coat’ nets)，根据两个关键构思而构建的混合模型家族: (1) 通过简单的思考，很自然的将深度卷积和自注意力统一起来。 (2) 按照某种方式垂直堆叠卷积层和注意力层在提高泛化能力、性能、高效上表现的出奇的有效。实验证明我们的 CoAtNets在不同数据集的不同资源约束下达到了目前最好的性能：没用额外的数据， CoAtNet在 ImageNet上的top-1精度达到了86.0%；当在具有1300万个图片的 ImageNet-21K上预训练时，我们的 CoAtNet达到了 88.56% top-1精度，达到了ViT-huge在具有3亿张图片的 JFT-300M上的预训练结果，尽管我们是在比 $\frac{1}{23}$ 还低的数据集上( $\frac{300M}{13M}=23.0769230769$ )。显然，当我们进一步的在CoAtNet使用更大规模的JFT-3B数据集时，它在 ImageNet上达到了90.88%的top-1精度，取得了一个新的目前最好的结果。

1、引言

    自从AlexNet取得了重大突破，卷积神经网络在计算机视觉上一直是主要的模型架构。同时，在自注意力模型像 Transformers在自然语言处理中的成功运用的推动下，很多以前的工作尝试将强有力的注意力引入计算机视觉中。最近，Vision Transformer (ViT)已经证明只需用很普通的 Transformer层就能在 ImageNet-1K上获得不错的性能。更重要的是，当在大规模弱标记的JFT-300M数据集上预训练时，ViT达到了可以和目前最好的卷积神经网络相媲美的结果，这表明Transformer模型比 ConvNets在大规模数据集上具有更高的潜在的性能。
    尽管ViT在足够多的JFT 300M训练图片上表现出了令人印象深刻的结果，在小样本数据集上，它的性能仍然落后于ConvNets。例如，不使用额外的 JFT-300M数据集预训练， ViT在相同的模型大小下在 ImageNet上的精度仍然显著低于 ConvNets(卷积神经网络)(看表13)。随后的工作用特殊的正则化和更强的数据增强去改进普通的 ViT，然而至今这些 ViT的变种在 ImageNet分类上用相同数量的数据和计算量没有一个能胜过目前最好的只基于卷积神经网络的模型。这表明普通的Transformer层可能缺乏ConvNets拥有的某些理想的归纳偏置，因此需要大量数据和计算资源来补偿。并不惊讶，最近很多工作尝试将ConvNets的归纳偏置融合到 Transformer模型中，通过在注意力层使用局部感受野或者通过隐式或者显式卷积操作增强注意力和FFN(前馈神经网络)层。然而，当组合的时候，这些方法要么点对点要么聚焦于投射到一个特殊的属性上，缺乏对卷积和注意力各自角色的系统理解。
    在本篇论文中，我们从机器学习当中的泛化性能和模型性能这两个基本角度系统的研究卷积和注意力混合的问题。我们的研究表明，卷积层倾向于拥有更好的泛化能力，更快的收敛速度这得益于他们强大的归纳偏置能力。然而注意力层拥有更高的模型性能这得益于更大的数据集。将卷积和注意力结合在一起能获得更好的泛化能力和性能。然而，在这里有一个关键的挑战是如何将他们有效的组合起来以在精度和有效性上达到更好的权衡。在本篇论文中，我们研究了两个关键的想法：第一，我们观察到用简单的相对注意力能有效的将公用的深度卷积融合到注意力层中；第二，用恰当的方式，简单的堆叠卷积和注意力层能取得令人惊讶的效果以达到更好的泛化能力和性能。基于这些观察，我们提出了一个简单的至今有效的网络架构并命名为 CoAtNet，它汲取了 ConvNets 和 Transformers的强项。
    我们的CoAtNet在可比的资源有限的不同的数据大小下，达到了目前最好的性能。特别的，在小数据样本上， CoAtNet内在的很好的泛化属性得益于讨人喜欢的归纳偏置。而且，如果提供大量数据，CoAtNet不仅具有 Transformer模型的优异可扩展性，而且实现了更快的收敛，从而提高了效率。当只用 ImageNet-1K进行训练时，CoAtNet达到了 86.0%的top-1精度，在相同的计算资源和训练条件下与现有技术NFNet模型相匹敌。进一步的当我们在ImageNet-21K上用1000万张图片进行预训练，在 ImageNet-1K上微调，CoAtNet达到了88.56%的 top-1精度，与ViT-Huge在JFT-300M(是当前数据集的23倍)上的预训练结果相匹敌。最后，当使用JFT-300M进行预训练， CoAtNet展示出了比ViT更高效，把 ImageNet-1K上的top-1精度推到了90.88%，然而使用的计算量比现有的ViT-G/14却少1.5倍。

2、模型

在这部分，我们聚焦在如何将卷积和transformer最佳的结合在一起。简单的说，我们将问题分为两部分：
1、在一个基本的计算块上怎样将卷积和注意力结合在一起？
2、怎样将不同类型的计算块垂直堆叠在一起来形成完整的网络？
随着我们逐渐揭示我们的设计选择，分解的基本原理将变得更加清晰。

2.1、合并卷积和自注意力

    对于卷积，我们主要关注在MBConv块，它使用深度卷积来捕获空间交互作用。这样选择的一个关键原因是在 Transformer 和 MBConv中的FFN模块都采用“倒瓶颈”设计，这种设计首先将输入通道扩大4倍，然后在原始通道后边投射四倍宽的隐藏状态并使用残差连接。
    除了相似的倒瓶颈设计，我们还注意到，深度卷积和自我注意都可以表示为预定义感受野中每维值的加权和。特别的，卷积依赖一个固定的核从一个局部感受野中收集信息 $y_i = \sum_{y\in\mathcal L(i)}w_{i-j}\odot x_j\quad(深度卷积)\quad\quad\quad\quad(1)$ 其中 $x_i, y_i\in \Bbb R^D$ 分别是在位置的输入和输出， $\mathcal L(i)$ 表示i的邻域，例如：图像处理中以i为中心的3x3网格。
    相比之下，自注意力允许感受野是整个空间并且计算权重是基于在 $x_i , x_j )$ 对中的重新归一化后的成对的相似性。 $y_i = \sum_{j\in\mathcal G}\frac{exp(x_i^Tx_j)}{\underbrace{\sum_{k\in\mathcal G}exp(x_i^Tx_k)}_{A_{i,j}}}x_j\quad(自注意力)\quad\quad(2)$ 其中 $\mathcal G$ 表示全局空间.在讨论如何最好地组合它们之前，比较一下他们的相对优势和弱势是值得的，这帮助我们指出我们需要保留的好的属性。

首先，深度卷积核 $w_{i-j}$ 是一个独立输入的静态参数值而注意力权重 $A_{i,j}$ 动态依赖输入表征。因此，自注意力非常方便的捕获在不同空间位置之间的复杂的相互作用的关系，当处理高级概念时这是我们最渴望的一个属性。然而，这种灵活性带来了一个很容易过拟合的风险，尤其是当数据是有限的时候。
第二，我们注意到给定任何位置对(i, j)，相应的卷积权重 $w_{i-j}$ 只关注他们之间的相对位置偏移即 i - j 而不是具体的 i 或者 j，这个属性叫做平移不变性。这已经被发现在有限的数据集上能够提高泛化能力。由于使用绝对位置嵌入标准的Transformer (ViT)缺乏这个属性，这部分解释了为什么ConvNets在数据集不是非常大的时候通常比Transformers好。
最后，感受野的大小是自注意力和卷积之间的一个至关重要的不同。通常来说，一个大的感受野提供更多上下文信息，这能导致更高的模型性能。因此，在视觉的自注意力中使用全局感受野已经是一个关键的动力。然而，一个大的感受野要求非常大的计算量。对于全局注意力这种情况，复杂度和空间大小呈平方关系，这让我们在使用自注意力的时候要有个基本的权衡。

Table 1: 在卷积或者自注意力中发现的有价值的属性

根据上边的比较，一个理想的模型应该能结合在表一中的三种属性。与方程式1中的深度卷积和方程式2中的自注意力的形式相同，一个直接的想法能做到这一点就是要么在Softmax归一化之前或者之后让一个全局静态卷积核和自适应注意力矩阵相加例如： $y_i^{post} = \sum_{j\in\mathcal G}\left(\frac{exp(x_I^Tx_j)}{\sum_{k\in\mathcal G}exp(x_i^Tx_k)}+w_{i-j} \right)x_j \quad \mathrm{or} \quad y_i^{pre} = \sum_{j\in\mathcal G}\frac{exp(x_i^Tx_j+w_{i-j})}{\sum_{j\in\mathcal G}exp(x_i^Tx_k+w_{i-k})}x_j\quad(3)$ 有意思的是，尽管这个想法看起来过于简单，预归一化版本相当于相对自注意力的一个特殊变体。在这种情况下，注意力权重 $A_{i,j}$ 是由平移不变性的 $w_{i-j}$ 和输入自适应 $x_i^Tx_j$ 共同决定的，这能根据他们的相对重要性大小来决定他们的效果。重要的是，为了在不增加参数量的情况下使用全局卷积核，我们需要重新加载 $w_{i-j}$ 做为一个标量而不是方程式1中的向量。公式中标量w的另一个优势是为所有的(i, j)检索 $w_{i-j}$ 是清楚的包括通过计算成对点积注意力，因此导致少量的额外开销。考虑到这些好处，我们将会使用方程式三中的带有与归一化的相对注意力变种的 Transformer 块作为我们所提的 CoAtNet模型的一个关键部分。

2.2、垂直布局设置

    将卷积和注意力结合在一起的思路构思好后，我们接下来考虑怎样将他们堆叠在一整个网络中。
    正如我们在上边讨论的那样，全局上下文的复杂度和空间大小呈平方关系。因此，如果我们直接应用方程式3中的相对注意力到未加工过的图片输入上，由于任何常见尺寸的图片的像素都很大，所以计算速度会非常慢。因此，为了构造一个在实际中可行的网络，我们有三个主要选项：
（A）执行一些下采样来减小空间大小，在特征映射之后使用全局相对注意力来达到可处理水平。
（B）加强局部注意力，这将全局感受野 $\mathcal G$ 限制到局部感受野 $\mathcal L$ 中就像在卷积中的操作一样。
   (C) 用某个线性注意力变体取代平方级的Softmax注意力，线性注意力拥有的复杂度和空间大小呈线性关系。
    我们在选项C上做了个简单的实验，并没有得到一个不错的结果。对于选项B我们发现实现局部注意力涉及很多非平凡形状操作这需要密集的内存访问。在我们选择的加速器上 (TPU)，这样的操作导致非常的慢，这不仅违背了加速全局注意力的目的，而且破坏了模型性能。因此，一些最近的工作已经研究了这个变体，我们将会聚焦在选项A上，在我们的实验中比较了我们的结果和他们的结果(在第四部分)。
    对于选项A，下采样可以通过一个大步长的卷积(比如16x16)或者用一个分步池化的多阶段网络就像在卷积神经网络中的那样来实现。带着这些选项，我们推导了5个变体的搜索空间，并在对照实验中对它们进行了比较。

当使用ViT的主干时，我们直接堆叠L个具有相对注意力的Transformer块，我们将其命名为 $\mathrm{VIT_{REL}}$
当使用多阶段布局时，我们模仿卷积神经网络去构造五个阶段的网络 (S0, S1, S2, S3 和 S4)，他们的空间分辨率从S0逐渐降到S4。在每个阶段的开始，我们总是将空间大小减少2倍并增加通道数量(对于下采样的实现细节看附录A.1)。

第一阶段S0是一个简单的两层卷积， S1应用带有 squeeze-excitation (SE)的MBConv块,因为对于全局注意力来说空间大小是太大了。从S2到S4我们考虑要么采用 MBConv要么采用Transformer块并且卷积必须在Transformer之前。做这种限制是基于以前的经验：卷积在处理局部图案时表现较好，而且在早期是一种通用做法。这导致了随着Transformer的增加出现了四个变体:C-C-C-C, C-C-C-T, C-C-T-T和C-T-T-T,其中C和T分别表示卷积和 Transformer的第一个大写字母。
为了系统研究设计选择，我们考虑两个基础因素泛化能力和模型性能：对于泛化能力，我们对训练损失和评估精度之间的差距感兴趣。如果两个模型有相同的训练损失，则具有较高评估精度的模型则拥有更好的泛化能力，因为它将在从未使用过的数据集上泛化的更好。当训练数据集是有限时，泛化能力对数据的有效性是尤为重要的。对于模型性能，我们在大的训练数据集上评估其性能。当训练数据是足够的时，过拟合就不是问题了，具有更高性能的模型在之后的推理中就会达到更好的最终性能。注意：因为简单的增加模型大小能造成更高的模型性能，为了进行一个有意义的竞争，我们确保五个变体的模型的大小是可比较的。

Figure 1: 在不同大小的数据集下对比模型的泛化能力和性能。为了公平，所有模型有相同的参数大小和计算开销。

为了比较泛化能力和模型性能，我们在ImageNet-1K (1.3M) 和 JFT数据集上分别对不同的混合模型变体进行300轮和3轮的训练，两个都没有做任何正则化或者数据增强操作。在两个数据集上的训练损失和评估精度看图1。

从 ImageNet-1K的结果来看，观察到一个重要信息，就泛化能力(即：训练和评估指标之间的差距)而言我们有 $\mathrm{C-C-C-C\approx C-C-C-T\ge C-C-T-T>C-T-T-T\gg VIT_{REL}}.$ 特别的 $\mathrm{VIT_{REL}}$ 和变体模型之间有显著的差距，我们猜测这和加速下采样时缺乏恰当的低级信息处理有关。在多个阶段的变体中，总的趋势是模型的卷积阶段越多，泛化差距越小。
对于模型性能，从在JFT上的对比来看，在训练的结尾，两个训练和评估指标说明了如下关系： $\mathrm{C-C-T-T\approx C-T-T-T>VIT_{REL}>C-C-C-T>C-C-C-C}.$ 重要的是，这表明，简单的使用更多的Transformer块对视觉处理来说并不意味着更高的性能。一方面，尽管最初很差， $\mathrm{VIT_{REL}}$ 用更多的MBConv最终追上了两个变体，这表明了Transformer块的性能优势。另一方面， C-C-T-T和 C-T-T-T很显然的胜过了 $\mathrm{VIT_{REL}}$ 表明，使用一个大的步长的ViT可能丢失太多信息，因此限制了模型性能。更有意思的是， C-C-T-T ≈ C-T-T-T的事实表明对于处理低级信息，静态的局部操作像卷积可能和自适应的全局注意力机制的性能一样，同时大幅节省计算和内存的使用。

Table 2: 迁移性能结果

最后，为了在 C-C-T-T 和 C-T-T-T中做决定，我们安排了另一个迁移测试—我们在ImageNet-1K上微调两个JFT预训练模型30轮，对比他们的迁移性能。从表2上看，它显示出 C-C-T-T比 C-T-T-T有更好的迁移精度，尽管预训练性能相同。
考虑到泛化能力，模型性能，迁移能力，和高效性，我们为CoAtNet采用了C-C-T-T多阶段布局。更多的细节看附录 A.1。

3、相关工作

卷积网络构建块 卷积网络 (ConvNets)是许多计算机视觉任务的主要神经架构。传统的，常规卷积像ResNet在大规模卷积网络中是很受欢迎的。相比之下，在移动平台下深度卷积是受欢迎的，因为它更低的计算代价和更小的参数量。最近的工作表明，一个改进的倒置残差瓶颈 (MBConv)是建立在深度卷积的基础之上的，即能达到高精度，又能达到高效率。正如在第二部分讨论的那样，由于MBConv 和 Transformer块之间有很强的联系，本篇论文主要使用MBConv作为卷积构建块。
自注意力和Transformers 在关键元素自注意力的作用下，Transformers被广泛应用到自然语言处理，和语音辨识。作为早期工作，独立的自注意力网络表明单独的自注意力网络在不同的视觉任务上可以做的很好，尽管有一些实际的困难。最近， ViT应用一个普通的 Transformer到 ImageNet分类任务上，在大规模 JFT数据集上预训练后达到了一个令人印象深刻的结果。然而，当训练数据集有限时ViT仍然大幅落后于目前最好的卷积神经网络。基于此，很多最近的工作聚焦于提高vision Transformers的数据高效性和模型高效性。为了对vision Transformers有一个更广泛的回顾，我们建议读者参考专门的调查 [36, 37]。
相对注意力 在相对注意力的统称下，有很多个变种[30, 38, 39, 34, 40, 31]。一般而言，我们能将其分为两个类别：(a) 输入依赖版本它的额外相对注意力得分是一个输入状态函数 $f(x_i , x_j , i-j)$ 。 (b) 输入依赖版本是 $f (i - j)$ 。 CoAtNet的变体属于输入依赖版本和 T5中的一个类似，但是与T5不同的是，我们既没有在跨层之间共享相对注意力参数也没有使用桶机制。输入独立的一个好处是在所有的 $(i, j)$ 对中获取 $f (i - j)$ 比在TPU上的输入依赖版本的计算代价更低。除此之外，在推理时，这只需要去计算一次并缓存下未来要用到的。一个最近的工作也统一一个输入依赖的参数，但是它将感受野限制在了局部窗口中。
将卷积和自注意力相结合 将卷积和自注意力相结合的想法对视觉识别任务来说并不新鲜。一个通用的做法去增强卷积神经网络的骨架是：用明确的自注意力或者非局部模块或者用标准的自注意力取代某些卷积层或者灵活的将注意力和卷积线性混合。尽管自注意力通常用来提高精度，但是它们经常会产生额外的计算代价，因此，经常被视作 ConvNets的附加组件，类似于 squeeze-and-excitation模块。相比之下，在 ViT 和 ResNet-ViT的成功运用之后，另一个流行的研究方向是Transformer骨干网络即尝试在Transformer骨干网络中加入明确的卷积或者一些卷积的有价值的属性。
尽管我们的工作也属于这个类别，但我们的相对注意力实例化是一个深度卷积和基于内容注意力的自然混合，具有较小的附加代价。更重要的是，从泛化能力和模型性能的角度出发，我们采用系统的方法进行垂直布局设计，并说明不同的网络阶段如何以及为什么使用不同类型的层。因此，与那些简单的使用现成的卷积网络比如 ResNet-ViT作为主干层相比当整体大小增加时CoAtNet也会有大规模的卷积阶段。在另一方面，与使用局部注意力的模型相比CoAtNet在 S3 和 S4阶段一直使用全注意力，来确保模型的性能，因为S3占据了大部分计算和参数。

4、实验

在这个部分，我们在可比较的设置下对比了CoAtNet和以前的模型的结果。为了完整性，所有的超参数在这里并没有提到，但在附录A.2中可以查看。

4.1、实验设置

Table 3: L表示模块的数量，D表示隐藏维度 (或者叫通道数量)，对于所有的Conv 和 MBConv块，我们都用核大小为3的核。对于所有的Transformer块，我们按照[22]设置每个注意力头大小为32。倒瓶颈的膨胀率为4，SE的膨胀（收缩）率为0.25。

CoAtNet模型家族 为了和已存在的不同大小的模型进行比较，我们也设计了一个模型家族，表三中是对这个家族的概述。总的来说，从S1 to S4每过一个阶段通道数量翻倍，同时确保主干S0的宽度比S1的更小或者相等。同样，为了简化，随着网络深度的增加，我们只在S2和S3缩放块的数量。
评估协议我们的实验聚焦在图片分类，为了在不同数据集大小上评估模型的性能，我们利用了三个越来越大的数据集，即ImageNet-1K (128万个图片), ImageNet-21K (1270万个图片) and JFT (3亿个图片)。按照以前的工作，我们首先在三个数据集上使用224的像素分别预训练 300, 90和14轮，然后，我们在ImageNet-1K上以期望的分辨率对预训练模型进行了30轮的微调，获得相应的评估精度。一个例外是ImageNet-1K在分辨率为224时可以直接获取预训练结果。注意，与使用Transformer块的其他模型类似，在不进行微调的情况下，以更高的分辨率直接在ImageNet-1K上评估预训练模型通常会导致性能下降。因此，不管输入分辨率如何变化，总是要使用微调的。
数据增强和正则化在本篇论文中，我们只考虑了两个广泛使用的数据增强方法，即随机数据增强和混合数据增强，和三个通用技术包括：随机深度，标签光滑，权重衰退，来正则化模型，直观上来说，明确的数据增强和正则化方法的超参数依赖于模型的大小和数据规模，其中强正则化通常应用在较大的模型和较小的数据集。
常规情况下，当前范式下的一个复杂问题是如何随着数据大小的变化调整预训练和微调的正则化。特别的，我们有一个有意思的观察，在预训练期间如果某一类型的增强是完全的被禁用，在微调过程中简单地打开它很可能会损害性能，而不是提高性能。我们推测这可能与数据分布转移有关。最终，在所提模型的某些运行时，我们故意在俩个较大的ImageNet21-K 和 JFT数据集上使用一个小幅度的随机增强和随机深度增强进行预训练。尽管这样的正则化可能会损害预训练指标，但这允许在微调期间使用更多的正则化和数据增强，进而提高了下游性能。

4.2、主要结果

Table 4:在 ImageNet. 1K上的模型性能，注意训练也只在 ImageNet-1K上；21K+1K意思是训练在 ImageNet-21K，在 ImageNet-1K上微调； PT-RA意思是在21K上预训练时用随机增强，E150意思是在21K上预训练150轮，这比标准的90轮要长。更多结果看看附录A.3。

Figure 2:只设置成224x224在 ImageNet-1K上的精度-浮点量比例曲线。

ImageNet-1K 表四中展示的是只在 ImageNet-1K数据集上的实验结果。在相同条件下，我们所提的CoAtNet模型不仅胜过了ViT的变种，而且能匹敌最好的只基于卷积架构，例如EfficientNet-V2 和 NFNets。除此之外，我们在表2上也将在224x224分辨率下的所有结果可视化了。正如我们所看到的那样，带有注意力模块的CoAtNet比以前的模型好得多。

Figure 3: 在ImageNet-21K上预训练然后迁移到ImageNet-1K上微调的精度-参数量的比例曲线。
ImageNet-21K 正如我们从表4和图三中看的那样，当在ImageNet-21K上进行预训练时。 CoAtNet的优势变得十分明显，基本上胜过了以前的所有的模型。值得注意的是，最好的CoAtNet的变体达到了88.56%的 top-1精度。与ViT-H/14的 88.55%相匹敌，这要求比 CoAtNet大2.3倍的ViT-H/14在比ImageNet-21K大23倍的若标签数据集JFT上预训练比在ImageNet-21K上的2.2倍还多的轮次。这标志着一个戏剧性的提升在数据高效性和计算高效性上。
Table 5: 大规模JFT数据集上的性能对比，TPUv3-core-days表示预训练时间，Top-1 Accuracy表示在 ImageNets上的微调精度。注意:最后三行在一个更大的数据集JFT-3B上进行预训练，其他的是在 JFT-300M上。CoAtNet-5/6/7的大小细节看附录A.2。在MBConv块中的下采样是通过步长为2的深度卷积完成的。ViT-G/14的计算消耗请看 [26]这篇论文的图一。

JFT 最后，在表5中，在大规模数据集JFT-300M 和 JFT-3B上进一步评估了CoAtNet。令人鼓舞人心的是，我们的CoAtNet-4通过设置 NFNet-F4+在JFT-300M上能匹敌以前最好的性能而且效率就在TPU上的训练时间和参数量而言是其两倍。当我们放大模型到相同的训练资源上如NFNet-F4+, CoAtNet-5达到了89.77%的 top-1精度，在可比较的设置上胜过了以前的结果。
而且，随着我们进一步将训练资源放到 ViT-G/14使用的水平，使用一个更大的 JFT-3B数据集，超过四倍小的计算量， CoAtNet-6是能与ViT-G/14的90.45%相匹配的，具有1.5倍少的计算量，CoAtNet-7达到了89.77% top-1精度为 90.88%，达到了新的目前最好的性能。

4.3、消融研究

在这部分，我们将对我们设计的CoAtNet做消融实验。

                                                                    Table 6: 相对注意力上的消融实验

    首先，我们通过将卷积和注意力整合到一个计算单元中来研究相对注意力的重要性。特别的，我们对比两个模型，一个具有相对注意力，另一个没有，两个都在单独在ImageNet-1K和 ImageNet-21K上做迁移设置。正如我们从表六上看到的那样，当只是用ImageNet-1K时，相对注意力很明显胜过了标准注意力，具有更好的泛化能力。除此之外，在 ImageNet-21K迁移设置中，相对注意力变体达到了一个更好的迁移精度，尽管他们的预训练性能接近。这表明相对注意力在视觉处理中的主要优势是不仅具有更高的性能，而且具有更好的泛化能力。
                                                                    Table 7: 在架构布局上的消融实验

    第二，因为带有MBConv块的 S2和具有相对Transformer块的 S3占了CoAtNet的主要计算。一个问题是如何切分在S2 (MBConv)和and S3 (Transformer)的计算量来达到一个好的计算性能。在实践中，它由在每个阶段中块的个数决定，我们称之为“布局”设计。对于这个问题，我们对比了一些不同的布局。实验结果在表七。

如果我们保持在S2和S3中的块的总个数固定，我们观察到V0是V1和V2之间的最佳点。总的说来，S3中有更多的 Transformer块通常会导致更好的性能，直到S2中MBConv块的数量太少而不能泛化的很好。
进一步评估迁移设置中是否也存在最佳点，通常认为更高的性能更重要，我们进一步比较了从ImageNet-21K迁移到ImageNet-1K设置下的V0和V1。有意思的是，尽管V1 和 V0在 ImageNet-21K预训练期间有相同的性能，但是V1的迁移准确率却明显低于V0。这表明在达到更好的迁移和泛化能力上卷积的重要性。

Table 7: 在注意力头大小和归一化类型上的消融实验

最后，我们研究了两个所选的模型的细节，即在 MBConv块中的每个注意力头的维度和归一化类型。从表8中我们可以看出随着注意力头的数量从32增加到64稍微的有损性能，尽管它实际上大大提高了TPU的速度。实际上，这将是一种质量-速度权衡。另一方面，批量归一化和层归一化几乎拥有相同的性能，而TPU上的BatchNorm速度要快10-20%，这取决于每个核心的批量大小。

5、结论

在本篇论文中，我们系统的研究了卷积和Transformers的属性，这就产生了一个准则，将它们组合成一个名为CoAtNet的新模型家族。拓展实验表明CoAtNet拥有像ConvNets这样好的泛化能力和像Transformers这样的有监督模型性能，在不同的数据大小和计算成本下达到了目前最好的性能。
注意，本文目前主要关注于模型开发的ImageNet分类。然而，我们相信我们的方法适用于更广泛的应用，如目标检测和语义分割。我们将把它们留给以后的工作。

开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
网络爬虫再深入——对抗指纹检测、分布式架构与智能解析实战 rooney2024 爬虫
目录一、深入反爬：浏览器指纹检测与对抗（配图1）1.高级指纹检测原理2.对抗方案与实战二、分布式爬虫架构深度设计（配图2）1.容错与弹性设计2.智能限流算法三、智能解析：LLM与计算机视觉的融合（配图3）1.LLM解析非结构化文本2.视觉辅助定位元素四、法律与伦理：爬虫工程师的自我修养1.关键法律边界2.道德实践框架五、未来战场：Web3.0时代的爬虫技术演进1.去中心化网络挑战2.AI驱动的自适
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解以山河作礼。 #机器学习算法机器学习算法回归
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解一·摘要二·个人简介三·前言四·原理讲解五·算法流程六·代码实现6.1坐标下降法6.2最小角回归法七·第三方库实现7.1scikit-learn实现（坐标下降法）：7.2scikit-learn实现（最小角回归法）：一·摘要拉索回归（LassoRegression）是一种线性回归的正则化形式，它通过引入L1范数惩罚项来实现模型的稀疏性，从
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
计算机视觉：人工智能的“眼睛” 人工智能教程人工智能计算机视觉机器学习算法 pytorch python 数据结构
前言在人工智能的众多领域中，计算机视觉（ComputerVision）无疑是其中最为引人注目的方向之一。它赋予了机器“看”的能力，使计算机能够像人类一样理解和解释视觉信息。从自动驾驶汽车到医疗影像诊断，从安防监控到虚拟现实，计算机视觉的应用场景无处不在，深刻地改变着我们的生活和工作方式。本文将深入探讨计算机视觉的核心技术、应用场景以及未来的发展趋势，帮助您全面了解这一充满活力的领域。一、计算机视觉
2023-11-15 自然科学学术论文=记叙文+说明文+议论文写作不停的追梦人
一篇自然科学的实验性的原创论文，包含了前言、材料方法、结果、讨论结论，这四块主要内容。而前言部分，就是记叙文，介绍所有研究问题的由来；而材料方法和结果部分，就是说明文部分，介绍材料方法具体过程和结果部分，主要描述结果的情况详细具体情况；而讨论结论，就是议论文部分，以实验结果为论据，来证明你的分论点，而结论就是你的一篇文章总论点。
计算机视觉：打开机器之眼看世界 LeafyJee_ 人工智能人工智能深度学习计算机视觉
计算机视觉是人工智能领域中备受关注的一部分，它的目标是赋予计算机类似于人类眼睛的功能，让机器能够感知和理解周围的世界。通过图像和视频数据，计算机视觉技术将信息转化为可理解和可操作的数据，为各种应用领域提供了强大的支持。一、计算机视觉的起源和发展计算机视觉起源于20世纪50年代，当时科学家们开始研究如何让计算机能够识别和理解图像。随着技术的不断进步，计算机视觉逐渐发展成为一门独立的学科，并广泛应用于
如何使用 OpenCV 打开指定摄像头
在计算机视觉应用中，经常需要从特定的摄像头设备获取视频流。例如，在多摄像头环境中，当使用OpenCV的cv::VideoCapture类打开摄像头时，如果不指定摄像头的ID，可能会随机打开系统中的某个摄像头，或者按照设备连接的顺序打开第一个可用的摄像头。比如： //打开两个摄像头 cv::VideoCapture cap0(0); if (!cap0.isOpened()){ c
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

CoAtNet: Marrying Convolution and Attention for All Data Sizes翻译

点击下载论文

实现代码

实现代码

摘要

1、引言

2、模型

2.1、合并卷积和自注意力

2.2、垂直布局设置

3、相关工作

4、实验

4.1、实验设置

4.2、主要结果

4.3、消融研究

5、结论

你可能感兴趣的:(学术论文,计算机视觉,深度学习,机器学习)