CV小Rookie

Focal Self-attention for Local-Global Interactions in Vision Transformers ( DeiT )

Abstract

1. Introduction

2. MEthod

2.1 Model architecture

2.2 Focal self-attention

2.2.1 Window-wise attention

2.2.2 Complexity analysis

2.3 Model conﬁguration

3. Related work

4. Experiments

4.1 Image classiﬁcation on ImageNet-1K

4.2 Object detection and instance segmentation

Abstract

最近，Vision Transformer 及其变体在各种计算机视觉任务中表现出了巨大的潜力。通过自注意力捕捉短程和长程视觉依赖的能力是成功的关键。但由于二次方计算开销，它也带来了挑战，特别是对于高分辨率视觉任务（例如，对象检测）。最近的许多工作都试图通过应用粗粒度的全局注意力或细粒度的局部注意力来降低计算和内存成本并提高性能。然而，这两种方法都削弱了多层 Transformer 原始自注意力机制的建模能力，从而导致次优解决方案。在本文中，我们提出了 focal self-attention，这是一种结合了细粒度局部交互和粗粒度全局交互的新机制。在这种新机制中，每个标记以细粒度参与其最近的周围标记，以粗粒度参与远离它的标记，因此可以有效地捕获短程和长程视觉依赖性。借助焦点自注意力，我们提出了一种新的 Vision Transformer 模型变体，称为 Focal Transformer，它在一系列公共图像分类和对象检测基准上实现了优于最先进 (SoTA) 视觉 Transformer 的性能。特别是，我们的 Focal Transformer 模型具有 51.1M 的中等尺寸和 89.8M 的较大尺寸，分别在 224 × 224 的 ImageNet 分类上达到 83.5% 和 83.8% 的 Top-1 准确率。当用作主干时，Focal Transformers在 6 种不同的物体检测方法中，对当前的 SoTA Swin Transformers [44] 进行了一致且实质性的改进。我们最大的 Focal Transformer 在 COCO mini-val/test-dev 上产生 58.7/58.9 box mAPs 和 50.9/51.3 mask mAPs，在 ADE20K 上产生 55.4 mIoU 用于语义分割，在三个最具挑战性的计算机视觉任务上创建新的 SoTA。

1. Introduction

        如今，Transformer [60] 已成为自然语言处理 (NLP) [22, 6] 中流行的模型架构。鉴于其在 NLP 中的成功，人们越来越努力将其应用于计算机视觉 (CV) [48, 51]。自从它的承诺首次在 Vision Transformer (ViT) [23] 中展示以来，我们见证了用于图像分类 [57、63、67、44、80、59]、对象检测 [9、91、84] 的全 Transformer 模型的蓬勃发展, 20] 和语义分割 [61, 65]。除了这些静态图像任务，它还被应用于各种时间理解任务，例如动作识别 [41、83、11]、对象跟踪 [15、62]、场景流估计 [39]。

         在 Transformers 中，self-attention 是关键组成部分，使其与广泛使用的卷积神经网络 (CNN) [38] 不同。在每个 Transformer 层，它支持不同图像区域之间的全局内容相关交互，以对短程和长程依赖进行建模。通过完全自注意力 1 的可视化，我们确实观察到它学会了同时关注局部环境（如 CNN）和全局上下文（参见图 1 的左侧）。然而，当涉及到用于对象检测或分割等密集预测的高分辨率图像时，由于特征图中网格数量的二次计算成本，全局和细粒度的自注意力变得非常重要。最近的工作交替地利用粗粒度的全局自我注意 [63、67] 或细粒度的局部自我注意 [44、80、59] 来减少计算负担。然而，这两种方法都削弱了原始全局自注意力的能力，即同时模拟短程和长程视觉依赖性的能力，如图 1 左侧所示。

        在本文中，我们提出了一种新的自我注意机制来捕获 Transformer 层中的局部和全局交互以获取高分辨率输入。考虑到附近区域之间的视觉依赖性通常比远处区域更强，我们只在局部区域进行细粒度的自注意力，而在全局区域进行粗粒度的注意。如图 1 右侧所示，特征图中的 query token 以最精细的粒度关注其最近的环境。然而，当它到达更远的区域时，它会关注汇总的 token 以捕获粗粒度的视觉依赖性。区域离 query 越远，粒度越粗因此，它可以有效地覆盖整个高分辨率特征图，同时在自我注意计算中引入的tokrn数量比完全自我关注中少得多。注意力机制。因此，它能够有效的捕获短程和长程视觉依赖性。我们称这种新机制为焦点自注意力，因为每个token都以焦点方式关注其他token。基于所提出的 focal self-attention，开发了一系列 Focal Transformer 模型，方法是 1) 利用多尺度架构为高分辨率图像保持合理的计算成本 [63、67、44、80]，以及 2 ) 将特征图拆分为多个窗口，其中token共享相同的环境，而不是对每个token执行聚焦自注意力 [59、80、44]。

        我们通过对图像分类、对象检测和分割的综合实证研究验证了所提出的焦点自我注意的有效性。结果表明，我们具有相似模型大小和复杂性的 Focal Transformers 在各种设置中始终优于 SoTA Vision Transformer 模型。值得注意的是，我们具有 51.1M 参数的小型 Focal Transformer 模型可以在 ImageNet-1K 上实现 83.5% 的 top-1 精度，而具有 89.8M 参数的基础模型获得 83.8% 的 top-1 精度。当转移到物体检测时，我们的 Focal Transformers 对于六种不同的物体检测方法始终优于 SoTA Swin Transformers [44]。我们最大的 Focal Transformer 模型在 COCO test-dev 上分别实现了 58.9 box mAP 和 51.3 mask mAP 用于对象检测和实例分割，在 ADE20K 上实现了 55.4 mIoU 用于语义分割。这些结果表明，focal self-attention 在建模局部-全局交互方面非常有效。

2. MEthod

2.1 Model architecture

为了适应高分辨率视觉任务，我们的模型架构与 [63、80、44] 共享类似的多尺度设计，这使我们能够在早期阶段获得高分辨率特征图。如图 2 所示，图像 $I \in R^{H\times W \times 3}$ 首先被分成大小为 4×4 的块，得到 $\frac{H}{4}\times \frac{W}{4}\times (4\times 4\times 3)$ 。然后，我们使用一个 PatchEmbedding 层，其中由一个卷积层组成，核大小和步幅都等于 4，将这些补丁投影到维度为 d 的隐藏特征中.给定这个空间特征图，然后我们将它传递给四个阶段的焦点 Transformer 块。在每个阶段 $I \in \left \{ 1, 2, 3, 4 \right \}$ ，Focal Transformer 块由 $N_{i}$ 个 focal Transformer 层组成。在每个阶段之后，我们使用另一个 PatchEmbedding 层将特征图的空间大小减少 2 倍，同时特征维度增加 2。对于图像分类任务，我们取上一阶段输出的平均值并将其发送到一个分类层。对于物体检测，根据我们使用的特定检测方法，来自最后 3 个或所有 4 个阶段的特征图被馈送到检测器头。可以通过改变输入特征维度 d 和每个阶段的焦点 Transformer 层数来定制模型容量 $\left \{ N_{1}, N_{2}, N_{3},N_{4} \right \}$ 。

标准的自注意力可以捕获细粒度的短距离和长距离交互，但是当它在高分辨率特征图上执行注意力时，它会受到高计算成本的影响，如 [80] 中提到的。以图2中的stage 1为例。对于大小为 $\frac{W}{4}\times\frac{W}{4}\times d$ 的特征图，自注意力的复杂度为 $O\left ( \left ( \frac{H}{4}\times\frac{W}{4} \right ) ^{2}d\right )$ ，考虑到 min(H, W) 为 800 或什至更大，导致时间和内存成本爆炸式增长物体检测。接下来，我们将描述我们如何通过提出的焦点自注意力来解决这个问题。

2.2 Focal self-attention

在本文中，我们提出了 focal self-attention 以使 Transformer 层可扩展到高分辨率输入。我们提出只在局部注意细粒度token，在全局进行汇总，而不是计算所有细粒度token。因此，它可以覆盖与标准自注意力一样多的区域，但成本要低得多。在图 3 中，当我们逐渐添加更多参与标记时，我们显示了标准自注意力和 focal self-attention的感受野区域。对于 query 位置，当我们对其较远的环境使用逐渐粗粒度时，focal self-attention 可以具有明显更大的感受野，但代价是要注意与基线相同数量的 token 。

我们的 focal mechanism 能够以更少的时间和内存成本实现长程自注意力，因为它关注的周围（汇总的）token 数量要少得多。然而，在实践中，为每个 query 位置提取周围的 tokens 会耗费大量时间和内存，因为我们需要为所有可以访问它的 queries 复制每个token。这个实际问题已被许多先前的作品 [59, 80, 44] 注意到，常见的解决方案是将输入特征映射划分为窗口。受他们的启发，我们采取在窗口级别执行 focal self-attention。

给定 $x\in R^{M\times N\times d}$ 的空间大小为 M × N 的特征图，我们首先将其划分为大小为 $s_{p} \times s_{p}$ 的窗口网格。然后，我们找到每个窗口的周围环境而不是单个 token 。在下文中，我们详细阐述了 window-wise focus self-attention。

2.2.1 Window-wise attention

        图 4 显示了所提出的基于窗口的 focal self-attention 的图示。为了清楚起见，我们首先定义了三个术语：

Focal levels L - 我们为焦点自注意力提取标记的粒度级别数。例如，在图 1 中，我们总共显示了 3 个焦点级别。

Focal window size $s^{l}_{w}$ – 我们在级别 l ∈ { 1, ..., L } 获得汇总标记的子窗口的大小，对于图 1 中的三个级别分别为 1、2 和 4。

Focal region size $s^{l}_{r}$ – l 层关注区域水平和垂直方向的子窗口数量，图1中从1层到3层分别为3、4和4。

通过以上三个术语 { L, $s^{l}_{w}$ , $s^{l}_{r}$ } ，我们可以指定我们的 focal self-attention 模块，主要分为两个步骤：

Sub-window pooling. 假设输入特征图 $x\in R^{M\times N\times d}$ ，其中 M × N 是空间维度，d 是特征维度。我们对所有 L 级别执行子窗口池化。对于focal level ，我们首先将输入特征图 x 分成大小为 $s^{l}_{w}\times s^{l}_{w}$ 的子窗口网格。然后我们使用一个简单的线性层 $f_{p}^{l}$ 通过以下方式在空间上池化子窗口：

$x^{l}=f_{p}^{l}(\hat{x})\in R^{\frac{M}{s_{w}^{l}}\times \frac{N}{s_{w}^{l}}\times d},\ \ \hat{x}=Reshape(x)\in R^{(\frac{M}{s_{w}^{l}}\times \frac{N}{s_{w}^{l}}\times d)\times(s_{w}^{l}\times s_{w}^{l})}$

        不同level 的 pooled 特征图 $\left \{ x^{l} \right \}^{L}_{1}$ 提供了丰富的细粒度和粗粒度信息。由于我们将 $s^{l}_{w}$ 设置为与输入特征图具有相同粒度的第一个焦点级别，因此无需执行任何子窗口池化。考虑到 focal window 的大小通常非常小（在我们的设置中最大为 7），这些子窗口池引入的额外参数的数量可以忽略不计。

Attention computation. 一旦我们获得了在所有 L levels 的 pooled 特征图 $\left \{ x^{l} \right \}^{L}_{1}$ ，我们使用三个线性投影层 $f_{q},f_{k}.f_{v}$ 计算第一层的 query 和所有层的 key 和 value ：

$Q=f_{q}(x^{1}),\ K=\left \{ K^{l} \right \}_{1}^{L}=f_{k}(\left \{ x^{1},\cdot \cdot \cdot x^{L} \right \}),\ \ V=\left \{ V^{l} \right \}_{1}^{L}=f_{v}(\left \{ x^{1},\cdot \cdot \cdot x^{L} \right \})$

        为了执行 focal self-attention，我们需要首先为特征图中的每个 query token 提取周围的 tokens 。正如我们之前提到的，窗口分区 $s_{p}\times s_{p}$ 内的 tokens 共享同一组环境。对于第 i 个窗口 $Q_{i}\in R^{s_{p}\times s_{p}\times d}$ 内的 queries，我们从 query 所在窗口周围的 $K^{l}$ 和 $V^{l}$ 中提取 $s^{l}_{r}\times s^{l}_{r}$ 的 keys 和 values，然后收集 keys 和 values 从所有 L 的值得到 $K_{I}=\left \{ K_{i}^{1},\cdot \cdot \cdot K_{i}^{L} \right \}\in R^{s\times d}$ 和 $V_{I}=\left \{ V_{i}^{1},\cdot \cdot \cdot V_{i}^{L} \right \}\in R^{s\times d}$ ,其中 s 是来自所有 levels 的focal ragion 的总和，即 $s=\sum^{L}_{l=1}(s^{l}_{r})^{2}$ 。请注意，图 1 之后的 focal self-attention 的严格版本需要排除不同级别的重叠区域。在我们的模型中，我们有意保留它们以捕获重叠区域的金字塔信息。最后，我们按照 [44] 包括相对位置偏差并通过以下方式计算 $Q_{i}$ 的 focal self-attention ：

$Attention(Q_{i},K_{i},V_{i})=Softmax(\frac{Q_{i}K_{i}^{T}}{\sqrt{d}}+B)V_{i}$

        其中 $B=\left \{ B^{l} \right \}^{L}_{1}$ 是可学习的相对位置偏差。它由 L 个 L focal levels 的子集组成。类似于[44]，对于第一层，我们将其参数化为 $B^{1} \in R^{(2s_{p} -1)\times(2s_{p} -1)}$ ，考虑到水平和垂直位置范围都在 $\left [ -s_{p}+1,s_{p}-1 \right ]$ 。对于其他 focal levels，考虑到它们对 queries 具有不同的粒度，我们平等对待窗口内的所有 queries，并使用 $B^{l} \in R^{s_{r}^l\times s_{r}^l}$ 来表示 query 窗口与每个池化的 $s_{r}^{l}\times s_{r}^{l}$ 之间的相对位置偏差 tokens。由于每个窗口的 focal self-attention 独立于其他窗口，我们可以并行计算atten。一旦我们为整个输入特征图完成它，我们将它发送到 MLP 块以像往常一样进行计算。

2.2.2 Complexity analysis

我们分析了上述两个主要步骤的计算复杂度。对于输入特征图 $x \in R^{M\times N\times d}$ ，我们在focal level 1 有 $\frac{M}{s^{l}_{w}}\times \frac{N}{s^{l}_{w}}$ 个子窗口。对于每个子窗口，池化操作的复杂度为 $O((s_{w}^{l})^2d)$ 。聚合所有子窗口给我们带来了。然后对于所有focal levels，我们总共有的复杂性，它与每个 focal levels 的子窗口大小无关。关于注意力计算，对于 $s_{p}\times s_{p}$ 窗口的计算成本为 $O((s_{p})^2\sum_{l}(s^l_{r})^2d)$ ，而整个输入特征图的计算成本为 $O(\sum_{l}(s^l_r)^2(MN)d)$ 。综上所述，我们的 focal self-attention 的总体计算成本变为 $O((L+\sum_l(s^l_r)^2)(MN)d)$ 。在极端情况下，可以设置以确保该level 中所有queries（包括角落部分和中间部分）的全局接受域。

2.3 Model conﬁguration

Focal Transformer 考虑了三种不同的网络配置。在这里，我们简单地遵循之前作品 [63、67、44] 建议的设计策略，尽管我们认为应该有更好的配置专门针对我们的 focal Transformers。具体来说，我们使用与 Swin Transformer [44] 中的 Tiny、Small 和 Base 模型类似的设计，如表 1 所示。我们的模型将 224 × 224 图像作为输入，窗口分区大小也设置为 7 以使我们的模型堪比 swin 。对于 focal self-attention 层，我们引入了两个 levels，一个用于细粒度局部注意力，一个用于粗粒度全局注意力。除了最后一个 stage，focal ragion 大小始终设置为 13，窗口分区大小为 7，这意味着我们为每个窗口分区扩展 3 个 token 。对于最后一个 stage ，由于整个特征图为 7×7，因此第 0 级的 focal ragion 大小设置为 7，足以覆盖整个特征图。对于粗粒度全局注意力，我们将其 focal window大小设置为窗口分区大小 7，但逐渐减小 focal ragion 大小以获得四个 stage 的 {7, 5, 3, 1}。对于patch embedding层，四个阶段的空间缩减率均为{4,2,2,2}，而Focal-Base相比Focal-Tiny和Focal-Small具有更高的隐藏维度。

3. Related work

Vision Transformers. Vision Transformer (ViT) 首次在 [23] 中引入。它应用最初为 NLP [60] 开发的标准 Transformer 编码器，通过类似地分割图像转换成一系列视觉 token来编码图像。当使用足够的数据 [23] 和仔细的数据增强和正则化 [57] 进行训练时，它在多个图像分类基准上证明了优于 ResNet [34] 等卷积神经网络 (CNN) 的性能。这些进步进一步激发了 transformer 在图像分类以外的各种视觉任务中的应用，例如自监督学习 [16、10、40]、目标检测 [9、91、84、20] 和语义分割 [61、65、86] ].除了下游任务，另一条工作重点是从不同角度改进原始 ViT，例如数据高效训练[57]、改进的补丁嵌入/编码[18、75、32]，将卷积投影集成到转换器中[ 67, 74]，用于高分辨率视觉任务的多尺度架构和高效自注意力机制 [63, 67, 44, 80, 17]。我们建议读者参考 [37, 31, 37] 进行综合调查。本文重点是通过提出的 focal self-attention 机制提高视觉转换器的一般性能。在下文中，我们特别讨论了与注意力机制最相关的工作。

Efﬁcient global and local self-attention. Transformer 模型通常需要处理大量的 token，例如 NLP 中的长文档和 CV 中的高分辨率图像。最近，提出了各种有效的自注意机制来克服普通自我注意中的二次计算和内存成本。一方面，NLP 和 CV 中的许多工作通过参与下采样/汇总的标记来求助于粗粒度的全局自注意力，同时保留长程交互 [50、47、63、67、32]。尽管这种方法可以提高效率，但它丢失了 query token 周围的详细上下文。另一方面，局部细粒度注意力，即在恒定窗口大小内关注相邻标记，是语言 [3, 78, 1] 和视觉 [59, 44, 80] 的另一种解决方案。在本文中，我们认为两种类型的注意力都很重要，全注意力 ViT 模型确实已经学习了这两种类型，如图 1 左所示。这也得到了最近先进的 CNN 模型 [36、66、64、71、2、8、52] 的支持，这表明全局注意力或交互可以有效地提高性能。我们提出的 focal self-attention 是第一个在单个 transformer 层中协调全局和局部 self-attention 的方法。它可以捕获局部和全局交互作为普通的全注意力，但以更有效和有效的方式，特别是对于高分辨率输入。

4. Experiments

4.1 Image classiﬁcation on ImageNet-1K

我们比较了 ImageNet-1K [21] 上的不同方法。为了公平比较，我们遵循 [57、63] 中的训练方法。所有模型都训练了 300 个周期，批量大小为 1024。初始学习率设置为 10 -3，从 10 -5 开始进行 20 个线性预热周期。为了优化，我们使用 AdamW [45] 作为带有余弦学习率调度器的优化器。权重衰减设置为 0.05，最大梯度范数被限制为 5.0。在排除随机擦除 [87]、重复增强 [4, 35] 和指数移动平均线 (EMA) [49]。对于我们的微型模型、小型模型和基本模型，随机深度下降率分别设置为 0.2、0.2 和 0.3。在训练期间，我们将图像随机裁剪为 224 × 224，而在验证集评估期间使用中心裁剪。

在表 2 中，我们总结了基线模型和图像分类任务的当前最先进模型的结果。我们可以发现我们的 Focal Transformers 始终优于具有相似模型大小 (#Params.) 和计算复杂度 (GFLOPs) 的其他方法。具体来说，Focal-Tiny 比 Transformer 基线 DeiT-Small/16 提高了 2.0%。同时，使用相同的模型配置 (2-2-6-2) 和一些额外的参数和计算，我们的 Focal-Tiny 比 Swin-Tiny 提高了 1.0 个百分点 (81.2% → 82.2%)。当我们将窗口大小从 7 增加到 14 以匹配 ViL-Small [80] 中的设置时，性能可以进一步提高到 82.5%。对于小型和基本型号，我们的 Focal Transformers 的性能仍然比其他的略好。值得注意的是，我们的 51.1M 参数的 Focal-Small 可以达到 83.5%，这比所有使用更少参数的对应小型和基础模型都要好。当进一步增加模型尺寸时，我们的 Focal-Base 模型达到了 83.8%，超过了使用可比参数和 FLOPs 的所有其他模型。我们建议读者参阅我们的附录以进行更详细的比较。

4.2 Object detection and instance segmentation

         我们使用 COCO 2017 [43] 对我们的对象检测模型进行基准测试。预训练模型用作视觉主干，然后插入两个代表性管道，RetinaNet [42] 和 Mask R-CNN [33]。所有模型都在 118k 训练图像上训练，结果在 5K 验证集上报告。我们按照标准使用两个训练时间表，1× schedule with 12 epochs 和 3× schedule with 36 epochs。对于 1× schedule，我们将图像的短边调整为 800，同时保持其长边不超过 1333。对于 3× schedule，我们使用多尺度训练策略，通过随机将其短边调整到 [480, 800] 的范围。考虑到这种更高的输入分辨率，我们自适应地将四个阶段的焦点大小增加到（15、13、9、7），以确保焦点注意力覆盖超过一半的图像区域（前两个阶段）到整个图像（最后一个两个阶段）。随着焦点尺寸的增加，相对位置偏差相应地使用双线性上采样到相应的尺寸插值。在训练期间，我们使用 AdamW [45] 进行优化，初始学习率为 10 -4，权重衰减为 0.05。同样，我们分别使用 0.2、0.2 和 0.3 的随机深度下降率来规范我们的微型、小型和基础模型的训练。由于 Swin Transformer 不报告 RetinaNet 上的数字，我们使用他们的官方代码使用与我们的 Focal Transformers 相同的超参数自行训练它。

        在表 3 中，我们展示了基于 CNN 的模型和当前基于 Transformer 的最先进方法的性能。报告了 bbox mAP (AP b ) 和 mask mAP (AP m )。我们的 Focal Transformers 始终优于基于 CNN 的模型，差距为 4.8-7.1 点。与同样使用多尺度 Transformer 架构的其他方法相比，我们仍然观察到在所有设置和指标上都有可观的收益。特别是，在可比较的设置下，我们的 Focal Transformers 相对于当前最佳方法 Swin Transformer [44] 带来了 0.7-1.7 点的 mAP。与其他多尺度 Transformer 模型不同，我们的方法可以同时为每个视觉标记启用短程细粒度和远程粗粒度交互，从而在每一层捕获更丰富的视觉上下文以实现更好的密集预测。为了进行更全面的比较，我们进一步用 3× schedule 训练它们，并在表 4 中显示了 RetinaNet 和 Mask R-CNN 的详细数字。为了便于理解，我们还列出了每个模型的参数数量和相关的计算成本。正如我们所看到的，即使是 3× schedule，我们的模型仍然可以在可比较的设置下比最好的 Swin Transformer 模型获得 0.3-1.1 的增益。

        为了进一步验证我们提出的 Focal Transformer 的有效性，我们按照 [44] 训练四种不同的物体检测器，包括 Cascade R-CNN [7]、ATSS [81]、RepPoints [72] 和 Sparse R-CNN [55]。我们使用 Focal-Tiny 作为主干并使用 3× 时间表训练所有四个模型。表 5 报告了 COCO 验证集上的框 mAP。正如我们所见，我们的 Focal-Tiny 在所有方法上都超过 SwinTiny 1.0-2.3 点。除了 RetinaNet 和 Mask RCNN 之外，这些对不同检测方法的显着且一致的改进表明我们的 Focal Transformer 可以用作各种对象检测方法的通用主干。

        除了上面的实例分割结果，我们还进一步评估了我们的语义分割模型，这是一项通常需要高分辨率输入和远程交互的任务。我们在 ADE20K [88] 上对我们的方法进行了基准测试。具体来说，我们使用 UperNet [68] 作为分割方法，我们的 Focal Transformers 作为主干。我们分别使用 Focal-Tiny、Focal-Small、Focal-Base 训练三种模型。对于所有模型，我们通过将输入大小设置为 512 × 512 来使用标准配方，并训练模型进行 160k 次迭代，批量大小为 16。在表 7 中，我们显示了与之前作品的比较。正如我们所见，我们的微型、小型和基础模型在单尺度和多尺度 mIoU 上始终优于具有相似尺寸的 Swin Transformers。

潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
使用YOLOv5-ONNX-PyQT-EXE: 全栈式对象检测应用的构建与部署
使用YOLOv5-ONNX-PyQT-EXE:全栈式对象检测应用的构建与部署去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，实时对象检测是一个至关重要的任务。是一个开源项目，它将流行的YOLOv5对象检测模型集成到ONNX(OpenNeuralNetworkExchange)中，并通过PyQT构建了一个可执行的应用程序，使得非开发人员也能轻松地进行对象检测。项目简
OpenCV实现相机标定的棋盘格制作与应用 BIG-HO
本文还有配套的精品资源，点击获取简介：在计算机视觉领域，棋盘格标定板用于获取相机参数，实现图像校正和三维重建。OpenCV库提供了绘制棋盘格和相机标定的功能。本文将详细介绍如何使用OpenCV制作棋盘格标定板，包括设计、绘制、保存、相机标定过程和应用。通过实际案例，如畸变矫正、三维重建、AR应用和机器人导航，展示棋盘格标定板在视觉技术中的关键作用。1.棋盘格设计与绘制1.1棋盘格的基本概念与应用棋
从0开始学习计算机视觉--Day04--线性分类 Chef_Chen 学习计算机视觉分类
从宏观来看，卷积网络可以看做是由一个个不同的神经网络组件组合而成，就像积木一样通过不同类型的组件搭建形成，其中线性分类器是一个很重要的组件，在很多卷积网络中都有用到，所以了解清楚它的工作原理对我们后续的学习会有很大的帮助。线性分类器是参数模型中最简单，最基础的例子，下面我们用输入图片输出图片分类的模型的例子来更进一步地了解它。首先，我们输入一张图片到模型中，输入后我们就会得到f(x,W)，x指的是
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

Focal Self-attention for Local-Global Interactions in Vision Transformers ( DeiT )

Abstract

1. Introduction

2. MEthod

2.1 Model architecture

2.2 Focal self-attention

2.2.1 Window-wise attention

2.2.2 Complexity analysis

2.3 Model conﬁguration

3. Related work

4. Experiments

4.1 Image classiﬁcation on ImageNet-1K

4.2 Object detection and instance segmentation

你可能感兴趣的:(论文阅读,深度学习,人工智能,计算机视觉)