@默然

第二十五周：文献阅读笔记（swin transformer）

摘要
Abstract
1. swin transformer 文献笔记
- 1.1. 文献摘要
- 1.2. 引言
- 1.3. Swin Transformer原理
- - 1.3.1. 整体架构
  - 1.3.2. Patch Merging
  - 1.3.3. VIT中的Patch Projection
  - 1.3.4. 基于滑动窗口的自注意力
  - - 1. 非重叠窗口中的自注意力
    - 2. 连续块中的移动窗口分区
    - 3. 移动窗口所存在的问题
  - 1.3.5. 小结
- 1.4 实验

摘要

Swin Transformer（Swin-Transformer）是一种基于注意力机制的深度学习模型，用于解决计算机视觉领域的任务，如图像分类、目标检测和语义分割等。与传统的Transformer架构不同，Swin Transformer采用了跨尺度的分层注意力机制，使得模型能够更好地捕获图像中不同尺度的信息。这一结构使得Swin Transformer在处理大尺度图像时表现出色，并在多个计算机视觉任务上取得了竞赛的优异成绩。Swin Transformer的出现为图像处理领域带来了新的思路和性能突破。本文将详细介绍 Swin Transformer 架构。

Abstract

Swin Transformer (Swin-Transformer) is a deep learning model based on an attention mechanism for solving tasks in the field of computer vision, such as image classification, target detection, and semantic segmentation. Unlike the traditional Transformer architecture, Swin Transformer employs a cross-scale hierarchical attention mechanism that enables the model to better capture information at different scales in an image. This architecture has enabled Swin Transformer to perform well in processing large-scale images and achieve excellent results in competitions on several computer vision tasks.The emergence of Swin Transformer has brought new ideas and performance breakthroughs in the field of image processing. In this paper, we describe the Swin Transformer architecture in detail.

1. swin transformer 文献笔记

文献题目：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
文献链接：https://arxiv.org/pdf/2103.14030.pdf

1.1. 文献摘要

作者在本文提出了一种新的视觉 Transformer 架构，称为 Swin Transformer，它能够作为计算机视觉通用的骨干网络。将 Transformer 从自然语言处理领域应用到计算机视觉的挑战源于两个领域之间的差异，例如计算机视觉所处理的实体规模差异较大，以及图像中的像素与文本中的单词相比，图像种的像素分辨率更大。为了解决这些差异，作者提出了一个分层 Transformer，其表示是使用 Shifted windows 计算的。通过将自注意力计算限制在非重叠的本地窗口，同时还允许跨窗口连接，这样能够带来了更高的效率。这种层次结构具有在各种尺度上建模的灵活性，并且具有相对于图像大小的线性计算复杂性。Swin Transformer 的这些特点使其能够兼容广泛的视觉任务，包括图像分类（ImageNet-1K 上的 87.3 top-1 准确度）和物体检测等密集预测任务（COCO testdev 上的 58.7 box AP 和 51.1 mask AP）和语义分割（ADE20K val 上为 53.5 mIoU）。其性能在 COCO 上大幅超越了之前的最先进水平。

1.2. 引言

计算机视觉建模长期以来一直由卷积神经网络（CNN）主导。AlexNet是一个大型深度卷积神经网络，该神经网络拥有 6000 万个参数和 650,000 个神经元，由五个卷积层（其中一些后面是最大池层）和三个全连接层（最后一个 1000 路 softmax）组成，并且该大型卷积神经网络在ImageNet LSVRC-2010和ILSVRC-2012图像分类竞赛中取得了远低于第二名错误率的成绩。由此可见，CNN 架构已经变得越来越强大。随着 CNN 作为各种视觉任务的骨干网络，这些架构的进步带来了性能的改进。

而自然语言处理种的网络架构主要采用当下流行的Transformer，Transformer 专为序列建模和转导任务而设计，相对于传统的循环神经网络（RNN）模型，Transformer采用了自注意力机制（self-attention），使得模型能够更好地捕捉输入序列中各个位置之间的关系。它通过同时考虑输入序列中的所有位置信息，而无需像RNN那样逐个位置地进行处理，大大提高了训练和推理的效率，Transformer的成功部分得益于其并行计算的能力和深层网络的表示能力。这使得Transformer模型能够处理长文本序列，同时提供更好的建模能力和上下文理解能力。因其强大的注意力机制，从而能够更好的关注序列种的各个单词，它在自然语言语言领域的巨大成功促使研究人员研究它对计算机视觉的适应，最近它在某些任务上的表现也有明显的进步，特别是图像分类和联合视觉语言建模。

在该文献中，作者团队寻求Transformer在计算机视觉领域的可扩展性，从而使其的通用性能够得以提高。

将其在语言领域的高性能转移到视觉领域的重大挑战可以通过两种模式之间的差异来解释：

这些差异之一涉及规模。与作为语言 Transformer 中处理的基本元素的单词标记不同，视觉元素在规模上可能存在很大差异，在现有的基于 Transformer 的模型中，自注意力机制的计算是基于 token 之间的相对位置和关系的。为了确保模型能够处理任意长度的序列，并且在计算自注意力时具有固定的计算复杂度，需要将输入序列分割成固定大小的 token，如果输入序列较长，分割为固定长度的 token 可能会导致信息的丢失或模糊，特别是对于长文本或大尺寸图像，显然这并不适合这些视觉应用。
另一个区别是图像中像素的分辨率比文本段落中的单词要高得多。存在许多视觉任务，例如语义分割，需要在像素级进行密集预测，这对于高分辨率图像上的 Transformer 来说是很棘手的。

为了克服这些问题，作者团队提出了 Swin Transformer，它构建分层特征图。如图下所示，Swin Transformer 通过从小尺寸patche（灰色轮廓）开始并逐渐合并更深 Transformer 层中的相邻patch来构建分层表示，从而构造出一个层次化表示。线性计算复杂度是通过在分割图像的非重叠窗口（以红色框出）内本地计算自注意力来实现的。每个窗口中的patch数量是固定的，因此复杂度与图像大小成线性关系。这些优点使 Swin Transformer 适合作为各种视觉任务的通用骨干网，与之前基于 Transformer 的架构形成鲜明对比，后者生成单一分辨率的特征图并具有二次复杂度。

Swin Transformer 的一个关键设计元素是它在连续自注意力层之间的窗口分区的移位 (shift)，如上图所示。移位窗口桥接了前一层的窗口，提供二者之间的连接，显着增强建模能力。这种策略对于现实世界的延迟也是有效的：一个局部窗口内的所有 query patch 共享相同的 key 集合，这有助于硬件中的内存访问。相比之下，早期的基于滑动 (sliding) 窗口的自注意力方法由于不同 query 像素具有不同的 key 集合而在通用硬件上受到低延迟的影响。

Swin Transformer 与 VIT 的对比

作者所提出的 Swin Transformer 通过合并更深层中的图像块（以灰色显示）来构建分层特征图，并且由于仅在每个局部窗口（以红色显示）内计算自注意力，因此具有输入图像大小的线性计算复杂性。因此，它可以作为图像分类和密集识别任务的通用主干。 (b) 相比之下，之前的视觉 Transformers [20] 产生单个低分辨率的特征图，并且由于全局自注意力的计算，输入图像大小的计算复杂度是二次方的。

由于VIT里所采用的 patch size 是16*16的，如(b)图，每一个patch至始至终代表的尺寸都一样，其中每层的Transformer block，对应的token的尺寸都是16倍的下采样率，尽管VIT可以通过全局的自注意力操作达到全局建模的能力，但是它对多尺寸特征的把握就会弱一些。因为其自注意力机制始终在整张图种进行，也就是全局建模，因此输入图像大小的计算复杂度是跟图像的尺寸呈平方倍增长

1.3. Swin Transformer原理

1.3.1. 整体架构

上图概述了 Swin Transformer 架构，其中展示了微型版本 (Swin-T)。它首先通过patch分割模块(Patch Partition)将输入 RGB 图像分割成不重叠的patches。每个patch都被视为一个token，其特征被设置为原始像素 RGB 值的串联。在本文作者的实现中，使用 4×4 的 patch 大小，因此每个 patch 的特征维度为 4 × 4 × 3 = 48。线性嵌入层应用于此原始值特征，将其投影到任意维度（记为C)。

为了产生分层表示，随着网络变得更深，通过Patch Merging层来减少标记的数量，相当于卷积神经网络中的池化操作。第一个Patch Merging层连接每组 2 × 2 相邻 patch 的特征，并在 4*C 维连接特征上应用线性层。这将token数量减少了 2×2 = 4 的倍数，并且输出维度设置为 2C 。随后应用 Swin Transformer 块进行特征转换，分辨率保持在 $\frac{H}{8}*\frac{W}{8}$ 。该过程重复两次，输出分辨率分别为 $\frac{H}{16}*\frac{W}{16}$ 和 $\frac{H}{32}*\frac{W}{32}$ 。这些过程共同产生分层表示，具有与典型卷积网络相同的特征图分辨率，例如 VGG和 ResNet。因此，所提出的架构可以方便地替换现有方法中用于各种视觉任务的主干网络。

假设输入的图像数据为 2242243，通过Patch Partition后，得到的图片尺寸为 $\frac{H}{4}*\frac{W}{4}*C=56 * 56 * 48$ 。

然后就该经过Linear Embedding层，这层的目的是为了Patch Partition层输出的向量的维度转换成我们预先设置好的值（Transformer能够接受的值），在本文中，作者将这个超参数设为C，对于 Swin tiny 这个网络来说，在这里的C为96，因此经历完Linear Embedding层后，我们最初的输入尺寸就变成了 56 * 56 * 96，前面的 56 * 56 就会被拉直（相乘），变成 3136，得到的是 3136 * 96 这个序列长度，96则是每一个token的维度，这里的Patch Partition、Linear Embedding与VIT里的Patch Projection的其中一步操作。

此时我们得到的序列长度为 3136 * 96，目前来说Transformer不能接受这个序列长度，Swin Transformer就引入了这种基于窗口的自注意力计算，每个窗口按照默认来说都只有49个patch，因此序列长度就只有49，这就相当小了，也就有效解决了计算复杂度问题。

而该文献整体架构中的Swin Transformer Block 层便是基于窗口去计算自注意力的，如果想要有多尺寸的特征信息，那就需要构建一个层级式的Transformer，我们需要一个像卷积神经网络里一样，有一个池化的操作，在该文献中，作者提出了 Patch Merging 操作，经过 Patch Merging操作后，输出的大小从 56 * 56 * 96 变为 28 * 28 * 192，随后同理，都是先进行 Patch Merging，再经过 Swin Transformer，连续进行降维操作，同卷积神经网络一致，经过反复的池化，对张量进行降维

1.3.2. Patch Merging

Patch Merging 是将临近的小 Patch，合并成一个大 Patch，这样就能起到下采样一个特征图的效果，如下图，我们下采样2倍，在选点时是每隔一个点选一个，图中的1、2、3、4只是代表序号，并不是张量里的值，同样序号的patch会被合并到一起，经过选点并合并后，原先一个大的张量就变成了下图中的四个张量

然后我们将这四个张量在 C 这个维度上拼接起来，得到的张量大小为 $\frac{H}{2}*\frac{W}{2}*4C$ ，这么做也就是用空间上的维度去换取更多的通道数，这样使得原来很大的一个张量变小了

接着在 C 这个维度上，作者使用 1*1 卷积，将通道数从 4C 降至 2C，上述的整个过程便是 Patch Merging 操作。

1.3.3. VIT中的Patch Projection

以ViT-B/16为例，直接使用一个卷积核大小为16x16，步距为16，卷积核个数为768的卷积来实现。输出的尺寸为（224-16)/16+1=14，通过卷积 [224, 224, 3] -> [14, 14, 768]，然后H以及W两个维度展平即可 [14, 14, 768] -> [196, 768]，，此时变成了一个二维矩阵，满足Transformer的输入。在输入Transformer Encoder之前注意需要加上[class]token以及Position Embedding。然后插入一个专门用于分类的[class]token，这个[class]token是一个可训练的参数，数据格式和其他token一样都是一个向量，以ViT-B/16为例，就是一个长度为768的向量，与之前从图片中生成的tokens拼接在一起，即 Cat([1, 768], [196, 768]) -> [197, 768]。

1.3.4. 基于滑动窗口的自注意力

1. 非重叠窗口中的自注意力

为高效建模，作者团队提出在非重叠的局部窗口中计算自注意力，取代全局自注意力，以不重叠的方式均匀地划分图像得到各个窗口。已知 D = 2C，则设每个非重叠局部窗口都包含 N = M × M 个 patch tokens，则基于具有 N = h × w 个 patch tokens 的图像窗口的 MSA 模块和基于非重叠局部窗口的 W-MSA 模块的计算复杂度分别是：

其中，MSA关于 patch token 数 $h * w$ 具有二次复杂度（共hw个 patch tokens，每个 patch token 在全局计算 hw 次）。W-MSA则当M固定时（默认设为7）具有线性复杂度（共hw个 patch tokens，每个 patch token 在各自的局部窗口内计算 $M^2$ 次）。巨大的 h * w 对全局自注意力计算而言是难以承受的，而基于窗口的自注意力（W_MSA）则具有良好的扩展性。

2. 连续块中的移动窗口分区

基于窗口的自注意力模块缺乏跨窗口的连接，这限制了其建模能力。为了引入跨窗口连接，同时保持非重叠窗口的高效计算，作者提出了一种移位窗口分区方法，该方法在连续 Swin Transformer 块中的两个分区配置之间交替。

如上图所示，第一个模块使用从左上角像素开始的常规窗口划分策略，将 8 × 8 特征图均匀划分为大小为 4 × 4 (M = 4) 的 2 × 2 窗口。然后，下一个模块采用与上一层不同的窗口配置，通过将窗户移动 $(\left \lfloor \frac{M}{2} \right \rfloor,\left \lfloor \frac{M}{2} \right \rfloor)$ 个像素，使用移位窗口分区方法，连续的 Swin Transformer 块计算如下：

如上图所示，每次的输入先经过一次LN，然后进行计算窗口的多头自注意力，然后再经过LN、MLP，紧接着再进行LN，然后再进行基于移动窗口的多头自注意力，最后再经过LN、MLP，这样就达到了窗口和窗口之间的互相通信了。

3. 移动窗口所存在的问题

尽管在论文中，作者介绍的移动窗口模式，已经能够达到窗口和窗口之间的通信，但是我们会发现一个问题，如上图，就是原来我们计算时的特征图上只有四个窗口，当做完移动窗口的操作后，我们得到了9个窗口，很显然窗口数量增加了，而且每个窗口里的元素大小不同。如果我们想去做快速运算，就是将这些窗口全部压成一个 patch，直接去计算这个注意力，这是做不到的。如果我们通过对移动窗口后的各个窗口进行padding填充操作，那计算机复杂度相比于移动前的计算复杂度要高的多。那么，该如何提升计算复杂度呢？

此处，作者团队提出了一种更有效的批计算方法，其循环向左上方移位，如上图所示。在这种移位后，批窗口可由特征图中不相邻的子窗口组成，因此使用Mask机制将自注意计算限制在每个子窗口内。通过循环移位，批处理窗口的数仍与规则分区的窗口数相同 (如规则划分时是 4 个窗口，向左上角循环移位后仍是 4 个窗口，如上图的 A，B，C，D 所示)。

经过了循环移位的方法，一个窗口可包含来自不同窗口的内容。因此，要采用 masked MSA 机制将自注意力计算限制在各子窗口内。最后通过逆循环移位方法将每个窗口的自注意力结果返回。例如，一个 9 窗口的图解如下所示：

按子窗口划分即可得到 5 号子窗口的自注意力的结果，但直接计算会使得 5 号 / 6 号 / 4 号子窗口的自注意力计算混在一起，类似的混算还包括 5 号 / 8 号 / 2 号子窗口和 9 号 / 7 号 / 3 号 / 1 号子窗口的纵向或横向等。所以需采用 masked MSA 机制：先正常计算自注意力，再进行 mask 操作将不需要的注意力图置 0，从而将自注意力计算限制在各子窗口内。

例如， 6 号 / 4 号子窗口共由 4 个 patch 构成一个正方形区域，如下所示，故应计算出 4×4 注意力图。

为避免各不同的子窗口注意力计算发生混叠，合适的注意力图应如下所示：

从而，合适的 mask 应如下所示：

再例如，9 号 / 7 号 / 3 号 / 1 号子窗口共由 4 个 patch 构成一个正方形区域，如下所示：

同理，合适的 mask 应如下所示：

1.3.5. 小结

在 Swin Transformer 的结构里，它的这个 Transformer block 的安排是十分有讲究的，它每次都是先要做一次基于窗口的多头自注意力，然后再做一次基于移动窗口的多头自注意力，作者的主要研究动机就是想设计一个层级式的Transformer，为了能够实现层级式，作者提出了 Patch Merging 的操作，从而能够像卷积神经网络一样，将Transformer分为几个阶段，为了减少计算复杂度，能够将模型应用到视觉里的密集预测任务，作者又提出了基于窗口和移动窗口的多头自注意力方式，最后将所有模块整合到一起，就是该文献中的 Swin Transformer的结构。

1.4 实验

对于图像分类，作者在 ImageNet-1K [19] 上对提出的 Swin Transformer 进行了基准测试，其中包含来自 1,000 个类别的 128 万张训练图像和 5 万张验证图像。得出了对应的准确度，作者考虑两种训练设置：

Regular ImageNet-1K training：作者使用 AdamW 优化器进行 300 个epochs，使用余弦衰减学习率调度器和 20 个周期的 linear warm-up。使用的 batch-size 为 1024，初始学习率为 0.001，权重衰减为 0.05。在训练中包含了的大多数增强和正则化策略，除了重复增强和EMA，它们不会提高性能。
Pre-training on ImageNet-22K and fine-tuning on
ImageNet-1K：作者还对更大的 ImageNet-22K 数据集进行预训练，该数据集包含 1420 万张图像和 22K 类。我们使用 AdamW 优化器进行 90 个epochs，使用线性衰减学习率调度程序和 5 个epochs的线性预热。使用的 batch-size 为 4096，初始学习率为 0.001，权重衰减为 0.01。在 ImageNet-1K 微调中，我们训练模型 30 个周期，批量大小为 1024，恒定学习率为 $10^{−5}$ ，权重衰减为 $10^{−8}$ 。

常规 ImageNet-1K 训练的结果
表 1(a) 展示了与其他主干网的比较，包括使用常规 ImageNet-1K 训练的基于 Transformer 和基于 ConvNet 的主干网。与之前最先进的基于 Transformer 的架构相比，Swin Transformers 明显超过了具有类似复杂性的对应 DeiT 架构：Swin-T (81.3%) 比 DeiT-S (79.8%) +1.5% ）使用 2242 输入，Swin-B (83.3%/84.5%) 比使用 2242/3842 输入的 DeiT-B (81.8%/83.1%) 分别增加 1.5%/1.4%。与最先进的 ConvNet（即 RegNet [48] 和 EfficientNet ）相比，Swin Transformer 实现了稍微更好的速度与精度权衡。值得注意的是，虽然 RegNet 和 EfficientNet 是通过彻底的架构搜索获得的，但所提出的 Swin Transformer 是根据标准 Transformer 改编的，并且具有进一步改进的强大潜力。

ImageNet-22K 预训练的结果
作者还在 ImageNet22K 上预训练了更大容量的 Swin-B 和 Swin-L。 ImageNet-1K 图像分类的微调结果如表 1(b) 所示。对于 Swin-B，ImageNet22K 预训练比在 ImageNet-1K 上从头开始训练带来了 1.8%∼1.9% 的增益。与之前 ImageNet-22K 预训练的最佳结果相比，我们的模型实现了明显更好的速度与精度权衡：Swin-B 获得了 86.4% 的 top-1 精度，比具有类似推理吞吐量的 ViT 高出 2.4% （84.7 与 85.9 图像/秒）和略低的 FLOP（47.0G 与 55.4G）。较大的 Swin-L 模型实现了 87.3% 的 top-1 准确率，比 Swin-B 模型高出 0.9%。

2025年中总结 Just Jump 人生经历思考反思认知方法 2025年中总结
2025年中总结。一如往年惯例，总结近半年工作中的体悟和经验。一、把大而难的事拆解成小而具体的小目标。专注解决小目标，每周迭代交付，先完成再完善。1.1把大任务拆解成具体可执行的小目标2025年5月起我开始做大模型相关的技术调研、技术升级和开发工作。传统的机器学习、深度学习算法和大模型的算法在技术知识上还是有很大的差异的。想要快速转型使用大模型做开发、训练，是需要些时间和精力投入的，这并不是一个简
从零到云：我在达内一年的Linux云计算培训之旅
博客简介本篇博文中，我将从学员身份去分享过去一年里在达内教育培训有关Linux云计算的学习经历和收获，旨在为那些渴望踏入云计算领域的初学者提供一份指南参考，同时也尝试把笔记内容进行整理输出并分享给大家。无论你是刚接触IT的新手，还是希望通过报名培训机构转型的职场人，希望这份笔记能为你揭示关于培训机构里的Linux云计算基础知识和实践技巧。大纲概览培训笔记将按照机构课程顺序由简入深进行分享，总共分为
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
小程序学习笔记：判断分页数据边界，优化性能 you4580 学习笔记小程序
在小程序开发过程中，数据分页展示是常见的功能需求。但如果处理不当，可能会出现无效的数据请求，影响程序性能。今天咱们就来深入探讨如何在小程序开发里精准判断是否还有下一页数据，并避免发起多余请求。一、问题引入假设有80条美食数据，每页展示10条，理论上8页就能展示完。但在实际操作时，你有没有想过，会不会出现请求第9页、第10页数据这种情况呢？答案是肯定的。就像在开发美食类小程序时，用户不断上拉加载新数
小程序学习笔记：实现分页加载商铺列表数据并渲染 UI you4580 学习笔记小程序
在微信小程序开发中，实现分页加载指定分类下的商铺列表数据，并进行UI渲染是常见的功能需求。本文将详细介绍这一功能的实现过程，包括API接口调用、数据请求、数据处理以及UI渲染和样式美化，同时附上相应代码，帮助大家更好地理解和实践。一、API接口与数据请求（一）API接口地址我们要调用的API接口地址包含一个动态参数:cat_id，这个参数用于指定分类的ID。例如，如果要请求美食分类下的所有商铺列表
多模态AI：让机器像人一样“全感官”理解世界 Echo_Wish 前沿技术人工智能人工智能
多模态AI：让机器像人一样“全感官”理解世界咱们人类理解世界，从来不是只靠单一感官：眼睛看到画面，耳朵听到声音，皮肤感受到温度，嘴巴尝到味道，甚至鼻子闻到气味。正是这多感官的“多模态”输入，构筑了我们对复杂世界的深刻认知。而人工智能领域的多模态学习（MultimodalLearning），正是让机器拥有“多感官”理解能力的技术突破。今天，我想跟大家聊聊：多模态学习为何重要？当前有哪些创新模型？如何
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
最新人工智能硬件培训AI基础入门学习课程参考2025版（离线AI语音视觉识别篇）聆思科技AI芯片聆思大模型开发板实践分享语音识别人机交互人工智能视觉检测嵌入式硬件 mcu AI编程
前言端侧离线AI智能硬件作为AI技术的重要载体之一，凭借其无需依赖网络即可实现智能功能的特性，在一些网络条件受限或对数据隐私有较高要求的场景中，发挥着不可或缺的作用。本章基于CSK6大模型语音视觉开发板开箱即用的离线AI能力，分类列出学习课程知识点和实操参考，希望能够帮助大家快速掌握离线AI智能硬件的基础知识与实战技能，同时了解相关AI技术在实际场景的应用情况。正文按入下框架展开，相关理论和实操除
最新人工智能硬件培训AI 基础入门学习课程参考2025版（大模型篇）聆思科技AI芯片聆思大模型开发板实践分享大模型语音交互人工智能语音识别视觉检测 AI编程人机交互
前言在人工智能大模型重塑教育与社会发展的当下，无论是探索未来职业方向，还是更新技术储备，掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手，到课堂用于学术研究的智能工具，大模型正在工作生活教育等领域发挥着越来越重要的作用。针对日前前来咨询的广大客户对面向大模型智能硬件的学习需求，我们根据CSK6大模型语音视觉开发板已有功能，整理了一份适合基于本开发板进行教学活动的学习课程参考给大家备
机器学习，支持向量机svm和决策树xgboost介绍 suixinm 支持向量机机器学习决策树
支持向量机(SVM)和XGBoost都是非常强大且应用广泛的机器学习算法，但它们基于不同的原理，各有其优势和劣势，适用于不同的场景。以下是两者的主要区别和优劣势对比：1.核心思想与模型类型:SVM:核心思想:找到一个最优的超平面（在特征空间中），将不同类别的样本分隔开，并且使得该超平面到两类样本中最近的样本点（支持向量）的距离（间隔）最大化。核心是几何间隔最大化。模型类型:单个模型（虽然是核方法，
【学习】《算法图解》第十章学习笔记：贪婪算法程序员
一、贪婪算法概述贪婪算法（GreedyAlgorithm）是一种在每一步选择中都采取当前状态下最好或最优的选择，从而希望导致结果是最好或最优的算法。贪婪算法不从整体最优上加以考虑，它所做出的选择只是在某种意义上的局部最优选择。（一）算法适用场景贪婪算法适用于具有"贪心选择性质"的问题，即局部最优选择能导致全局最优解的问题。主要应用于：需要求解最优化问题问题具有贪心选择性质问题具有最优子结构性质（二
剑指offer第二版学习笔记（一）前言虚空来袭剑指offer第二版剑指Offer 第2版
久闻剑指offer大名，如今我也到了要找工作的时候了，趁现在还有时间，多学一点是一点，在此开一个分集记录一下在学习剑指offer过程中的一些经验和想法。注：使用的书籍是剑指offer第二版。本期内容书籍内容书籍内容简介结语本期仅写了书籍内容介绍，作者还总结了书籍特色、对创作过程中家人、朋友等进行了感谢，我略去了这些部分。下期应该是接着看第一部分。
【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示 Wwwilling 推荐系统论文阅读 Transformer系列论文 transformer 聚类多模态
文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架
【Spring AI】 1接入 Ollama实践占星安啦 springai java springai ollama
SpringAI接入Ollama实践学习笔记Ollama官方文档SpringAI快速开始SpringAIOllama集成文档1.pom.xml依赖配置前置条件：请确保你已安装好Java17+、Maven、Ollama，并已下载好所需大模型。在pom.xml中添加SpringAI及Ollama相关依赖：org.springframework.bootspring-boot-starter-webor
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-metrics.py 红色的山茶花 YOLO 笔记深度学习
metrics.pyultralytics\utils\metrics.py目录metrics.py1.所需的库和模块2.defbbox_ioa(box1:np.ndarray,box2:np.ndarray,iou:bool=False,eps:float=1e-7)->np.ndarray:3.defbox_iou(box1:torch.Tensor,box2:torch.Tensor,eps
YOLOv12_ultralytics-8.3.145部分代码阅读笔记-utils.py 红色的山茶花 YOLO 笔记深度学习
utils.pyultralytics\nn\modules\utils.py目录utils.py1.所需的库和模块2.def_get_clones(module,n):3.definverse_sigmoid(x,eps=1e-5):4.defmulti_scale_deformable_attn_pytorch(value:torch.Tensor,value_spatial_shapes:t
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-loss.py 红色的山茶花 YOLO 笔记深度学习
loss.pyultralytics\utils\loss.py目录loss.py1.所需的库和模块2.classVarifocalLoss(nn.Module):3.classFocalLoss(nn.Module):4.classDFLoss(nn.Module):5.classBboxLoss(nn.Module):6.classv8DetectionLoss:7.classE2EDetec
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-utils.py 红色的山茶花 YOLO 笔记深度学习
utils.pyultralytics\nn\modules\utils.py目录utils.py1.所需的库和模块2.def_get_clones(module,n):3.defbias_init_with_prob(prior_prob=0.01):4.deflinear_init(module):5.definverse_sigmoid(x,eps=1e-5):6.defmulti_scal
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-predict.py 红色的山茶花 YOLO 笔记深度学习
predict.pyultralytics\models\yolo\detect\predict.py目录predict.py1.所需的库和模块2.classDetectionPredictor(BasePredictor):1.所需的库和模块#UltralyticsAGPL-3.0License-https://ultralytics.com/licensefromultralytics.eng
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-torch_utils.py 红色的山茶花 YOLO 笔记深度学习
torch_utils.pyultralytics\utils\torch_utils.py目录torch_utils.py1.所需的库和模块2.defsmart_inference_mode():3.defautocast(enabled:bool,device:str="cuda"):4.deftime_sync():5.deffuse_conv_and_bn(conv,bn):6.deffu
2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
AI原生应用监控：实时领域偏见预警系统设计原理 Agentic AI人工智能与大数据 CSDN AI-native 人工智能 ai
AI原生应用监控：实时领域偏见预警系统设计原理关键词AI监控、算法偏见、实时预警、公平性AI、模型监控、偏见检测、AI治理摘要在人工智能驱动决策日益普及的今天，AI系统中的隐性偏见已成为影响公平性、可信度和业务连续性的关键风险。本文深入探讨了AI原生应用监控的核心挑战，重点剖析了实时领域偏见预警系统的设计原理与实现方法。通过将复杂的算法偏见比作"数字世界的隐形滤镜"，我们揭示了偏见如何在AI系统中
告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？ ezl1fe embedding 后端人工智能
Hi，大家好，我是ezl1fe。最近接手一个项目，要求在纯CPU服务器上部署Embedding模型服务。兄弟们都懂，GPU它香啊，但它也贵啊！很多时候，咱只能在有限的资源里想办法。一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？部署到一台8核16G的服务器上，精度是高，但性能也是真的“感人”，单个请求响应要
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
【机器学习】机器学习的基本分类-监督学习-线性回归（Linear Regression） IT古董人工智能机器学习机器学习分类学习人工智能线性回归
线性回归是监督学习中的一种基础算法，用于解决回归问题。它通过拟合一条直线（或平面、高维超平面），来预测输出与输入变量之间的关系。1.线性回归的基本概念目标给定输入和对应的输出y，找到一个线性函数：其中：是权重（回归系数）。b是偏置（截距）。y是预测值。损失函数为了找到最佳的w和b，需要最小化预测值和真实值
OpenKyLin开源操作系统——银河麒麟
openKylin操作系统是由openKylin社区主导开发的一款根社区桌面操作系统，适用于X86、ARM、RISC-V等主流架构的台式电脑、笔记本电脑、平板和嵌⼊式设备。在内核、基础库、应用软件等方面均采用领先的版本，是麒麟商业版本的技术上游，与商业版本路线一致、协同发展。同时，openKylin社区版还将融合各类创新技术应用，汇聚行业力量，共同推动Linux行业创新发展！版本特性openKyl
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

第二十五周：文献阅读笔记（swin transformer）

第二十五周：文献阅读笔记（swin transformer）

摘要

Abstract

1. swin transformer 文献笔记

1.1. 文献摘要

1.2. 引言

1.3. Swin Transformer原理

1.3.1. 整体架构

1.3.2. Patch Merging

1.3.3. VIT中的Patch Projection

1.3.4. 基于滑动窗口的自注意力

1. 非重叠窗口中的自注意力

2. 连续块中的移动窗口分区

3. 移动窗口所存在的问题

1.3.5. 小结

1.4 实验

你可能感兴趣的:(笔记,transformer,深度学习,人工智能,机器学习)