Frankenstein@

Transformer论文阅读：ViT算法笔记

标题：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
会议：ICLR2021
论文地址：https://openreview.net/forum?id=YicbFdNTTy

文章目录

Abstract
1 Introduction
2 Related Work
3 Method
- 3.1 Vision Transformer
- 3.2 Fine-Tuning and Higher Resolution
4 Experiments
- 4.1 Setup
- 4.2 Comparison to State of the Art
- 4.3 Pre-Training Data Requirements
- 4.4 Scaling Study
- 4.5 Inspecting Vision Transformer
- 4.6 Self-Supervision
5 Conclusion

Abstract

虽然Transformer结构已经成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件同时保持它们的整体结构。我们表明，这种对CNN的依赖不是必要的，直接用于图像块序列的纯Transformer可以在图像分类任务中表现得很好。当在大量数据上进行预训练，再迁移到多个中小型图像识别基准（ImageNet、CIFAR- 00、VTAB等）时，视觉变换器（Vision Transformer，ViT）与SOTA的卷积网络相比取得了优异的结果，并且需要的训练计算资源更少。

1 Introduction

基于自注意力机制的结构，尤其是Transformers，已经成为自然语言处理（NLP）的首选模型。主流的方法是在大型文本语料库上进行预训练，然后在较小的特定任务数据集上进行微调。得益于Transformers的计算效率和可扩展性，训练参数超过100B的规模空前的模型已经成为可能。随着模型和数据集的增长，目前仍然没有性能饱和的迹象。
然而，在计算机视觉中，卷积结构仍然占据主导地位。受NLP成功的启发，许多工作尝试将CNN结构与自注意力相结合，其中有些完全取代了卷积。后者模型虽然在理论上是有效的，但由于使用了专门的注意力模式，在现代硬件加速器上还没能有效地推广。因此，在大规模图像识别中，经典的ResNet式结构仍然是SOTA的。
受NLP中Transformer大规模成功的启发，我们以尽可能少的改动，直接将标准的Transformer用在图片上进行实验。为此，我们将图像拆分为小块（patch），并提供这些patch的线性嵌入序列作为Transformer的输入。图片块像NLP程序里一样被当作tokens（words）。我们以监督的方式训练图像分类模型。
当在中等大小的数据集（如ImageNet）上进行训练时，如果没有强大的正则化，这些模型的精度会比同等大小的ResNets低几个百分点。这种看似令人沮丧的结果可能是意料之中的：Transformers缺少CNN固有的一些归纳偏差，如平移等变性和局部性，因此在训练数据量不足时不能很好地泛化。
然而，如果在更大的数据集（14M~300M张图像）上训练模型，情况会发生变化。我们发现大规模训练要比归纳偏差更重要。我们的视觉变换器（Vision Transformer，ViT）在足够大规模的预训练后，再迁移到数据点较少的任务时取得了优异的效果。当在公开的ImageNet-21k数据集或内部的JFT-300M数据集上预训练后，ViT在多个图像识别基准上接近或超过了当前的SOTA。

2 Related Work

Transformers由Vaswani等人提出用于机器翻译，此后成为许多NLP任务中SOTA的方法。基于大型Transformer的模型往往在大型语料库上进行预训练，然后针对手头的任务进行微调：BERT使用一个去噪自监督预训练任务，而GPT系列使用语言建模作为其预训练任务。
自注意力在图像上的简单应用需要每个像素关注所有其它像素。由于像素数平方级的代价，这并不能扩展到实际的输入尺寸。因此，为了将Transformers用于图像处理的环境，过去已经尝试了几种近似方法。Parmar等人对每个查询像素只在局部而不是全局邻域使用自注意力。这样的局部多头点积自注意力块可以完全替代卷积。在不同的工作方向中，Sparse Transformers采用可扩展的全局自注意力近似以便适用于图像。改变注意力的另一种方法是将其用于不同大小的块，在极端情况下只沿单个坐标轴。很多这些特殊的注意力结构在计算机视觉任务上展示出有前景的结果，但需要复杂的工程才能在硬件加速器上有效地实现。
与我们最相关的是Cordonnier等人的模型，该模型从输入图像中提取大小为2×2的patch，并在顶部使用完全自注意力。该模型与ViT非常相似，但我们的工作进一步证明了大规模预训练使得原始的Transformers与SOTA的CNN具有竞争力（甚至更好）。此外，Cordonnier等人使用2×2像素的小块尺寸，这使得模型只适用于小分辨率的图像，而我们也处理中等分辨率的图像。
卷积神经网络（CNNs）与自注意力的结合也引起了广泛的兴趣，例如通过增强特征图进行图像分类，或者通过自注意力进一步处理CNN的输出，如用于目标检测、视频处理、图像分类、无监督目标发现或统一的文本视觉任务。
最近另一个相关的模型是图像GPT（iGPT），它在减少图像分辨率和颜色空间后，将Transformers用于图像像素。该模型以无监督的方式作为生成模型进行训练，然后可以对生成的表示进行微调或线性搜索，以提高分类性能，在ImageNet上达到72%的最高精度。
我们的工作增加了在比标准ImageNet数据集更大规模上探索图像识别的论文集。使用额外的数据源可以在标准基准上取得SOTA的结果。此外，Sun等人研究了CNN性能如何随数据集大小变化；Kolesnikov等人和Djolonga等人在ImageNet-21k和JFT-300M等大规模数据集上进行CNN迁移学习的实证研究。我们也关注后两个数据集，但训练的是Transformers而不是之前工作中使用的基于ResNet的模型。

3 Method

在模型设计中，我们尽可能地遵循原始的Transformer。这种故意简单设置的一个优点是，可扩展的NLP Transformer结构——以及它们的高效实现——几乎可以开箱即用。

3.1 Vision Transformer

模型的概述如图1所示。标准的Transformer接收一个1维的token嵌入序列作为输入。为了处理2维图像，我们将图像 $\mathrm x\in\mathbb R^{H×W×C}$ 重构为一系列展平的2维图像块 $\mathrm x_p\in\mathbb R^{N×(P^2·C)}$ ，其中， $(H, W)$ 是原始图像的分辨率， $(P, P)$ 是每个图像块的分辨率， $N=HW/P^2$ 是产生的图像块数，它也是Transformer的有效输入序列长度。Transformer在其所有层中使用恒定的隐藏向量大小 $D$ ，因此我们将图像块展平，并使用可训练的线性投影来将其映射到 $D$ 维（公式1）。我们将此投影的输出称为块嵌入（patch embeddings）。
与BERT的[class] token类似，我们在嵌入块（ $\mathrm z_0^0=\mathrm x_{\mathrm{class}}$ ）的序列上预置一个可学习的嵌入，其在Transformer编码器输出处的状态（ $\mathrm z_L^0$ ）作为图像表示 $\mathrm y$ （公式4）。在预训练和微调期间，一个分类头被附加到 $\mathrm z_L^0$ 。分类头由一个MLP实现，在预训练时有一个隐藏层，在微调时有一个线性层。
位置嵌入（position embeddings）被添加到块嵌入（patch embeddings）以保留位置信息。我们使用标准的可学习的1维位置嵌入，因为我们没有观察到使用更先进的2维感知位置嵌入带来的显著性能增益（附录D.3）。得到的嵌入向量序列作为编码器的输入。
Transformer编码器由交替的多头自注意力（multiheaded self-attention，MSA，见附录A）和MLP块(公式2和3)层组成。Layernorm（LN）用于每个块之前，残差连接用于每个块之后。
MLP包含两个具有GELU非线性的层。
$\begin{align} \mathrm z_0&=[\mathrm x_{\mathrm{class}};~\mathrm x_p^1\bold E;~\mathrm x_p^2\bold E;~···;~\mathrm x_p^N\bold E]+\bold E_{pos},&\bold E&\in\mathbb R^{(P^2·C)×D},\bold E_{pos}\in\mathbb R^{(N+1)×D}&\\ \mathrm {z^\prime}_\ell&=\mathrm{MSA}(\mathrm{LN}(\mathrm z_{\ell-1}))+\mathrm z_{\ell-1},&\ell&=1...L&\\ \mathrm z_\ell&=\mathrm{MLP}(\mathrm{LN}(\mathrm {z^\prime}_\ell))+\mathrm {z^\prime}_\ell,&\ell&=1...L&\\ \mathrm y&=\mathrm{LN}(\mathrm z_L^0) \end{align}$ 归纳偏置。 我们注意到Vision Transformer比CNN具有的特定于图像的归纳偏置更少。在CNN中，局部性、2维邻域结构和平移不变性贯穿于整个模型的每一层。在ViT中，只有MLP层是局部和平移不变的，而自注意力层是全局的。2维邻域结构使用得非常少：仅在模型最开始裁剪图像块时和微调阶段针对不同分辨率图像调整位置嵌入（position embedding）有用到。除此之外，位置嵌入在初始化时没有任何关于块的2维位置信息，块之间的所有空间关系都必须从头开始学习。
混合结构。 作为原始图像块的替代，输入序列可以从CNN的特征图中形成。在这个混合模型中，块嵌入（patch embedding）投影 $\mathrm E$ （公式1）被用于从CNN特征图中提取的块。在极端情况下，块的空间尺寸可以是1×1，这意味着输入序列是通过简单地将特征图的空间维度展平并投影到Transformer维度得到的。分类输入嵌入和位置嵌入按照上述方式加入。

3.2 Fine-Tuning and Higher Resolution

通常，我们在大型数据集上预训练ViT，然后微调到（更小的）下游任务。为此，我们去掉预训练的预测头，增加一个零初始化的 $D \times K$ 的前馈层，其中 $K$ 为下游任务预测的类别数量。通常使用比预训练更高分辨率的图像微调是有益的。当输入更高分辨率的图像时，我们保持块的尺寸不变，这将导致更大的有效序列长度。Vision Transformer可以处理任意的序列长度（直至内存限制），但是预训练的位置嵌入可能不再有意义。因此，我们对预训练的位置嵌入进行2维插值，根据它们在原始图像中的位置。值得注意的是，这种分辨率调整和块提取是关于图像2维结构的归纳偏置被手动添加到Vision Transformer的唯一一处。

4 Experiments

我们评估了ResNet、ViT和混合模型的表示学习能力。为了了解每个模型的数据需求，我们在不同大小的数据集上进行预训练，并在许多基准任务上进行了评估。当考虑预训练模型的计算成本时，ViT表现非常出色，以更低的预训练成本在大多数识别基准上达到了SOTA。最后，我们进行了一个使用自监督的小实验，并表明自监督的ViT在未来是有前景的。

4.1 Setup

数据集。 介绍了实验所用的数据集。
模型变体。 我们在BERT所使用的模型结构基础上确定ViT的配置，如表1所示。“Base”和“Large”模型是直接取自BERT，“Huge”是我们增加的更大的模型。下面我们使用简短的符号表示模型大小和输入块尺寸：例如，ViT-L/16表示输入块尺寸为16×16的“Large”模型变体。注意，Transformer的序列长度与块尺寸的平方成反比，因此块尺寸更小的模型在计算上更加高昂。

对于CNN基线，我们使用ResNet，但将Batch Normalization层替换为Group Normalization层，并使用标准化卷积。这些改动可以提升迁移的性能，我们用“ResNet(BiT)”表示修改后的模型。对于混合模型，我们将中间层的特征图送给ViT，块尺寸为1个像素。为了实验不同长度的序列，我们要么①使用常规ResNet50中stage4的输出，要么②移除stage4，在stage3中放置相同的层数（保持总层数不变），然后取这个扩展的stage3的输出。选项②会导致4倍长的序列长度，对应的ViT模型计算开销更大。
训练&微调。 介绍了训练和微调的实现细节。
评价指标。 我们报告了下游数据集少样本和微调的准确率结果。微调准确率体现的是每个模型在对应数据集上微调后的性能。小样本准确率是通过求解一个将训练图像子集的（冻结）表示映射到 ${-1,1\}^K$ 个目标向量的正则化最小二乘回归问题得到。这个公式使得我们能够以闭环的方式获取精确解。尽管我们主要关注微调性能，但当有时候微调成本太高时，我们会使用线性少样本准确率来进行快速的在线评估。

4.2 Comparison to State of the Art

和SOTA的对比实验，具体的实验结论可以参照原文。

4.3 Pre-Training Data Requirements

在大型的JFT-300M数据集上预训练时，Vision Transformer表现较好。相比ResNets，ViT使用的视觉归纳偏置更少，那么数据集大小是关键吗？对此我们进行了两组实验。
首先，我们在越来越大的数据集上预训练ViT模型：ImageNet、ImageNet-21k和JFT300M。为了提高在较小数据集上的性能，我们优化了三个基本的正则化参数——权重衰减、Dropout和标签平滑。图3显示了在ImageNet上微调后的结果（其它数据集上的结果如表5所示）（注意，ImageNet预训练模型也进行了微调，但仍在ImageNet上进行。这是因为微调过程中分辨率的提高改善了性能）。当在最小的ImageNet数据集上进行预训练时，尽管进行了（普通的）正则化，但ViT-Large模型性能仍不如ViT-Base。当在ImageNet-21k上预训练时，两个模型的性能接近。只有当使用JFT-300M数据集预训练时，我们才能看到更大模型的全部优势。图3还展现了不同大小的BiT模型的性能：BiT CNNs在ImageNet上的表现优于ViT，但在更大的数据集上，ViT超过了BiT。

然后，我们在9M、30M和90M的随机子集以及完整的JFT300M数据集上训练我们的模型。我们不对较小的子集执行额外的正则化，并在所有设置中使用相同的超参数。这样，我们评估的是内在的模型性质，而不是正则化的效果。然而，我们使用了早停，并报告了在训练过程中达到的最佳验证精度。为了节省计算量，我们报告了少样本线性精度，而不是完全微调精度。结果如图4所示。结果强化了一个直觉，即卷积归纳偏差对于较小的数据集是有用的，但对于较大的数据集，直接从数据中学习相关模式是足够的，甚至是有益的。具体的实验结论可以参照原文。
总体而言，ImageNet上的少样本结果（图4），以及VTAB上的低数据结果（表2）看起来有望实现非常低数据的迁移。进一步分析ViT的少样本特性是未来工作的一个令人激动的方向。

4.4 Scaling Study

我们通过评估JFT-300M的迁移性能，对不同模型进行了控制扩展研究。在这种设定下，数据集大小不是模型的性能瓶颈，我们评估每个模型性能和预训练开销的关系。具体的实验设置可以参照原文。

图5包含了迁移性能与总预训练计算，每个模型的详细结果见表6。可以观察到一些模式。首先，Vision Transformers在性能/计算权衡上与ResNets相比占绝对优势。ViT使用大约2-4倍更少的计算量来达到相同的性能（平均超过5个数据集）。其次，在较小的计算预算下，混合模型略优于ViT，但对于较大的模型，这种差异消失了。这个结果有点令人惊讶，因为我们可能期望通过局部卷积特征处理来辅助任意尺寸的ViT。第三，Vision Transformer在尝试范围内未出现性能饱和的现象，刺激未来的扩展努力。

4.5 Inspecting Vision Transformer

为了开始理解Vision Transformer如何处理图像数据，我们分析了它的内部表示。Vision Transformer的第一层将展平的块线性投影到一个较低纬度的空间（公式1）。图7左显示了学习得到的嵌入滤波器的顶端主要组成。这些组成类似于可靠的基函数，用于低维表示每个块内的精细结构。

在投影之后，一个学习到的位置嵌入被添加到块表示中。图7中表明模型将图像中的距离使用位置嵌入相似性进行编码，即距离更近的块倾向于具有更相似的位置嵌入。而且，出现了row-column结构，同一行/列的块有相似的位置嵌入。最后，在较大的网格中有时会出现明显的正弦结构。位置嵌入可以学习到表示2维图像的拓扑结构，这解释了为什么手工设计的2维感知嵌入变体没有带来改进。
自监督使得ViT即使是在最底层也能整合整张图像的信息。我们对网络自监督能力的使用程度进行了研究。具体来说，我们根据注意力权重计算图像空间中信息整合的平均距离（图7右）。这个“注意力距离”和CNN中的感受野大小相似。我们发现，有些头在网络最底层就已经注意到了图像的绝大部分区域，表明模型的确使用了全局信息整合的能力。其它的注意力头在低层具有一致的小注意力距离。这种高度局部化的注意力在Transformer之前使用ResNet的混合模型中不太明显（图7右），这表明它可能与CNN中的前几个卷积层具有类似的功能。而且，注意力距离随着网络深度的增加而增加。从全局来看，我们发现模型关注的是与分类语义相关的图像区域（图6）。

4.6 Self-Supervision

Transformer在NLP任务上表现出令人印象深刻的性能。然而，它们的成功很大程度上不仅源于其出色的可扩展性，还源于大规模的自监督预训练。我们还模仿BERT中使用的masked language modeling任务，对自监督的masked patch prediction做了初步探索。在自监督预训练的情况下，我们较小的ViT-B/16模型在ImageNet上达到了79.9%的准确率，相比从头训练提升了2%，但仍然落后于有监督预训练4%。

5 Conclusion

我们探索了Transformers在图像识别中的直接应用。与以前在计算机视觉中使用自注意力的工作不同，除了最初的块提取步骤外，我们没有将特定于图像的归纳偏置引入到结构中。取而代之的是，我们将一幅图像理解为一系列的图像块，并通过NLP中使用的标准Transformer编码器进行处理。这种简单但可扩展的策略在与大型数据集上的预训练相结合时效果出奇地好。因此，在许多图像分类数据集上，Vision Transformer匹配或超过了SOTA，同时相对便宜的预训练。
虽然这些初步成果令人鼓舞，但仍存在许多挑战。一种是将ViT应用于其它计算机视觉任务，如检测和分割。我们的结果，加上Carion等人的结果，表明了这种方法的前景。另一个挑战是继续探索自监督预训练方法。我们的初步实验表明自监督预训练有所改进，但自监督预训练与大规模监督预训练之间仍有较大差距。最后，ViT的进一步扩展可能会导致性能的提高。

【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
前沿技术推动机器人的智能化升级 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据机器人 ai
前沿技术推动机器人的智能化升级关键词：机器人智能化、人工智能、机器学习、计算机视觉、自主导航、人机交互、边缘计算摘要：本文深入探讨了前沿技术如何推动机器人从传统自动化向智能化升级的演进过程。文章首先分析了机器人技术发展的历史脉络和当前挑战，然后详细阐述了人工智能、机器学习、计算机视觉等关键技术如何赋能机器人智能化。通过算法原理分析、数学模型构建和实际项目案例，展示了智能机器人的核心技术实现路径。最
linux深度学习问题汇总不想改代码备忘录 linux python 深度学习 pytorch 人工智能 1024程序员节
目录一、异常问题1.segementationfault(coredump)2.Illegalinstruction(coredumped)3.死锁4.掉卡二、通用方法1.查看重启记录2.系统性能监控3.后台执行命令4.异常日志三、深度学习技术1.普通网络改DDP训练，单机多卡，pytorch四、专业内容方法1.微调diffusion类模型本文记录一些在使用linux服务器进行深度学习时遇到的问题
【AI】AI大模型发展史：从理论探索到技术爆发不想当程序汪的第N天 AI 人工智能
一、早期探索阶段—理论与技术奠基1.1符号主义与连接主义的博弈20世纪50-70年代，符号主义AI主导研究方向，通过专家系统模拟人类逻辑推理，但受限于计算能力和数据规模。80年代连接主义AI兴起，以神经网络为核心，反向传播算法的提出为深度学习奠定基础。1.2神经网络初步实践1980年：卷积神经网络（CNN）雏形诞生1998年：LeNet-5模型成功应用于手写数字识别，成为首个商用深度学习模型关键局
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
使用 C++ 和 OpenCV 构建驾驶员疲劳检测软件 whoarethenext c++opencv 开发语言
使用C++和OpenCV构建驾驶员疲劳检测软件重要声明：本文所描述的软件是一个概念验证的原型，绝对不能用作现实世界中的安全系统。真正的车载安全系统需要经过大量的测试、具备冗余设计并通过专业认证，以确保其绝对可靠。驾驶疲劳是全球范围内引发交通事故的主要原因之一。当驾驶员感到困倦时，他们的反应时间会变慢，决策能力会下降，而在方向盘后睡着的风险则会急剧增加。为了解决这一关键问题，计算机视觉技术提供了一个
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
2025年中总结 Just Jump 人生经历思考反思认知方法 2025年中总结
2025年中总结。一如往年惯例，总结近半年工作中的体悟和经验。一、把大而难的事拆解成小而具体的小目标。专注解决小目标，每周迭代交付，先完成再完善。1.1把大任务拆解成具体可执行的小目标2025年5月起我开始做大模型相关的技术调研、技术升级和开发工作。传统的机器学习、深度学习算法和大模型的算法在技术知识上还是有很大的差异的。想要快速转型使用大模型做开发、训练，是需要些时间和精力投入的，这并不是一个简
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
2-感知机学习算法罗东琦统计学习笔记
感知机模型感知机学习策略学习算法算法收敛性对偶形式与线性SVM的异同感知机（perceptron）是一个线性二分类模型，其目的是寻找一个超平面将正负示例划分开，属于判别模型，也是神经网络与SVM的基础。感知机模型假设输入空间为χ⊆Rnχ⊆Rn，输出空间为Υ⊆{+1,−1}Υ⊆{+1,−1}。输入x∈χx∈χ表示实例的特征向量，输出y∈Υy∈Υ表示实例的类别。则下面的函数f(x)=sign(w⋅x+
【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示 Wwwilling 推荐系统论文阅读 Transformer系列论文 transformer 聚类多模态
文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解1.背景介绍1.1大模型开发的意义1.2卷积神经网络在大模型中的应用1.3PyTorch框架简介2.核心概念与联系2.1卷积的数学定义2.2卷积神经网络的组成2.2.1卷积层2.2.2池化层2.2.3全连接层2.3卷积与大模型的关系3.核心算法原理具体操作步骤3.1卷积的前向传播3.2卷积的反向传播3.3卷积的优化策略3.3.1卷积核大小
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
PyTorch 中 nn.Linear() 参数详解与实战解析（gpt）草莓奶忻深度学习 pytorch gpt 人工智能
PyTorch中nn.Linear()参数详解与实战解析在使用PyTorch构建神经网络时，nn.Linear()是最常用也最基础的模块之一。它用于实现一个全连接层（FullyConnectedLayer），本质上就是对输入进行一次线性变换：y=xAT+by=xA^T+by=xAT+b本文将详细介绍nn.Linear()的参数含义、属性说明、初始化机制，并结合实际代码案例帮助你真正理解它的工作原理
告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？ ezl1fe embedding 后端人工智能
Hi，大家好，我是ezl1fe。最近接手一个项目，要求在纯CPU服务器上部署Embedding模型服务。兄弟们都懂，GPU它香啊，但它也贵啊！很多时候，咱只能在有限的资源里想办法。一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？部署到一台8核16G的服务器上，精度是高，但性能也是真的“感人”，单个请求响应要
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
门控循环单元（GRU）：LSTM 的轻量级高效 “记忆专家” LNL13 gru lstm 机器学习
在探索完长短期记忆网络（LSTM）的神奇“记忆魔法”后，我们迎来了它的“近亲”——门控循环单元（GatedRecurrentUnit，简称GRU）。GRU就像是神经网络领域里的“精简版记忆大师”，它继承了LSTM处理长序列数据的优势，同时以更简洁的结构和更高的训练效率脱颖而出。今天，就让我们一同走进GRU的世界，看看它是如何在保留核心功能的同时实现“轻装上阵”的。一、GRU的诞生：简化与优化的智慧
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
当前最好的0样本文本转语音是哪个模型？ skywalk8163 多媒体人工智能人工智能 MegaTTS3
综合排名前三模型‌MegaTTS3（字节跳动&浙江大学）‌‌核心优势‌：仅需‌3-10秒‌参考音频即可精准克隆音色，支持中英混合语音自然切换1112轻量化设计（0.45B参数），实时生成延迟低于400ms11采用‌DiffusionTransformer+WaveVAE‌架构，在韵律自然度榜单SpeechArena排名第一11‌开源地址‌：GitHub官方仓库（免费商用）‌MiniMaxSpeec
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据郎郎不会飞深度学习目标识别 python 深度学习
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据数据集准备数据集预处理原demo修改数据集训练目标检测补充二零二零年的大年初一，给大家拜个年，祝大家鼠年吉祥，万事如意，趁着喜气，把Yolov3训练自己的数据过程，记录一下，共勉共进。同样，无人机搭载山狗拍摄的视频，目标检测的种类是模型tank和airplane，部分效果图镇贴：数据集准备首先需要将自己的数据集准备好，不同场景下的目标数据尽
【EI会议征稿】2025年第四届计算机视觉与模式分析国际学术大会（ICCPA 2025）
重要信息2025年5月16-18日|中国·鞍山大会官网：www.iccpa.org会议主页：2025年第五届计算机视觉与模式分析国际学术大会（ICCPA2025）_艾思科蓝_学术一站式服务平台接收/拒稿通知：投稿后1周内收录检索：EICompendex，Scopus主办单位辽宁科技大学往届历史ICCPA前四届均已成功举办，并完成EI、Scopus检索（高录用，稳定检索）
MCP模型上下文协议：AI人工智能模型训练的自动化调参 AI天才研究院 AI人工智能与大数据人工智能自动化运维 ai
MCP模型上下文协议：AI人工智能模型训练的自动化调参关键词：MCP模型、自动化调参、AI训练、超参数优化、上下文协议、机器学习、深度学习摘要：本文深入探讨MCP模型上下文协议在AI模型训练自动化调参中的应用。MCP(ModelContextProtocol)是一种创新的自动化调参框架，通过上下文感知和动态参数调整机制，显著提升模型训练效率和性能。文章将从理论基础、算法实现、数学原理到实际应用进行
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。