写进メ诗的结尾。

An Image is Worth 16×16 Words：Transformers for Image Recognition at Scale（ViT，ICLR2021）

ViT

摘要
引言
相关工作
方法
实验
结论

摘要

虽然Transformer架构已经成为自然语言处理任务的标准，但它在计算机视觉方面的应用仍然有限。在视觉领域，注意力机制要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，但其整体结构并没有改变。本文表明，这种对CNN的依赖是不必要的，直接应用于图像块序列的纯Transformer架构可以很好地执行图像分类任务。利用大规模数据集进行预训练，再迁移到中小型数据集上使用（ImageNet、CIFAR-100、VTAB等），Vision Transformer能获得与最先进的卷积网络相媲美的优异结果，而且训练所需的计算资源要少得多（这里的少指的是在TPUv3上只需训练2500天，非常人所能企及）。

引言

基于自注意力的架构，特别是Transformer，已成为自然语言处理（NLP）的首选模型。主要方法是在大型文本语料库上进行预训练，然后在较小的特定于任务的数据集上进行微调。由于Transformer的计算高效性和可扩展性，目前已经能够训练超过1000亿参数的模型。随着模型和数据集的增长，仍然没有看到性能饱和的迹象（很多时候，不是一味地扩大数据集或者扩大模型就能获得更好的效果。尤其是在扩大模型的时候，很容易出现过拟合问题。对于Transformer来说，目前还没有观测到这个瓶颈）。

在计算机视觉领域，卷积结构仍然占主导地位。受Transformer在NLP领域成功的启发，一些工作提出将CNN与自注意力混合使用（使用CNN提取到的特征图作为自注意力的输入），还有一些工作提出用自注意力把整个CNN结构替换掉（孤立自注意力：用整张图作为自注意力输入的话复杂度太高，孤立自注意力采用局部小窗口的方式来控制复杂度，有点类似于卷积网络中的滑动窗口；轴自注意力：把2d矩阵拆分成两个1d的向量，先在高度这个维度上做一个自注意力，再在宽度这个维度上做一个自注意力，大幅降低了计算复杂度）。孤立自注意力、轴自注意力等这类基于全注意力机制的模型虽然在理论上很高效，但事实上这些自注意力都是比较特殊的自注意力机制，没有在现在的硬件上做加速，就会导致很难去训练一个大模型。在大规模图像识别任务上，经典的ResNet结构仍然是最好的。

受Transformer在NLP领域可扩展性的启发，本文作者想利用一个标准的Transformer直接作用于图像，尽量做少的修改（就是不做任何针对视觉任务的特定改变）。为了实现这一目标，作者把一张图片划分成多个大小一样的patch（每一个patch的大小都是16×16，假如说一张图片的大小为224×224，经过划分之后，高度和宽度都变成了224/16=14，因此得到的序列长度就是14×14=196），并将这些patch送入一个FC层进行线性映射，得到一个linear embedding，而后作为Transformer的输入。对patch的处理方式与在NLP中处理单词的方式是一样的。作者用有监督的方式对该模型进行图像分类训练（在NLP领域，Transformer大多用无监督的方式进行训练）。

当在中型数据集（如ImageNet）上进行训练时，如果没有加比较强的正则化约束，ViT跟同等大小的残差网络相比，精度会低几个点。这个看起来不太好的结果其实是可以预期的，因为跟卷积神经网络相比，Transformer缺少一些CNN有的归纳偏置（归纳偏置指的就是一些先验知识或者提前做好的假设）。在CNN中，就有两个常说的归纳偏置，一个是locality（局部性），因为卷积网络是以滑动窗口这种形式在图片上进行卷积的，所以它假设图片上相邻的区域会有相邻的特征，这个假设很合理，靠的越近的东西相关性越强；另外一个是translation equivariance（平移等变性），即f(g(x))=g(f(x))，把f看作卷积，g看作平移，意思是无论先做卷积再做平移，还是先做平移再做卷积，其结果都是一样的。因为在CNN中，卷积核就相当于一个template，无论在图片上移到哪里，只要是同样的输入进来，输出永远都是不变的。CNN有了这两个归纳偏置，其实就有了很多先验信息，因此可以使用相对少的数据去学一个较好的模型。而对于Transformer来说，它没有这些先验信息，它对于视觉世界的感知全部需要从大量数据中去学。

为了验证归纳偏置这种说法的正确性，作者在更大的数据集上做了预训练（ImageNet-21k数据集，包含1400万张图像；JFT-300M数据集，包含3亿张图像），结果变得更好，发现大规模预训练比归纳偏置要好。ViT只要在足够多的数据上进行预训练，就能在下游任务上获得很好的迁移学习效果。具体而言，ViT在ImageNet-21k或JFT-300M数据集上进行预训练，就能在图像识别任务上获得跟现在最好的残差网络相近或者更好的结果。

方法

模型的整体结构如上图所示。先将图像划分成许多个16×16大小的patch，假设图像大小为224×224×3，那么一共可以划分 $224^2/16^2=196$ 个patch，每个patch的大小为16×16×3，有768维。每个patch展平后经过一个线性投射层（全连接层，有768×768维，前面这个768是patch的维度，后面这个768是设定的序列长度）得到一个D维（D=768）的特征向量（patch embedding），并给每个patch embedding加上一个位置编码（position embedding），patch embedding和position embedding是通过相加融合的，因此这个整体的token既包含了这个图像块原本有的图像信息，又包含了这个图像块所在位置信息。

196×768的矩阵与线性投射层（768×768）相乘，得到的还是196×768的矩阵，即表示196个768维度的patch embedding。196个patch中，每个patch都有一个768维的位置编码序列（position embedding），将其与patch embedding相加得到196个768维的token。此外，还有一个维度为768的extra learnable embedding，同样会加上一个位置编码，得到class token，这个class token跟其他196个token拼接在一起，最终得到197个768维的token。

模型借鉴了BERT的class token（extra learnable embedding），因为其他所有token都在两两做信息交互，所以作者相信这个class token能够从别的token里学到有用的信息，从而只需要根据它的输出做一个最后的判断即可。MLP Head就是一个通用的分类头，用交叉熵损失进行模型的训练（在预训练时使用含有一个隐藏层的MLP作为分类头，在微调时使用一个单线性层实现分类）。

Transformer Encoder这块的输入就是一个197×768的tensor，这个tensor会先经过一个Norm层，出来后还是197×768。而后进行多头自注意力操作，如果是单头自注意力，一分为三（k、q、v），每一个都是197×768。因为这里是多头自注意力，所以维度并不是768，假设在这里ViT用了12个头，那么一个头的维度就是768/12=64，即在一个头中，k、q、v都是197×64。最终将12个头的输出进行拼接，得到的依然是197×768。再经过一个Norm层，得到的还是197×768。而后再经过一个MLP，经过MLP的时候会把维度相应放大，一般放大4倍，即768×4=3072维，tensor就是197×3072，再经过一个线性投射层将维度映射回768维，最终输出的就是197×768。至此，一个Transformer Block的前向过程就走完了，输入为197×768，输出也是197×768。叠加L个Transformer Block就构成了Transformer Encoder。

在CNN中，locality（局部性）、two-dimensional neighborhood structure（二维窗口结构）、translation equivariance（平移等变性）几乎用于整个模型的每一层。相比于CNN，ViT具有少得多的归纳偏置，只有MLP中具有locality（局部性）和translation equivariance（平移等变性），而自注意力是全局的。在ViT模型之初将图像分割成块，以及在微调时调整不同分辨率图像的position embedding时，会涉及到two-dimensional neighborhood structure，其他时候关于patch的2d信息，patch之间所有的空间关系都需要从头开始学。

①将图像划分成196个patch，随后进行线性投射；②将图像送入CNN，提取到14×14的特征图，而后进行线性投射。这两种方式可以看作是不同的图像预处理操作，预处理之后的步骤是完全一样的。

之前有工作提到过，用比预训练具有更高分辨率的图像对特定任务进行微调，能得到更好的结果。然而对于Transformer来说，如果在微调时使用更高分辨率的图像，势必会导致更长的序列维度，那在预训练中已经训练好的position embedding就失去了意义。针对这一情况，作者提出使用简单的2d插值就可以解决，但如果分辨率相差太大，简单的2d插值可能会让结果掉点，因此2d插值只是一个临时方案。

实验

对于Class Token，作者做了消融实验。为了尽可能使用NLP中的Transformer结构，同样加上了这个class token，其作用就是作为整体的图像特征输出。得到class token的输出后，再接一个MLP，这个MLP中只有一个隐藏层（全连接层），并使用tanh作为非线性激活函数。

class token这个设计完全借鉴于NLP中的Transformer，在以往的视觉领域中，经过卷积神经网络提取到的最终特征图（假设大小为14×14），会做一个GAP（全局平均池化）操作，拉直之后就是一个向量，这个向量就可以理解成整体的图像特征，而后用这个向量去做分类。

对于Transformer来说，196×768（不包含class token）的输入，输出也为196×768，直接对这些输出做一个GAP是否可行呢？答案是可行的。也就是说使用class token和使用GAP这两种方式都是可以的，ViT所有实验都用了class token，主要是为了跟原始的Transformer保持一致。

对于位置编码，作者也做了消融实验。分别使用no positional information、1d positional embedding、2d positional embedding和relative positional embedding四种情况进行实验，结果如下表所示。有位置编码的情况要比没有位置编码更好，位置编码的实现方式对于结果的影响不大，效果都差不多。作者推测之所以会出现这种情况，是因为Transformer Encoder的输入为patch级别，而不是像素级别，patch级别的输入维度要比像素级别的小得多，而且学习表示该分辨率中的空间关系也比较容易，因此如何编码空间信息的差异就不那么重要了。

本文评估了ResNet、ViT和混合模型的表征学习能力，为了了解每个模型的数据需求，对不同大小的数据集进行了预训练。当考虑预训练的计算代价（即训练时间）时，ViT表现的非常好。

ViT有如下几种变体，当分割成的patch的尺寸更小时，模型的计算代价会更大，因为序列长度增加了。

ViT模型与主流分类基准的性能对比如下：

ViT在中小型数据集上做预训练时得到的结果远不如CNN（ResNet-152），因为没有用那些先验知识，没有用那些归纳偏置，因此ViT需要更大规模的数据去让网络学的更好。随着预训练的数据量增加，ViT的效果也是越来越好。如果想在数据集上进行预训练，而数据集又比ImageNet-21k小，那选择CNN得到的结果会更好；如果数据集比ImageNet-21k还要大，那可以使用ViT获得更好的结果。

ViT为了与ResNet进行比较，加了一些强约束，比如dropout、weight decay、label smoothing，因此不太好分析ViT本身的一些特性。因而作者拿到预训练模型后，直接把它当一个特征提取器，以进行消融实验。预训练的数据量不够时，ViT完全比不过ResNet，随着数据量的增加，ViT的性能也是越来越好。

从下面的图中可以看到，在相同的计算代价下，ViT基本要比ResNet表现更好，即证明了ViT的计算代价比CNN小。另外，当模型规模较小时，混合模型比ViT和ResNet都要好；但当模型规模变大后，ViT逐渐占据上风。

下图左展示了线性投射层是如何embed RGB value的，其实ViT学到的跟CNN也很像，都带有一些颜色、纹理等，因此作者认为这些成分可以作为描述图像块底层结构的基函数。下图中通过相似性计算显示了position embedding的工作，可以看到每个patch的位置编码与自己的相似性是最高的，与周围的相似性也相对较高，离得越远相似性越低，表明它确实学到了距离这个概念；同时还能看到它也学到了行和列的规则，同一行同一列表现出了更高的相似性，也就意味着它虽然是一个一维的位置编码，但它已经学到了二维图像的距离的概念，这也可以解释为何2d的位置编码并没有比1d的效果更好，因为1d的位置编码已经够用了。下图右展示了自注意力的作用，刚开始时有的自注意力头只能看到附近的东西，有的自注意力头能看到很远的东西，这就说明自注意力在网络刚开始的时候就已经能注意到全局上的信息了，而不像CNN刚开始的时候感受野非常小，只能看到附近的一些pixels。随着网络越来越深，模型学到的特征也越来越高水平，即具有更多的语义信息。到了网络后半部分，自注意力的距离都非常远了，即都能看到很远的东西，也就意味着它已经学到了带有语义性的概念，而不是靠临近的像素点去进行判断。

结论

本文探索了Transformer在图像识别中的应用（使用NLP领域中的Transformer来处理计算机视觉问题）。与以往的在计算机视觉领域中用到的自注意力工作不同，除了最初的获取patch步骤以及位置编码用了一些图像的归纳偏置外，没有再引入任何特定于图像的归纳偏置（这么做的好处就是不需要对Vision领域有什么了解，可以直接把图片理解成为一个序列的图像块，就像一个句子有很多个单词一样，然后就能够利用NLP里面标准的Transformer来做图像分类了）。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
2019-01-19 王小康KK
姓名:王康公司:扬州市方圆建筑工程有限公司2018年3月16日～3月18日上海361期《六项精进》感谢二组学员【日精进打卡第307天】【知～学习】《六项精进》大纲3遍共862遍《大学》通篇3遍共860遍《六项精进》全书40页【经典名句】思想决定行为，行为决定习惯，习惯决定性格，性格决定命运。【行～实践】一、修身：（对自己个人）1、践行六项精进的理念。二、齐家：（对家庭和家人）1、和女朋友视频聊天。
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
现代汉语粗糙版文学史与经典学习搬运工
第十六章文学史与经典文学史的兴起在西方,虽然从亚里士多德开始,在人类的著述中已经可以找到文学史概念与写作方式的萌芽,但是,人们一般认为17世纪后期到18世纪是现代文学史写作真正开始的时期。长达百年波及整个欧洲的“古今之争”孕育出文学研究的历史意识,现代意义上的文学史观念在这场影响深远的论争中初见端倪。从18世纪晚期到19世纪初,由于席勒、弗·施莱格尔和赫尔德等人的介入,文学史研究逐渐变得复杂和成熟
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
2019-03-24 李飞720
姓名：李飞企业名称：临沂鑫道食品有限公司组别373期利他1组日精进打卡第338天】【知~学习】1、阿米巴经营一段2、活用人才1段3、活法、一段【行~实践】一、修身：读书、抽烟减量、俯卧撑个跑步3公里二、齐家、劝说老爸与姑姑和好三、建功、业务洽谈【经典名句分享】1、依据原理原则追求事物的本质，以“作为人，何谓正确”进行判断2、经营者必须为员工物质和精神两方面的幸福殚精竭虑，倾尽全力，必须超脱私心，让
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
2019-04-10 shuaigefeng
姓名：王林锋企业名称：三亚蔚蓝时代实业有限公司组别：420期努力6组【日精进打卡251天】【知~学习、诵读】《六项精进》2遍，累计256遍《大学》2遍，累计220遍【经典分享】1、想过成功、想过失败、也想过放弃。【行~实践】一、修身：（对自己个人）1.拍打腿部两侧50下，舌顶上颚50下。2.坚持诵读、阅读。3.坚持锻炼、按时睡觉起床。4.控制健康饮食，饭后走动30分钟。5.每天反省自己的思想和行为
妖孽宫廷（四）安好是佳
1.“纸糊三阁老，泥塑六尚书”与商辂堂堂文官言官，数年苦读儒家经典，应该是皇帝的智囊团，但是在这个时期的明朝政坛下居然是这样的评价，成为皇帝的后腿子团，成为国家发展的智障团，可见其背后有很强的推动力，让言官们躲避刚正不阿，做出祸国殃民的举措。我想，这个推动力应该是首先保住性命，而后同流而强取豪夺他人财物。在监派出头的环境下，尤其在监派强大的特务机构和惩罚机构，让那些发现问题的言官们不敢言。这可是脑
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【新教育-教师随笔】读《做最好的英语老师》有感 164c5aca7b79
伊川县直中学王素平《做最好的英语老师》这本书是作者这些年在他教学中得与失的总结。里面给我们提供了听力，单词，句子，阅读，作文等模块的教学方法，让我受益匪浅，现总结如下：一.语文教学给了我们什么启示？（1）：现有的英语教材内容简单，枯燥，与学生的心智发展水平严重脱节。我们要给学生补中一些贴近学生生活，能感动和影响他们的经典作品。让学生学习知识的同时，有所感悟和思考，同时享受审美的乐趣！如AWiseO
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
内经简介（上）骆长珊
哈喽大家好我是骆长珊今天是2017年1月9日，今天是我每天一篇文章的第四十八篇。最近在重温《黄帝内经》，我在不断记颂原文的过程也不断的找相关资料来看。最终目的，以教为学，写出自己知道的，提神自己的觉悟。黄帝内经》是我国传统医学四大经典著作之一（《黄帝内经》、《伤寒论》、《金匮要略》、《温病条辨》），也是第一部冠以中华民族先祖“黄帝”之名的传世巨著，是我国医学宝库中现存成书最早的一部医学典籍。在理论
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

An Image is Worth 16×16 Words：Transformers for Image Recognition at Scale（ViT，ICLR2021）

ViT

摘要

引言

相关工作

方法

实验

结论

你可能感兴趣的:(经典网络框架,深度学习,人工智能,神经网络,计算机视觉,transformer)