ViT

基于pytorch的Swin Transformer用于cifar10分类

在上篇文章基于pytorch的VisionTransformer用于cifar10分类中我们了解VIT在视觉分类中的应用，在本篇文章中将介绍另一种transformer模型-SwinTransformer

厚衣服_3·2025-04-10 14:50

ViT（Vision Transformer） VS CLIP

一、核心概念1.ViT（VisionTransformer）概念：ViT是基于Transformer架构的图像处理模型，将图像分割为固定大小的“patch”（图像块），类似文本处理中的token，通过自注意力机制捕捉全局特征

charles666666·2025-04-08 09:28

AI多模态模型架构之LLM主干(1)：ChatGLM系列

常见的编码器包括图像的NFNet-F6、ViT、CLIPViT等，音频的W

AIGCmagic社区·2025-04-07 18:53

PyTorch 实现图像版多头注意力（Multi-Head Attention）和自注意力（Self-Attention）

本文提供一个适用于图像输入的多头注意力机制（Multi-HeadAttention）PyTorch实现，适用于ViT、MAE等视觉Transformer中的注意力计算。

AIGC_增益·2025-04-07 17:46

国产图生视频模型技术发展与应用全景

国产图生视频模型技术发展与应用全景一、技术发展历程（一）早期探索阶段（2022-2023）基础架构突破2022年9月，生数科技提出U-ViT架构，实现全球首个Diffusion与Transformer融合方案

Liudef06小白·2025-04-04 16:50

视觉Transformer架构的前沿优化技术与高效部署

然而，视觉Transformer（VisionTransformer,ViT）在计算效率和内存消耗方面面临巨大挑战，尤其是在处理高分辨率图像时。为了应对这些挑

点我头像干啥·2025-03-28 11:00

开源图生视频模型技术全景解析

U-ViT3.0架构引入分层式时空注意力模块，支持4096×2160超清视频生成。阿里Wan2.1通过图像-视频联合训练策略，构建双塔结构分别处理静态特征提取与动态序列生成。

Liudef06·2025-03-26 05:45

具身系列——NLP工程师切入机器人和具身智能方向

职位高频词汇：VLM调优经验、核心算法（Diffusion、RL、VIT）、pytorch、仿真环境（IsaacGym、Mujoco、webots）基于当前具身智能行业发展趋势和岗位需求，以下是为NLP

music&movie·2025-03-25 21:47

uniapp工程中解析markdown文件

npminstallmarkedhighlight.jsvite-plugin-markdown2.创建vite.config.js配置文件//vite.config.jsimport{defineConfig}from'vite';importunifrom'@dcloudio/vit

pvfhv·2025-03-20 07:39

基于ViT+milvus的以图搜图服务

以图搜图服务简介服务流程介绍：将图片特征经过vit模型提取特征，保存到milvus库中，并存入对应的唯一id和身份标签，用于相似图片搜索；使用相似图片进行搜索，返回搜索到图片的身份标签和置信度。

国防科技苏东坡·2025-03-17 18:56

Vision Transformer (ViT) 详细描述及 PyTorch 代码全解析

VisionTransformer(ViT)是一种将Transformer架构应用于图像分类任务的模型。

AIGC_ZY·2025-03-17 02:23

Transformer架构在生成式AI中的应用解析

2.1GPT系列：基于Transformer的自回归文本生成2.2BERT系列：基于Transformer的双向编码器3.Transformer在图像生成中的应用3.1VisionTransformer（ViT

二进制独立开发·2025-03-15 19:11

Vision Transformer (ViT)：将Transformer带入计算机视觉的革命性尝试（代码实现）

VisionTransformer(ViT)：将Transformer带入计算机视觉的革命性尝试作为一名深度学习研究者，如果你对自然语言处理（NLP）领域的Transformer架构了如指掌，那么你一定不会对它在序列建模中的强大能力感到陌生

阿正的梦工坊·2025-03-13 15:50

构建一个完整的视觉Transformer（ViT）图像分类模型 VIT （vision transformer）图像分类

构建一个完整的视觉Transformer（ViT）图像分类模型VIT（visiontransformer）图像分类根据提供的截图内容，我们可以看到一个名为VitNet的视觉Transformer（VisionTransformer

Jackie_AI·2025-03-10 04:29

vue3+vite项目打包后css样式丢失

解决方法：在vit

Angus-zoe·2025-03-06 23:56

深度解析大模型蒸馏方法：原理、差异与案例

深度解析大模型蒸馏方法：原理、差异与案例1.引言随着深度学习的飞速发展，大模型（LargeModels）如GPT、BERT、ViT逐渐成为AI领域的主流。

赵大仁·2025-03-05 21:46

计算机视觉｜ConvNeXt：CNN 的复兴，Transformer 的新对手

然而，随着VisionTransformer（ViT）的出现，计算机视觉领域的格局发生了重大变化。ViT通过自注意力机制，打破了传统卷积神经网络的局部感知局限，能够捕捉长距离依赖关系，在图

紫雾凌寒·2025-03-04 16:20

【大模型】大模型分类

计算机视觉（CV）模型如ResNet、EfficientNet、VisionTransformer(ViT)等，用于图

IT古董·2025-03-01 16:29

VIT（Vision Transformer）【超详细 pytorch实现

ViT的优势：ViT使用自注意力机制（Self-Attention），能够直接捕捉图像中所有patch（图像块）之间的全局关系。

周玄九·2025-02-27 17:54

目前（2025年2月）计算机视觉（CV）领域一些表现优异的深度学习模型

PaLI：这是一个多模态模型，结合了40亿参数的视觉Transformer（ViT）和多种大型语言模型（LLM），并在包含100多种语言的100亿图像和文本数据集上进行训练。PaLI在图像描述、视

空空转念·2025-02-23 20:18

Vision Transformer图像分类实现

VisionTransformer(ViT)是一种基于Transformer架构的图像分类模型。

reset2021·2025-02-21 16:13

Vision Transformer（ViT）：用 Transformer 颠覆图像识别

VisionTransformer（ViT）：用Transformer颠覆图像识别在计算机视觉领域，卷积神经网络（CNN）长期以来一直是图像识别任务的主流架构。

金外飞176·2025-02-20 19:36

视觉中的transformer：ViT

《》摘要transformer已经是NLP的标准。但是在cv领域用的很少，视觉里一般是和cnn一起用或者把某些conv替换成transformer（整体还是CNN）本篇文章证明纯的transformer直接在图片分类上也做得很好：在大量数据集上进行预训练的前提上，迁移到小数据集（作者说ImageNet是小数据集-_-）上也很好。Intro启发现在NLP里的transformer都是在大量数据集上进

ch隔壁老张·2025-02-14 06:12

ViT和Transformer

ViT是将图像分为多个16×16的patch一张图像可以被分成多个小的图

Landon9·2025-02-14 06:37

ViT：2 理解CLIP

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步

庞德公·2025-02-14 05:33

详细说说VIT架构和Transformer架构的异同

GPT-4oVisionTransformer(ViT)和Transformer架构之间的关系非常紧密，因为ViT是直接将Transformer应用到视觉任务中的一种方法。

AI生成曾小健·2025-02-14 05:02

计算机视觉核心任务

代表模型：ResNet、EfficientNet、ViT（VisionTransformer）。2.目标检测（ObjectDetection）识别图像中目标的位置（边界框）及类别。应用场景：自动驾

飞瀑·2025-02-14 04:53

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

本项目结合了ResNet（ResidualNetwork）和ViT（VisionTransformer），构建了高性能的语义分割模型。本文将详细解析该模型的架构、训练流程及其应用。

高山仰星·2025-02-12 15:06

DeepSeek-VL2 、 qwen2.5 vl 技术选型比较

以下是两者的技术选型对比分析，涵盖架构设计、性能、适用场景和实际应用考量：1.核心架构对比维度DeepSeek-VL2Qwen2.5-VL视觉编码器基于改进的ViT（VisionTransformer）

天机️灵韵·2025-02-10 18:42

Vision Transformer学习笔记（2020 ICLR）

摘要(Abstract)：简述了ViT（VisionTransformer）模型的设计和实验结果，展示了其在大规模图像数据集上进行训练时的优越性能。

刘若里·2025-02-08 21:15

ACC-UNet网络学习笔记（2023 MICCAI ）

摘要1.背景说明近十年来的变化——ViT的引入改变了CV的基本模式。同样，医学图像领域也发生了一样的变化，最具影响力的网络结构——U-Net已和Transformer相结合而被重新设计。

刘若里·2025-02-08 10:58

A deep multimodal fusion method for personality traits prediction

研究方法模型架构：视觉特征提取：使用预训练模型ViT-B16和VGG16。音频特征提取：使用预训练模型VGGish。文本分析：使用预训练模型GloVe。

m0_59933522·2025-02-03 21:20

机器学习&深度学习目录

刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT

UQI-LIUWJ·2025-01-28 09:26

ViT论文解读

ViT论文解读本文主要记录YiZhu大佬对于ICLR2021的一篇论文精读ANIMAGEISWORTH16x16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE论文地址

freshfish丶·2025-01-27 18:35

多模态视觉语言模型

LLaVa&LLaVA1.55.QwenVL5.1模型结构5.2训练过程6.参考1.多模态大模型概述1.1模型范式1）模态编码器：模态编码器主要是对来自不同模态的输入进行编码，来获得相应的特征，如视觉方面用ViT

funNLPer·2025-01-20 16:48

【YOLOv8改进- Backbone主干】YOLOv8更换主干网络之ConvNexts，纯卷积神经网络，更快更准，，降低参数量！

然而，普通的ViT在应用于诸

YOLO大师·2025-01-18 02:59

多模态模型基础

资料ViT：https://zhuanlan.zhihu.com/p/657666107ViT的位置编码：https://blog.csdn.net/qq_44166630/article/details

谁怕平生太急·2025-01-16 17:34

Vue3 vant组件库自动导入

-an-xu-yin-ru-zu-jian-yang-shi【二】批量引入在基于vit

不叫虎子·2024-09-16 01:48

轻量级模型解读——轻量transformer系列

ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT

lishanlu136·2024-09-16 01:18

ComfyUI中的sam模型国内下载方法

配置文件，里面其实给了一些下载地址，配置文件里是这么写的："sam_model_vith_url":"https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h

jayli517·2024-09-15 19:57

【Vidu发布】中国首个长时长、高一致性、高动态性Video AI大模型

该模型采用生数科技团队原创的Diffusion与Transformer融合的架构U-ViT。

叶锦鲤·2024-09-12 13:44

Transformer+目标检测，这一篇入门就够了

Encoder-Decoder简介：Encoder-Decoder的缺陷：Attention机制：Self-Attention机制：Multi-HeadAttention：Transformer结构：图像分类之ViT

BIT可达鸭·2024-09-07 21:19

电子应用速成指南：Electron-Vite-Vue 实战手册

https://gitcode.com/gh_mirrors/el/electron-vite-vue本手册旨在为开发者提供详尽的指导，以快速上手Electron-Vite-Vue这一高效的Electron+Vit

褚柯深Archer·2024-09-07 08:50

JavaWeb——前端工程化

Nodejs+npm+Vite+VUE3+Router+Pinia+Axios+Element-plusECMAScript6:VUE3中大量使用ES6语法;Nodejs:前端项目运行环境npm:依赖下载工具Vit

A_Tai2333333·2024-08-31 08:21

Python深度学习：构建下一代智能系统

为了帮助广大学员更加深入地学习人工智能领域最近3-5年的新理论与新技术，本文讲解注意力机制、Transformer模型（BERT、GPT-1/2/3/3.5/4、DETR、ViT、SwinTransformer

2401_83402415·2024-08-28 10:04

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇

[CLIP-VIT-L+Qwen]多模态大模型源码阅读-trainer篇前情提要源码阅读导包逐行解读compute_loss方法（重构）整体含义逐行解读save_model函数（重构）整体含义逐行解读create_optimizer

FlowerLoveJava·2024-08-24 22:40

CLIP-VIT-L + Qwen 多模态源码阅读 - 语言模型篇（3）

多模态学习笔记-语言模型篇（3）参考repo:WatchTower-Liu/VLM-learning;url:VLLM-BASE吐槽今天接着昨天的源码继续看，黑神话：悟空正好今天发售，希望广大coder能玩的开心~学习心得前情提要详情请看多模态源码阅读-2上次我们讲到利用view()函数对token_type_ids、position_ids进行重新塑形，确保这些张量的最后一个维度和input_s

FlowerLoveJava·2024-08-24 22:10

VIT论文阅读： A Image is Worth 16x16 Words

简介在2024年，大家都知道了transformer的故事，但是在4年前,CNN和Transformer谁才是CV的未来，还没有那么确定。在简介部分，作者提到了一个令人失望的事实，在基于imagenet的实验中发现，transformer的表现差于同尺寸的ResNet。作者把原因归结到biastranslationequivarianceandlocality，这些CNN具有，但是transfor

Undefined游侠·2024-08-24 17:37

VUE3配置sass、less全局变量

variable.scss创建一个variable.scss文件,并定义全局变量$common-color:red项目中引入全局变量$在style/variable.scss创建一个variable.scss文件，并在vit

m0_50156032·2024-08-24 09:49

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（2）

多模态学习笔记-语言模型篇（2）参考repo:WatchTower-Liu/VLM-learning;url:vlm-learning吐槽今天的源码看的欲仙欲死，NTK(neuraltangentkernel),rotary_position_embedding这些在之前的学习中完全闻所未闻，导致看的时候一脸懵逼，只能说不愧是Qwen大模型，各种sota的技术都用上了。就是看的有点费劲TAT~学习

FlowerLoveJava·2024-08-23 09:14

推荐频道

ViT