ViT 第11页

用长尾数据提升ViT性能

文章目录一、导读二、介绍三、方法四、总结一、导读论文地址：https://arxiv.org/abs/2212.02015代码链接：https://github.com/XuZhengzhuo/LiVT二、介绍在机器学习领域中，学习不平衡的标注数据一直是一个常见而具有挑战性的任务。近年来，视觉Transformer作为一种强大的模型，在多个视觉任务上展现出令人满意的效果。然而，视觉Transfor

旅途中的宽~·2023-06-22 00:36

如何使用grad-cam对ViT的输出进行可视化（附代码）

使用grad-cam对ViT的输出进行可视化[TOC]前言VisionTransformer(ViT)作为现在CV中的主流backbone，它可以在图像分类任务上达到与卷积神经网络(CNN)相媲美甚至超越的性能

·2023-06-21 02:35

自监督ViT：DINO-v1和DINO-v2

1.概述基于ViT（VisionTransformer）自监督在最近几年取得了很大进步，目前在无监督分类任务下已经超过了之前的一些经典模型，同时在检测分割等基础任务领域也展现出了强大的泛化能力。

m_buddy·2023-06-20 13:12

可视化VIT中的注意力

2022年，VisionTransformer(ViT)成为卷积神经网络(cnn)的有力竞争对手，卷积神经网络目前是计算机视觉领域的最先进技术，广泛应用于许多图像识别应用。

·2023-06-20 10:50

【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

EVA是一种经过预训练的普通ViT，用于重建以可见图像块为条件的屏蔽掉的图像-文本对齐（image-textaligned）的视觉特征。

YoooooL_·2023-06-20 08:05

Vue3 全家桶，从 0 到 1 实战项目

1.1、vit

前端人·2023-06-20 02:39

论文解读：Splicing ViT Features for Semantic Appearance Transfer

Projectwebpage:https://splice-vit.github.ioAbstruct将两张图片中语义相近的目标的结构和风格（外观）拼接•输入一个Structure/Appearence

wuling129·2023-06-19 22:09

『论文精读』Vision Transformer(VIT)论文解读

『论文精读』VisionTransformer(VIT)论文解读文章目录一.简介二.模型架构2.1.关于imagepresentation2.2.关于positionalencoding2.3.关于CNN

AI新视界·2023-06-18 21:41

MOCO V3 vit_small error: object has no attribute “num_tokens“

WhenIattempttopre-trainmocov3'svit_smallmodel,Irunintothefollowingbug:raiseAttributeError("'{}'objecthasnoattribute'{}'".format(AttributeError:'VisionTransformerMoCo'objecthasnoattribute'num_tokens'Af

Replete·2023-06-17 19:34

OpenMMLab AI 实战营笔记4——MMPreTrain算法库：构建高效、灵活、可扩展的深度学习模型

工具箱介绍二、丰富的模型三、推理API四、环境搭建——OpenMMLab软件栈五、OpenMMLab重要概念——配置文件六、代码框架七、配置及运作方式经典主干网络残差网络VisonTransformer(VIT

AI浩·2023-06-17 12:23

用YOLOv5和MobileViTs骨干网络革新目标检测：高效准确AI视觉的未来

介绍二、YOLOv5与MobileViT的结合1、YOLOv5网络结构回顾2、MobileViT网络结构介绍3、YOLOv5替换骨干网络为MobileViT的优势三、MobileViT的细节与实现1、ViT

哪吒·2023-06-17 00:14

Hugging Face 中计算机视觉的现状

开始只是Transformers中VisionTransformers(ViT)的一个PR，现在已经发展壮大:8个核心视觉任务，超过3000个模型，在HuggingFaceHub上有超过1000个数据集

·2023-06-16 22:08

Vue 3.3 有哪些更新

依赖性更新升级到3.3时，建议也更新以下依赖项：volar/vue-tsc@^1.6.4vit

Yxj-5211314·2023-06-16 13:41

微调Hugging Face中图像分类模型

前言本文主要针对HuggingFace平台中的图像分类模型，在自己数据集上进行微调，预训练模型为Google的vit-base-patch16-224模型，模型简介页面。

羽星_s·2023-06-16 05:34

使用PyTorch训练与评估自己的T2T-ViT网络

其他教程前言项目地址：https://github.com/Fafa-DL/Awesome-Backbones操作教程：https://www.bilibili.com/video/BV1SY411P7NdT2T-ViT

啥都生·2023-06-15 23:52

DHVT：在小数据集上降低VIT与卷积神经网络之间差距，解决从零开始训练的问题

deephub·2023-06-15 23:41

CVPR2023论文汇总 | 3D检测/BEV/分割/SLAM/Occpuancy/Transformer多个方向

”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【全栈算法】技术交流群CVPR2023中稿paper已经陆续放出来了，自动驾驶之心团队为大家整理了计算机视觉、BEV、分割、Occpuancy、vit

自动驾驶之心·2023-06-15 15:54

神器CLIP：连接文本和图像，打造可迁移的视觉模型

2021年见证了visiontransformer的大爆发，随着谷歌提出ViT之后，一大批的visiontransformer的工作席卷计算机视觉任务。

AI生成曾小健·2023-06-14 08:42

开发新项目看过来，这3款基于 Vue 的免费开源的 admin 管理后台框架非常好用

Vuevbenadmin了解详细：https://www.thosefree.com/vue-vben-admin新鲜出炉的高颜值管理后台UI框架，基于Vue3和AntDesignVue，基于Vue3.0/Vit

那些免费的砖·2023-06-12 14:53

基于 huggingface diffuser 库本地部署 Stable diffusion

此模型冻结CLIP的ViT-L/14文本编码器建模prompttext。模型包含860MUNet和123M文本编码器，可运行在具有至少10GBVRAM的GPU上。

木尧大兄弟·2023-06-12 10:14

脂代谢补充

：主要储脂类脂是指除脂肪以外的其他脂类，包括磷脂、糖脂胆固醇及其酯（是组织脂的主要成分），还有其他的脂溶性分子1.3脂类的生理功能供能和贮能参与细胞膜组成提供必需脂肪酸参与信息传递抗寒、固定内脏脂溶性Vit

ziop-三月·2023-06-12 00:33

DINO：自监督ViT的新特性

Caron,Mathilde,HugoTouvron,IshanMisra,Herv'eJ'egou,JulienMairal,PiotrBojanowskiandArmandJoulin.“EmergingPropertiesinSelf-SupervisedVisionTransformers.”ArXivabs/2104.14294(2021).1.Abstract在本文中，我们质疑自监督学

Civisky·2023-06-11 12:34

DINO 自监督算法简介

EmergingPropertiesinSelf-SupervisedVisionTransformers[Ref:https://arxiv.org/abs/2104.14294]DINO的初衷是质疑自监督学习相较于CNN是否为Transformer(ViT

Dave 扫地工·2023-06-11 12:02

Swin Transformer之Mask和相对位置编码代码详解

有朋友跟我反应Vit代码直接全贴上去光靠注释也不容易看懂，这会我用分总的方法介绍。注：此代码支持多尺度训练。文章仅供学习先从最难的下手。

管不住心的大杜·2023-06-11 08:22

Swin Transformer详解

继vit之后，进一步证明了Transformer可以在视觉领域广泛应用，并且可以应用到半监督以及自监督中。

管不住心的大杜·2023-06-11 08:22

CLIP原理解读——大模型论文阅读笔记一

论文的作者团队收集了一个超级大的图像文本配对的数据集，有400million个图片文本的配对，模型最大用了ViT-large，提出了CLIP（ContrastiveLanguage-ImagePre-training

CV-deeplearning·2023-06-11 04:26

CVPR/ICML 2023 ViT最新论文解析（附下载）

相较于CNN（卷积神经网络），视觉transformer（ViT）具有更出色的建模能力，在imagenet等基准上也取得的了更优秀的性能，这可能也是为什么近年来ViT越发热门的原因。

深度之眼·2023-06-10 23:51

Segment Anything Model批量检测图像

最近看到了SegmentAnythingModel，发现不需要配置太多的东西就能跑起来介绍说明的网址SegmentAnythingModel可以从github下载代码code，提供了三个模型vit_b的大小是

w冷淡·2023-06-10 12:44

DiffRate详解：高效Vision Transformers的可微压缩率

令牌修剪和合并1.3修剪和合并的统一2DiffRate中的创新点2.1令牌排序2.2压缩率重参数化2.3训练目标3.算法流程4.简化版理解5.总结0.引言就当前的VisionTransformers(例如vit

sjx_alo·2023-06-10 11:39

「vite4源码」dev模式整体流程浅析（一）

1.入口npmrundev在项目的package.json中注册对应的scripts命令，当我们运行npmrundev时，本质就是运行了vite{"scripts":{"dev":"vite",}}而vit

·2023-06-09 14:21

ViT 论文逐段精读——B站up：跟李沐学AI讲解笔记

https://www.bilibili.com/video/BV15P4y137jbVisionTransformer挑战了CNN在CV中绝对的统治地位。VisionTransformer得出的结论是如果在足够多的数据上做预训练，在不依赖CNN的基础上，直接用自然语言上的Transformer也能CV问题解决得很好。Transformer打破了CV、NLP之间的壁垒。先理解题目：Animagei

Lavau·2023-06-09 12:56

EfficientViT: Enhanced Linear Attention forHigh-Resolution Low-Computation Visual Recognition

Abstract1Introduction3Method3.2EffificientViT4Experiments4.5AnalysisandDiscussionAbstract在针对高分辨率移动视觉应用时，ViT

Recursions·2023-06-09 07:44

CVPR 2023 | EfficientViT：让ViT在多个部署场景实现实时推理

随着近两年来对视觉Transformer模型（ViT）的深入研究，ViT的表达能力不断提升，并已经在大部分视觉基础任务(分类，检测，分割等)上实现了大幅度的性能突破。

TechBeat人工智能社区·2023-06-09 07:42

LeCun力挺，马毅教授五年集大成之作：完全数学可解释的白盒Transformer，性能不输ViT

夕小瑶科技说分享来源|新智元马毅教授领导的研究团队开发了CRATE模型，推动了神经网络可解释研究！过去十多年，AI的飞速发展主要是工程实践上的进步，AI理论并没有起到指导算法开发的作用，经验设计的神经网络依然是一个黑盒。而随着ChatGPT的爆火，AI的能力也被不断夸大、炒作，甚至到了威胁、绑架社会的地步，让Transformer架构设计变透明已刻不容缓！最近，马毅教授团队发布了最新研究成果，设计

夕小瑶·2023-06-09 07:35

Yolov5涨点神器：RIFormerBlock助力检测｜CVPR2023｜RIFormer：无需TokenMixer也能达成SOTA性能的极简ViT架构

1.RIFormer介绍论文：https://arxiv.org/pdf/2304.05659.pdf本文基于重参数机制提出了RepIdentityFormer方案以研究无TokenMixer的架构体系。紧接着，作者改进了学习架构以打破无TokenMixer架构的局限性并总结了优化策略。搭配上所提优化策略后，本文构建了一种极致简单且具有优异性能的视觉骨干，此外它还具有高推理效率优势。为什么这么做？

AI小怪兽·2023-06-09 02:58

Yolov5轻量化：CVPR2023｜RIFormer：无需TokenMixer也能达成SOTA性能的极简ViT架构

1.RIFormer介绍论文：https://arxiv.org/pdf/2304.05659.pdf本文基于重参数机制提出了RepIdentityFormer方案以研究无TokenMixer的架构体系。紧接着，作者改进了学习架构以打破无TokenMixer架构的局限性并总结了优化策略。搭配上所提优化策略后，本文构建了一种极致简单且具有优异性能的视觉骨干，此外它还具有高推理效率优势。为什么这么做？

AI小怪兽·2023-06-08 20:07

Transformer【ViT】

层神经网络学习小记录67——Pytorch版VisionTransformer（VIT）模型的复现详解计算机视觉中的transformer模型创新思路总结_TomHardy的博客-CSDN博VisionTransformer

太简单了·2023-06-08 16:15

【读论文】THFuse

【读论文】THFuse介绍网络架构多分支CNN特征提取块基于VIT的全局特征提取快图像重建块损失函数总结参考论文：https://www.sciencedirect.com/science/article

小王不头秃·2023-04-21 19:08

MAE论文笔记+Pytroch实现

MaskedAutoencodersAreScalableVisionLearners，2021近期在梳理Transformer在CV领域的相关论文，落脚点在于如何去使用Pytroch实现如ViT和MAE

像风一样自由的小周·2023-04-21 01:21

ViT笔记以及其Pytroch实现

ViT:ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE——ICLR,2021Pytroch代码来源：https://github.com

像风一样自由的小周·2023-04-21 01:51

vue3新特性

fileURLToPath,URL}from'node:url'import{defineConfig}from'vite'importvuefrom'@vitejs/plugin-vue'//https://vit

矢目·2023-04-21 00:44

变换器鲁棒性-2：On the Adversarial Robustness of Vision Transformers

这项工作首次全面研究了视觉Transformers（VIT）对对抗性干扰的鲁棒性。在各种白盒和迁移攻击设置下进行测试，我们发现ViTs与卷积神经网络（CNN）相比具有更好的对抗鲁棒性。

Vinteuil·2023-04-19 08:58

谷歌发布史上最大ViT：220亿参数，视觉感知力直逼人类

ViT模型何时才能破万亿？Transformer无疑是促进自然语言处理领域繁荣的最大功臣，也是GPT-4等大规模语言模型的基础架构。

语音之家·2023-04-18 10:00

Vite中自制mock服务器(不使用第三方服务)

axios、vite-plugin-mock，请自行安装配置vite进入vite.config.ts，添加以下代码import{defineConfig}from'vite'importreactfrom'@vit

·2023-04-17 13:48

【图像分类】【深度学习】ViT算法Pytorch代码讲解

【图像分类】【深度学习】ViT算法Pytorch代码讲解文章目录【图像分类】【深度学习】ViT算法Pytorch代码讲解前言ViT(VisionTransformer)讲解patchembeddingpositionalembeddingTransformerEncoderEncoderBlockMulti-headattentionMLPHead

牙牙要健康·2023-04-17 12:02

论文阅读【2】-SepViT: Separable Vision Transformer论文结构漫谈与Python实现测试

可分离卷积+ViT实现轻量级transformer结构1.论文主要工作1.1摘要内容1.2写作动机（Motivations）1.2.1TransformerPatch结构的巨大计算量问题1.2.2Swin

cnjs1994·2023-04-17 12:08

Vite举一反一

github传送门Vite(Frenchwordfor"quick",pronounced/vit/,like"veet")isanewbreedoffrontendbuildtoolthatsignificantlyimprovesthefrontenddevelopmentexperience

龚达耶·2023-04-17 06:54

[图神经网络]视觉图神经网络ViG(Vision GNN)--论文阅读

不再需要借用CNN提取的特征来构造图结构，这一点和ViT有

ViperL1·2023-04-17 02:12

【打卡】图像检索与重复图像识别3

【打卡】图像检索与重复图像识别3文章目录【打卡】图像检索与重复图像识别3任务3：深度全局特征：任务3：深度全局特征：CNN/VIT模型特征提取：介绍CNN和VIT模型在图像特征提取中的应用，包括如何利用预训练模型提取图像的全局特征

bj_zhb·2023-04-16 23:29

MLP三部曲（MLP-Mixer -＞ gMLP -＞ MAXIM）——其一

附代码）-月球上的人的文章-知乎https://zhuanlan.zhihu.com/p/372692759论文链接：https://arxiv.org/abs/2105.01601先看总体结构：乍一看和Vit

Rainylt·2023-04-16 20:07

推荐频道

ViT