ViT——ShuSenWang 第28页

[Transformer]ViT-ResNAS:Searching for Efficient Multi-Stage Vision Transformers

黄小米吖·2022-03-08 07:32

ViT结构优化——Searching the Search Space (S3 NAS)

Paper地址：https://arxiv.org/abs/2111.14725GitHub链接：https://github.com/microsoft/Cream概述网络结构搜索（NAS:Neural-networkArchitectureSearch）的设计收敛，首先取决于搜索空间的设计收敛，其次取决于搜索算法的设计收敛，最终结合平台约束、生成一系列符合Trade-off的优化解（构成Par

Law-Yao·2022-03-08 07:21

【ARXIV2111】Restormer: Efficient Transformer for High-Resolution Image Restoration

arxiv.org/pdf/2111.09881.pdf代码地址：https://github.com/swz30/Restormer这个论文的主要想法是将Transformer模型应用到图像修复中，不过和一般的VIT

中国海洋大学AI前沿理论组·2022-03-07 07:08

【论文视频】Swin Transformer论文精读. ICCV 2021 best paper【论文精读】

之所以这么说，是因为ViT在结论的部分指出，他们那篇论文只是做了分类任务，把下游任务比如说检测和分割留给以后的人去探索，所以说在ViT出来之后，大家虽然看到了Transformer在视觉

I"ll carry you·2022-03-04 07:27

盘点2021-2022年出现的CV神经网络模型

短短一两年时间，研究者们从不同结构领域冲击着SOTA，有ViT的，有CNN的，甚至还有纯MLP的。其中，不乏有一些启发性和奠基性的模型出现，隐约感觉到这两年是基础模型的爆发年。

木盏·2022-03-04 07:08

ICCV2021 | 渐进采样式Vision Transformer

前言ViT通过简单地将图像分割成固定长度的tokens，并使用transformer来学习这些tokens之间的关系。

CV技术指南(公众号)·2022-03-04 07:31

轻量级Visual Transformer模型——LeViT(ICCV2021)

LeViT是FAIR团队发表在ICCV2021上的成果，是轻量级ViT模型中的标杆，文章对ViT中多个部件进行的改进，如加速策略等，对很多工程化铺设ViT系列模型都是很有借鉴意义的。

木盏·2022-03-04 07:55

Vision Transformer：学习博客总结

如果说VIT精读，肯定是下面这位老师讲的啦，应该是和沐神一个团队的，讲的十分好，建议二刷！

zqx951102·2022-03-01 07:44

把大核卷积拆成三步，清华胡事民团队新视觉Backbone刷榜了，集CNN与ViT优点于一身...

梦晨发自凹非寺量子位|公众号QbitAI在视觉任务上，CNN、ViT各有各的优势和劣势。于是，以经典Backbone为基础、细节上相互借鉴，成了最近一个热门研究方向。

QbitAl·2022-02-25 07:37

PyTorch中的参数类torch.nn.Parameter()详解

目录前言分析ViT中nn.Parameter()的实验其他解释参考：总结前言今天来聊一下PyTorch中的torch.nn.Parameter()这个函数，笔者第一次见的时候也是大概能理解函数的用途，但是具体实现原理细节也是云里雾里

·2022-02-24 11:08

最容易理解的ConViT: Improving Vision Transformerswith Soft Convolutional Inductive Biases

之前的博客介绍了transformer和transformer在CV领域应用的VIT论文，有兴趣的同学可以参考transformer、VIT。

LN烟雨缥缈·2022-02-22 07:35

超赞Transformer+CNN=SOTA！

pdf下载链接CNN更关注局部特征，需要的数据量更小，但能达到的sota性能更低；Transformer更关注全局特征，需要更多的数据来训练，但最近CV领域的sota模型都是基于Transformer的ViT

SophiaCV·2022-02-22 07:09

英雄联盟全球总决赛，RNG小组第一出线，卫冕冠军提前出局

14日第一场比赛，RNG对阵VIT，原本以为RNG稳赢，谁知道VIT是一支狼虎之师，先是赢了RNG，让RNG全员开会，然后在送卫冕冠军GEN回家，堪称完美。

竞趴电竞·2022-02-21 16:17

《A Survey on Visual Transformer》阅读笔记

transformer代表性成果二、transformer模型1.原始transformer1.1输入1.2自注意层1.3其他关键细节三、用于视觉的transformer3.1backbone3.1.1iGPT3.1.2ViT3.2

秦失其鹿的博客·2022-02-06 07:08

Tensorflow1.15实现Transformer(一):使用self-attention来实现文本分类

要学会一个算法，最好的办法还是自己复现一遍这里也是对自己学习的过程做一个记录了o(￣▽￣)ブ尽量用最简洁的语言和最短的代码来实现一个Transformer,ViT,BERT,SwinTransformer

Shijunfeng00·2022-02-06 07:02

Swin Transformer

之前的若干尝试，例如iGPT[2]，ViT[3]都是将Transformer用在了图像分类领域，目前这些方法都有两个非常严峻的问题受限于图像的矩阵性质，一个能表达信息的图片往往至少需要几百个像素点，而建模这种几百个

dddlli·2022-02-06 07:28

【第29篇】MPViT：用于密集预测的多路径视觉转换器

虽然卷积神经网络(CNN)一直是此类任务的主要架构，但最近推出的视觉转换器(ViT)旨在取代它们作为主干。

AI浩·2022-02-06 07:50

来自阿里星女神的分享-如何才能成为优秀的实习生？

来自Vit精品群的第二篇分享非常感谢来自阿里的唐铭谦姐姐另外还有我们的土豪咖姐姐和泓民哥哥（撒花！）摘要本期主要探讨了关于面试笔试的经验，技术岗位以及非技术岗位如何准备以及一个小小的资料分享。

Bersheka·2022-02-05 16:34

论文阅读笔记：Vision Transformer

论文阅读笔记：VisionTransformer前言VIT模型LinearProjectionofFlattenedPatchesTransformerEncoderMLPHeadSELF-SUPERVISION

HollowKnightZ·2022-02-04 15:03

Law

:ni-lawyer.embezzle:im'b3zl-usemoneyintheirownpurposeThejuryfoundhimguityofembezzlement.convict:can'vit-decideandstateofficiallyincourtthat

享悦moonlight·2022-02-04 15:44

前端周刊第一期

2021年对JavaScript来说是强劲的一年，尤其是Next.js、Vit

·2022-01-09 14:37

前端技术分享

imageVite(法语意为"快速的"，发音/vit/)是一种新型前端构建工具，能够显著提升前端开发体验。

斗伽·2021-12-08 17:19

ViT看到的和CNN的是一样的吗？

最近的工作表明，（视觉）Transformer模型（ViT）可以在图像分类任务上实现相当甚至更高的性能。这就提出了一个中心问题：视觉Transformer是如何解

Vinteuil·2021-12-06 15:17

计算机视觉中的transformer模型创新思路总结

前言本文回顾了ViT的结构，总结了计算机视觉中的transformer的主要改进思路：改进分块，改进位置编码，改进Encoder，增加Decoder。

CV技术指南（公众号）·2021-12-03 18:00

ICCV2021 | 渐进采样式Vision Transformer

前言ViT通过简单地将图像分割成固定长度的tokens，并使用transformer来学习这些tokens之间的关系。

CV技术指南（公众号）·2021-12-01 17:00

Masked Autoencoders Are Scalable Vision Learners

KaimingHe在讲MaskedAutoencodersAreScalableVisionLearners这个之前，由于笔者对Transformer没有太深理解，因此会穿插一些transformer以及ViT

Daft shiner·2021-11-22 13:25

ViT 对比 swin Transformer 2021-05-18

ViTANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALEhttps://arxiv.org/pdf/2010.11929.pdf这篇工作VisionTransformer基于NLP领域中大放异彩的Transformer模型来处理视觉领域的任务。作者将二维的图像数据用一个简单的方式转换为和Transformer中处理的句子序

不想读Paper·2021-11-14 00:52

Vue3.0项目从Webpack改造成Vite

vite是什么Vite(法语意为"快速的"，发音/vit/)是一种新型前端构建工具，能够显著提升前端开发体验。

二营长家的张大炮·2021-11-10 20:42

Swin Transformer全方位解读【ICCV2021最佳论文】

自从ViT、DETR等尝试把language模型中的王炸transformer使用到视觉领域并得到还不错的验证效果后，研究者们一直在致力于“如何更好地将语言模型建模到视觉”这个问题。

木盏·2021-10-18 23:11

中大博士分析ICLR 2022投稿趋势：Transformer激增，ViT首进榜单前50，元学习大跌

丰色发自凹非寺量子位报道|公众号QbitAI深度学习顶会ICLR2022的投稿不久前已结束。根据官网数据，本次一共收到了3407篇投稿，比去年多了400多篇。此次投稿趋势又是如何？中山大学的一位博士生为大家爬取了官方数据，做了一个简单分析。从分析结果来看，投稿里霸占前三甲的关键词，分别为强化学习、深度学习和图神经网络。但除了它们，本届ICLR中又有哪些关键词、技术较为突出呢？下面详细看。ICLR2

QbitAl·2021-10-18 15:10

Vision MLP之S2-MLP V1&V2 : Spatial-Shift MLP

从摘要理解文章V1Recently,visualTransformer(ViT)anditsfollowi

·2021-10-13 23:29

带你读Paper丨分析ViT尚存问题和相对应的解决方案

摘要：针对ViT现状，分析ViT尚存问题和相对应的解决方案，和相关论文idea汇总。

·2021-10-08 15:16

英特尔用ViT做密集预测效果超越卷积，性能提高28%，mIoU直达SOTA｜在线可玩

丰色发自凹非寺量子位报道|公众号QbitAI用全卷积网络做密集预测（denseprediction），优点很多。但现在，你可以试试VisionTransformer了——英特尔最近用它搞了一个密集预测模型，结果是相比全卷积，该模型在单目深度估计应用任务上，性能提高了28%。其中，它的结果更具细粒度和全局一致性。在语义分割任务上，该模型更是在ADE20K数据集上以49.02%的mIoU创造了新的SO

QbitAl·2021-10-04 14:33

DeiT：使用Attention蒸馏Transformer

其核心是将蒸馏方法引入VIT的训练，引入了一种教师-学生的训练策略，提出了token-baseddistillation。有趣的是，这种训练策略使用卷积网络

pprpp·2021-09-24 10:09

【论文翻译】VIT:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

栗子很菜·2021-08-09 09:15

ICCV2021何恺明团队又一神作：Transformer仍有继续改善的空间

尽管标准卷积网络的训练方法已经非常成熟且鲁棒，然而ViT的训练方案仍有待于构建，特别是自监督场景下的训练极具挑战。

计算机视觉研究院·2021-08-02 07:00

Vite开发快速入门

一、Vite简介Vite(法语意为"快速的"，发音/vit/)是一种面向现代浏览器的一个更轻、更快的前端构建工具，能够显著提升前端的开发体验。

·2021-07-28 18:21

霸榜多个CV任务！开源仅两天，已收获2.1k star

最近一段时间，Transformer更是开启了自己的跨界之旅，开始在计算机视觉领域大展身手，涌现出了多个基于Transformer的新模型，如谷歌用于图像分类的ViT以及复旦、牛津、腾讯等机构的SETR

·2021-07-27 19:22

开源项目的笔记

项目来自：https://github.com/sungerk/meiShi本项目主要依赖vit

口袋易佰·2021-06-23 09:40

霸榜多个CV任务！开源仅两天，已收获2.1k star

最近一段时间，Transformer更是开启了自己的跨界之旅，开始在计算机视觉领域大展身手，涌现出了多个基于Transformer的新模型，如谷歌用于图像分类的ViT以及复旦、牛津、腾讯等机构的SETR

·2021-06-18 21:38

旅美科协创新创业大赛决赛举行，2018年中国旅美科协第26届年会精彩纷呈

以玉米赤霉烯酮降解酶为主的霉菌毒素吸附剂；2、低功率可编程逻辑芯片（FPGA）；3、QuickFlashTechnologies；4、AccompanyingRobotfortheElderly；5、基因工程干细胞减轻癌症放疗副作用；6、Vit

美国高娓娓·2021-06-04 17:05

【手把手教你】搭建神经网络（使用Vision Transformer进行图像分类）

欢迎关注“羽峰码字”目录1.介绍2.前期准备2.1一些基本API2.2一些超参数的配置3.数据3.1准备数据3.2数据扩充4.多层感知器（MLP）5.将patch创建实施为一层6实现patch编码层7.建立ViT

羽峰码字·2021-05-22 20:07

Google AI提出全新解决方案！大提速！只需MLP就在ImageNet达到SOTA！

近日，GoogleAI又发布了一篇与ViT一样的重磅级论文：MLP-Mixer:Anall-MLPArchitectureforVision。

机器学习算法工程师·2021-05-12 22:57

百度网页搜索每天响应很多词语，分析以下词语被搜索时的需求，满足需求的路径，并给出搜索结果效果图。

就酱：）VIT精品群每日一问（9月6日）背景知识：3.背景知识1）用户行为路径。（Sk君给我讲了两遍.......）就是用户为完成一个任务或需求所走的完整路径”。

Bersheka·2021-05-12 10:21

PVT：可用于密集任务backbone的金字塔视觉transformer！

基于detectron2实现的PVT开源了，欢迎star：https://github.com/xiaohu2015/pvt_detectron2自从ViT之后，关于visiontransformer的研究呈井喷式爆发

机器学习算法工程师·2021-05-11 22:36

如果某日百度的用户检索量下降了5%，该如何分析其原因

VIT精品群中的每日一问（9月5日）背景知识：1.检索量是什么？一般情况下每发起一次检索请求记为一次检索，当同一用户发起多次检索时记为多个检索量，而同一用户在短时间内检索同一搜索词时，不重复累计。

Bersheka·2021-05-01 14:16

论文阅读《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》

和以往ViT，DETR等结构不同的是，SwinTransformer通过shiftedwindows操作，实现了

汐梦聆海·2021-04-29 20:17

技术将二氧化碳转化为塑料成分，方法可以促进二氧化碳的循环利用

内布拉斯加州的Vit

wumingzhi111·2021-04-29 14:19

文献阅读（十七）：So-ViT: Mind Visual Tokens for Vision Transformer

文献阅读（十七）：So-ViT:MindVisualTokensforVisionTransformer摘要1.Introduction2.RelatedworksTransformerinvisionfieldSecond-orderpoolinginCNN3

Laura_Wangzx·2021-04-28 11:51

【论文笔记】VIT：AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

本文简单记录关于视觉transformer模型VIT(ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE)的论文笔记和相应的pytorch

xzhws·2021-04-20 22:00

推荐频道

ViT——ShuSenWang

[Transformer]ViT-ResNAS:Searching for Efficient Multi-Stage Vision Transformers

ViT结构优化——Searching the Search Space (S3 NAS)

【ARXIV2111】Restormer: Efficient Transformer for High-Resolution Image Restoration

【论文视频】Swin Transformer论文精读. ICCV 2021 best paper【论文精读】

盘点2021-2022年出现的CV神经网络模型

ICCV2021 | 渐进采样式Vision Transformer

轻量级Visual Transformer模型——LeViT(ICCV2021)

Vision Transformer：学习博客总结

把大核卷积拆成三步，清华胡事民团队新视觉Backbone刷榜了，集CNN与ViT优点于一身...

PyTorch中的参数类torch.nn.Parameter()详解

最容易理解的ConViT: Improving Vision Transformerswith Soft Convolutional Inductive Biases

超赞Transformer+CNN=SOTA！

英雄联盟全球总决赛，RNG小组第一出线，卫冕冠军提前出局

《A Survey on Visual Transformer》阅读笔记

Tensorflow1.15实现Transformer(一):使用self-attention来实现文本分类

Swin Transformer

【第29篇】MPViT：用于密集预测的多路径视觉转换器

来自阿里星女神的分享-如何才能成为优秀的实习生？

论文阅读笔记：Vision Transformer

Law

前端周刊第一期

前端技术分享

ViT看到的和CNN的是一样的吗？

计算机视觉中的transformer模型创新思路总结

ICCV2021 | 渐进采样式Vision Transformer

Masked Autoencoders Are Scalable Vision Learners

ViT 对比 swin Transformer 2021-05-18

Vue3.0项目从Webpack改造成Vite

Swin Transformer全方位解读【ICCV2021最佳论文】

中大博士分析ICLR 2022投稿趋势：Transformer激增，ViT首进榜单前50，元学习大跌

Vision MLP之S2-MLP V1&V2 : Spatial-Shift MLP

带你读Paper丨分析ViT尚存问题和相对应的解决方案

英特尔用ViT做密集预测效果超越卷积，性能提高28%，mIoU直达SOTA｜在线可玩

DeiT：使用Attention蒸馏Transformer

【论文翻译】VIT:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

ICCV2021何恺明团队又一神作：Transformer仍有继续改善的空间

Vite开发快速入门

霸榜多个CV任务！开源仅两天，已收获2.1k star

开源项目的笔记

霸榜多个CV任务！开源仅两天，已收获2.1k star

旅美科协创新创业大赛决赛举行，2018年中国旅美科协第26届年会精彩纷呈

【手把手教你】搭建神经网络（使用Vision Transformer进行图像分类）

Google AI提出全新解决方案！大提速！只需MLP就在ImageNet达到SOTA！

百度网页搜索每天响应很多词语，分析以下词语被搜索时的需求，满足需求的路径，并给出搜索结果效果图。

PVT：可用于密集任务backbone的金字塔视觉transformer！

如果某日百度的用户检索量下降了5%，该如何分析其原因

论文阅读《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》

技术将二氧化碳转化为塑料成分 ，方法可以促进二氧化碳的循环利用

文献阅读（十七）：So-ViT: Mind Visual Tokens for Vision Transformer

【论文笔记】VIT：AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

技术将二氧化碳转化为塑料成分，方法可以促进二氧化碳的循环利用