论文笔记:Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length
21neurips1intro1.1背景以ViT:《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》为代表的视觉Transformer通常将图像数据划分为固定数目的patch将每个patch对应的像素值采用线性映射等方式嵌入为一维的token,作为Transformer模型的输入假设模型结构固定,即每个token的维度