论文笔记 《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》
Abstract由于复杂的注意机制和模型设计,现有的大多数视觉变形器(ViTs)在现实工业部署场景中无法像卷积神经网络(CNNs)那样高效,如TensorRT和CoreML。这就提出了一个明显的挑战:视觉神经网络能否设计得像CNNs一样快,像ViTs一样强大?在这些工作中,我们提出了在现实工业场景中有效部署的下一代愿景变压器,即next-vit,它从延迟/精度权衡的角度主导了CNNs和vit。分别