Vision Transformer(ViT)用于图片分类

Vision Transformer (ViT) 是很新的模型,2020年10月挂在 arXiv 上,2021年正式发表。在所有的公开数据集上,ViT 的表现都超越了最好的 ResNet。前提是要在足够大的数据集上预训练 ViT。在越大的数据集上做预训练,ViT 的优势越明显。

来源:www.youtube.com

作者:Wang Shusen

本文仅作为学术分享,著作权归属原作者,侵删。

Vision Transformer(ViT)用于图片分类_第1张图片

你可能感兴趣的:(人工智能,算法,机器学习,深度学习,数据挖掘)