ViT笔记

CNN归纳偏置(inductive bias)

1、平移不变性:平移旋转缩放等变化,CNN依旧能够识别

2、空间局部性:局部像素联系密切,因此每个神经元无需有全局感知,在更高层将局部信息综合起来

基于Transformer的ViT没有这些特点,需要大量数据做预训练,如在14M-300M的图片数据集上学习到能力超过CNN的归纳偏置。获得预训练之后再做迁移学习到小数据集

你可能感兴趣的:(笔记)