ai培训师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-5

接上一篇

P9 P11

ViT中的Tranformer编码器

n Tranformer 编码器由 multi-head self-attention MSA )和 MLP 块的层组成。
n 在每个块之前应用 Layernorm LN ),在每个块之后应用残差连接。
n MLP 包含具有 GELU 非线性的两全连接层。
ai培训师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-5_第1张图片

Vision TransformerViT 

n 模型变种: ViT 的配置基于 BERT 所使用的配置,如下表, BERT 采用了“ Base” 和“ Large” 模型,并添加了较大的“ Huge” 模型。
ai培训师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-5_第2张图片

n 经过大数据集的预训练后,性能也超过了当前 CNN 的一些 SOTA 结果
ai培训师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-5_第3张图片

经过大数据集的预训练后,性能也超过了当前 CNN 的一些 SOTA 结果如上

BEiT

n 实验证明 vision Transformer 需要远比 CNN 更多的数据来训练。为了解决需要大量数据来训练的这个问题,自监督式的预训练是一个很有前途的方式,它可以利用大规模的图像数据。
n BEiT 的形式很接近 BERT ,只不过用了一个 dVAE patch 进行离散化(就像 NLP token 也是离散化的)。
n dVAE 需要先在语料上训练出一个 encoder 和一个 decoder encoder 用来当作 tokenizer ,把图像离散化(对应每一个 patch ),然后给 Transformer 输入 patch ,预测离散后的图像,再用 decoder 还原。

未完,下一篇继续……  

你可能感兴趣的:(人工智能讲师,AI,计算机视觉,人工智能,计算机视觉,ai培训师,人工智能培训,人工智能老师)