论文下载链接:https://arxiv.org/abs/2010.11929
ViT(Vision Transformer)与传统的卷积神经网络(CNN)在图像处理方面有几个关键的不同点:
1. 模型结构:
- ViT:主要基于Transformer结构,没有使用卷积层。
- CNN:使用卷积层、池化层和全连接层。
2. 输入处理:
- ViT:将图像分为多个固定大小的块并一次性处理。
- CNN:通过卷积窗口逐渐扫描整个图像。
3. 计算复杂性:
- ViT:由于自注意力机制,计算复杂性可能更高。
- CNN:通常更易于优化,计算复杂性相对较低。
4. 数据依赖性:
- ViT:通常需要更多的数据和计算资源来进行有效的训练。
- CNN:相对更容易在小数据集上进行训练。
在深度学习的历史中,卷积神经网络(Convolutional Neural Networks, CNNs)长期以来一直是处理图像任务的主流架构。然而,随着Transformer的成功应用于自然语言处理(NLP)任务,研究人员开始考虑其在计算机视觉中的潜力。
灵活的全局注意机制
- 全局上下文: 与局部感受野的CNN不同,Transformer具有全局的感受野,这使其可以在整个图像上进行信息融合。这种全局上下文可能在某些任务中非常有用,如图像分割、物体检测和多物体交互等。
可解释性和注意可视化
- 更好的可解释性: 由于自注意机制,我们可以很容易地可视化模型在做决策时关注的区域,这增加了模型的可解释性。
序列到序列任务
- 更容易处理序列输出: 在像图像字幕这样的任务中,同时考虑图像和文本信息变得更为直接,因为两者都可以用相似的Transformer架构来处理。
适应性
- 更容易适应不同尺度和形状: Transformer不依赖于固定尺寸的滤波器,因此理论上更容易适应各种各样的输入。
Transformer模型最初是由Google的研究人员在2017年的论文《Attention Is All You Need》中提出的。这个模型引入了一种全新的架构,主要以自注意(Self-Attention)机制为基础,并成功地解决了当时自然语言处理(NLP)中的一系列任务。这里列举一些Transformer在NLP领域的重要突破和影响:
1. 序列建模问题的新视角
传统的RNN(循环神经网络)和LSTM(长短时记忆)网络因为其递归的特性,在处理长序列时会遇到梯度消失或梯度爆炸的问题。Transformer通过自注意机制成功地捕获了序列内部的依赖关系,并且能够并行处理整个序列,从而在很多方面超过了RNN和LSTM。
2. 自注意机制
Transformer模型中的自注意机制允许模型在不同位置的输入之间建立直接的依赖关系,这让模型能更容易地理解句子或文档内部的上下文关系。这种机制特别适用于诸如机器翻译、文本摘要、问答系统等需要捕获长距离依赖的任务。
3. 可扩展性
由于其并行性和相对较少的时间复杂性,Transformer架构能更有效地利用现代硬件。这使得研究人员能够训练更大、更强大的模型,从而取得更好的性能。
4. 多模态和多任务学习
Transformer的架构具有高度的灵活性,可以容易地扩展到其他类型的数据和任务,包括图像、音频和多模态输入。这一点在后续的研究和应用中得到了广泛的证实。
5. 预训练和微调
Transformer架构适用于预训练和微调的工作流程。大型的预训练模型如BERT、GPT和T5都是基于Transformer构建的,并在多种NLP任务上设立了新的性能基准。
从心理学上来讲
想象一下,假如我们面前有五个物品: 一份报纸、一篇研究论文、一杯咖啡、一本笔记本和一本书。所有纸制品都是黑白印刷的,但咖啡杯是红色的。 换句话说,这个咖啡杯在这种视觉环境中是突出和显眼的, 不由自主地引起人们的注意。 所以我们会把视力最敏锐的地方放到咖啡上
注意力机制
计算过程
多头注意力(Multi-Head Attention)
为了更丰富地捕捉不同的依赖关系,通常会使用多头注意力。在多头注意力中,模型维护多组独立的查询、键和值的权重矩阵,并进行并行计算。各个头的输出会被拼接并通过一个全连接层进行整合。
前馈神经网络(Feed-forward Neural Networks, FFNNs)是最早的、最简单的神经网络架构。这种网络的特点是数据在网络中只有一个方向进行传播:从输入层,经过隐藏层,最终到输出层。这种单向的数据流动是“前馈”名字的由来。
结构和组件
激活函数
为了引入非线性特性,每个神经元通常会有一个激活函数。常用的激活函数有:
训练
前馈神经网络通常使用反向传播(Backpropagation)算法进行训练,这涉及到:
在Transformer中的应用
虽然Transformer架构主要着重于自注意机制,但它在每个注意力模块之后都有一个前馈神经网络(通常是两层的网络)。这为模型引入了额外的计算能力,并帮助捕获数据的不同特征。
在Transformer架构中,残差连接起到了非常关键的作用。它们出现在自注意力(Self-Attention)层和前馈神经网络(Feed-forward Neural Networks)层的后面,通常与层归一化(Layer Normalization)一起使用。
结构与功能
在Transformer中,每一个子层(如多头自注意力或前馈神经网络)的输出都会与该子层的输入相加,形成一个残差连接。这种连接结构可以表示为:
Output=Sublayer(x)+x
或者更一般地:
Output=LayerNorm(Sublayer(x)+x)
这里的Sublayer(x)是子层(例如多头自注意力或前馈神经网络)的输出,而LayerNorm是层归一化。
基本原理
层标准化的核心思想是对每一层的每一个样本独立进行标准化,以便每一层的输出具有大致相同的尺度。在全连接层或者卷积层之后,但通常在激活函数之前应用层标准化。
数学表示为:
在Transformer中的应用
在Transformer架构中,层标准化通常与残差连接(Residual Connections)结合使用。每个残差连接后面都会跟一个层标准化步骤,以稳定模型训练。这种组合有助于模型在训练期间保持数值稳定性,尤其是对于非常深的模型。
class AddNorm(nn.Module):
"""残差连接后进行层规范化"""
def __init__(self, normalized_shape, dropout, **kwargs):
super(AddNorm, self).__init__(**kwargs)
self.dropout = nn.Dropout(dropout)
self.ln = nn.LayerNorm(normalized_shape)
def forward(self, X, Y):
return self.ln(self.dropout(Y) + X)
优点
缺点
卷积神经网络(CNN)和Vision Transformer(ViT)都是用于处理图像任务的流行模型,但它们有着不同的设计哲学和应用范围。下面简要介绍这两者之间的演进。
1. 局部感受野
CNN通过局部感受野(receptive fields)来处理图像,这在某些任务中是一个局限性。虽然这种设计有助于识别图像中的局部结构,但它可能不适合捕捉远距离的依赖关系。
2. 计算成本
当处理高分辨率图像时,卷积操作的计算成本可能会非常高。
3. 空间结构假设
CNN假设输入数据具有某种固有的空间或时间结构。这使得CNN不容易适用于没有明确空间结构的数据。
4. 参数效率
在参数效率方面,即使使用了各种技巧(如批标准化、残差连接等),CNN仍然可能不如Transformer模型。
Vision Transformer是由Google Research在2020年首次提出的,它的设计灵感来自于用于自然语言处理的Transformer模型。
1. 全局注意力
与CNN不同,ViT使用全局自注意力机制,可以更好地处理图像中的远距离依赖关系。
2. 计算效率
ViT通过自注意力和前馈神经网络来实现计算效率,特别是在处理高分辨率图像时。
3. 模块化和可扩展性
ViT具有很好的模块化和可扩展性,可以容易地调整模型大小和复杂性。
4. 参数效率
在大量数据集上进行预训练后,ViT通常表现出高度的参数效率,即在相同数量的参数下,性能比CNN更好。
5. 跨模态应用
由于ViT没有硬编码的空间假设,它也更容易应用于其他类型的数据和任务。
输入:将图像分割成patches
class EncoderBlock(nn.Module):
"""Transformer编码器块"""
def __init__(self, key_size, query_size, value_size, num_hiddens,
norm_shape, ffn_num_input, ffn_num_hiddens, num_heads,
dropout, use_bias=False, **kwargs):
super(EncoderBlock, self).__init__(**kwargs)
self.attention = d2l.MultiHeadAttention(
key_size, query_size, value_size, num_hiddens, num_heads, dropout,
use_bias)
self.addnorm1 = AddNorm(norm_shape, dropout)
self.ffn = PositionWiseFFN(
ffn_num_input, ffn_num_hiddens, num_hiddens)
self.addnorm2 = AddNorm(norm_shape, dropout)
def forward(self, X, valid_lens):
Y = self.addnorm1(X, self.attention(X, X, X, valid_lens))
return self.addnorm2(Y, self.ffn(Y))
Transformer编码器中的任何层都不会改变其输入的形状。
在Vision Transformer(ViT)模型中,用于分类任务的输出头通常是一个全连接(线性)层,该层将Transformer编码器的输出映射到类别标签的数量。在多数实现中,通常会使用Transformer编码器输出的第一个位置(通常与添加的特殊 [CLS] 标记对应)的特征。
随着Vision Transformer(ViT)在图像分类任务中的成功,很多研究者开始探索其变种和改进方案。这里选择一些值得关注的变种和相关工作进行概述解析:
import torch
import torch.nn as nn
import torch.nn.functional as F
# 分割图像到patch
class PatchEmbedding(nn.Module):
def __init__(self, patch_size, in_channels, embed_dim):
super().__init__()
self.proj = nn.Conv2d(in_channels, embed_dim, kernel_size=patch_size, stride=patch_size)
def forward(self, x):
x = self.proj(x) # [B, C, H, W]
x = x.flatten(2).transpose(1, 2) # [B, num_patches, embed_dim]
return x
# DeiT 模型主体
class DeiT(nn.Module):
def __init__(self, patch_size, in_channels, embed_dim, num_heads, num_layers, num_classes):
super().__init__()
# 分割图像到patch并嵌入
self.patch_embed = PatchEmbedding(patch_size, in_channels, embed_dim)
# 特殊的 [CLS] token
self.cls_token = nn.Parameter(torch.zeros(1, 1, embed_dim))
# 位置嵌入
num_patches = (224 // patch_size) ** 2
self.pos_embed = nn.Parameter(torch.zeros(1, num_patches + 1, embed_dim))
# Transformer 编码器
encoder_layer = nn.TransformerEncoderLayer(embed_dim, num_heads)
self.transformer = nn.TransformerEncoder(encoder_layer, num_layers)
# 分类器头
self.fc = nn.Linear(embed_dim, num_classes)
def forward(self, x):
B = x.size(0)
# 分割图像到patch并嵌入
x = self.patch_embed(x)
# 添加 [CLS] token
cls_token = self.cls_token.repeat(B, 1, 1)
x = torch.cat([cls_token, x], dim=1)
# 添加位置嵌入
x += self.pos_embed
# 通过 Transformer
x = self.transformer(x)
# 只取 [CLS] 对应的输出用于分类任务
x = x[:, 0]
# 分类器
x = self.fc(x)
return x
# 参数
patch_size = 16
in_channels = 3
embed_dim = 768
num_heads = 12
num_layers = 12
num_classes = 1000 # 假设是一个1000分类问题
# 初始化模型
model = DeiT(patch_size, in_channels, embed_dim, num_heads, num_layers, num_classes)
# 假数据
x = torch.randn(32, 3, 224, 224) # 32张3通道224x224大小的图片
# 模型前向推断
logits = model(x)
知识蒸馏(Knowledge Distillation, KD)是一种模型压缩技术,用于将一个大型、复杂模型(通常称为“教师模型”)的知识转移到一个更小、更简单的模型(通常称为“学生模型”)中。这样做的目的是在保持与大型模型相近的性能的同时,降低模型大小和推断时间。
工作原理
简单的知识蒸馏代码示例
假设我们有一个教师模型(teacher_model)和一个学生模型(student_model),下面是一个使用PyTorch进行知识蒸馏的简单示例:
import torch
import torch.nn.functional as F
# 假定 teacher_model 和 student_model 已经定义并初始化
# teacher_model = ...
# student_model = ...
# 数据加载器
# data_loader = ...
# 优化器
optimizer = torch.optim.Adam(student_model.parameters(), lr=0.001)
# 温度参数和软标签权重
temperature = 2.0
alpha = 0.9
# 训练循环
for data, labels in data_loader:
optimizer.zero_grad()
# 正向传播:教师和学生模型
teacher_output = teacher_model(data).detach() # 注意:通常不会计算教师模型的梯度
student_output = student_model(data)
# 计算损失
hard_loss = F.cross_entropy(student_output, labels) # 与真实标签的损失
soft_loss = F.kl_div(F.log_softmax(student_output/temperature, dim=1),
F.softmax(teacher_output/temperature, dim=1)) # 与软标签的损失
loss = alpha * soft_loss + (1 - alpha) * hard_loss
# 反向传播和优化
loss.backward()
optimizer.step()
应用场景
知识蒸馏不仅适用于模型压缩,在一些特定应用中也能用于提高小型模型的性能,例如在DeiT(Data-efficient Image Transformer)中用于提高数据效率。
以下我们假设有一个已经训练好的大型 Transformer 模型(教师模型),以及一个更小的 Transformer 模型(学生模型)。
注意:这里为了简单,我们使用 nn.Transformer 模块作为 Transformer 的简单实现。你也可以根据需要替换为更复杂的模型。
损失函数包含两部分:一部分是学生模型和实际标签之间的损失,另一部分是学生和教师模型输出之间的 Kullback-Leibler 散度。
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
# 定义简单的 Transformer 模型
class SimpleTransformer(nn.Module):
def __init__(self, d_model, nhead, num_layers, num_classes):
super(SimpleTransformer, self).__init__()
self.encoder = nn.Transformer(d_model, nhead, num_layers)
self.classifier = nn.Linear(d_model, num_classes)
def forward(self, x):
x = self.encoder(x)
x = x.mean(dim=1)
x = self.classifier(x)
return x
# 定义损失函数
def distillation_loss(y, labels, teacher_output, T=2.0, alpha=0.5):
return nn.CrossEntropyLoss()(y, labels) * (1. - alpha) + (alpha * T * T) * nn.KLDivLoss()(F.log_softmax(y/T, dim=1),
F.softmax(teacher_output/T, dim=1))
# 假设我们有一些数据
# 注意:这里使用随机数据仅作为示例
N = 100 # 数据点数量
d_model = 32 # 嵌入维度
nhead = 2 # 多头注意力的头数
num_layers = 2 # Transformer 层的数量
num_classes = 10 # 分类数
T = 2.0 # 温度参数
alpha = 0.5 # 蒸馏损失的权重因子
x = torch.randn(N, 10, d_model)
labels = torch.randint(0, num_classes, (N,))
# 初始化教师和学生模型
teacher_model = SimpleTransformer(d_model, nhead, num_layers, num_classes)
student_model = SimpleTransformer(d_model, nhead, num_layers, num_classes)
# 设置优化器
optimizer = optim.Adam(student_model.parameters(), lr=0.001)
# 模拟训练过程
for epoch in range(10):
# 前向传播
teacher_output = teacher_model(x).detach() # 通常来说,教师模型是预先训练好的,因此不需要计算梯度
student_output = student_model(x)
# 计算损失
loss = distillation_loss(student_output, labels, teacher_output, T, alpha)
# 反向传播和优化
optimizer.zero_grad()
loss.backward()
optimizer.step()
print(f"Epoch {epoch+1}, Loss: {loss.item()}")
混合模型(Hybrid models)结合了 Vision Transformer(ViT)和卷积神经网络(CNN)的优点,以实现更强大的图像识别能力。这类模型通常使用 CNN 作为特征提取器,将其输出用作 ViT 的输入。
在一个典型的混合模型中,CNN 通常用作特征提取器,而 ViT 用作特征编码和分类。
import torch
import torch.nn as nn
# 假设使用 ResNet 的某个版本作为特征提取器
class FeatureExtractor(nn.Module):
def __init__(self, ...):
super().__init__()
# 定义 CNN 结构,例如一个简化的 ResNet
...
def forward(self, x):
# 通过 CNN 提取特征
return x
# ViT 作为编码器
class ViTEncoder(nn.Module):
def __init__(self, ...):
super().__init__()
# 定义 Transformer 结构
...
def forward(self, x):
# 通过 Transformer 编码特征
return x
# 混合模型
class HybridModel(nn.Module):
def __init__(self, ...):
super().__init__()
self.feature_extractor = FeatureExtractor(...)
self.vit_encoder = ViTEncoder(...)
self.classifier = nn.Linear(...)
def forward(self, x):
x = self.feature_extractor(x) # CNN 特征提取
x = self.vit_encoder(x) # Transformer 编码
x = self.classifier(x) # 分类头
return x
Swin Transformer 是一种用于计算机视觉任务的 Transformer 架构,提出了一种基于滑窗(sliding window)的自注意机制。这种方法结合了卷积神经网络(CNN)和 Transformer 的优点,旨在实现更高的模型效率和性能。
import torch
import torch.nn as nn
import torch.nn.functional as F
# 切分图像为patches
class PatchEmbedding(nn.Module):
def __init__(self, in_channels, out_dim, patch_size):
super().__init__()
self.conv = nn.Conv2d(in_channels, out_dim, kernel_size=patch_size, stride=patch_size)
def forward(self, x):
x = self.conv(x)
x = x.flatten(2).transpose(1, 2)
return x
# 滑窗注意力
class WindowAttention(nn.Module):
def __init__(self, dim, heads, window_size):
super().__init__()
self.dim = dim
self.heads = heads
self.window_size = window_size
self.query = nn.Linear(dim, dim)
self.key = nn.Linear(dim, dim)
self.value = nn.Linear(dim, dim)
def forward(self, x):
# 假设 x 的形状为 [batch_size, num_patches, dim]
# 分割为多个窗口
windows = x.view(x.size(0), self.window_size, self.window_size, self.dim)
# 计算 q, k, v
q = self.query(windows)
k = self.key(windows)
v = self.value(windows)
# 注意力计算
attn = torch.einsum('bqhd,bkhd->bhqk', q, k)
attn = F.softmax(attn, dim=-1)
# 输出
out = torch.einsum('bhqk,bkhd->bqhd', attn, v)
out = out.contiguous().view(x.size(0), self.window_size * self.window_size, self.dim)
return out
# Swin Transformer Block
class SwinBlock(nn.Module):
def __init__(self, dim, heads, window_size):
super().__init__()
self.norm1 = nn.LayerNorm(dim)
self.attn = WindowAttention(dim, heads, window_size)
self.norm2 = nn.LayerNorm(dim)
self.mlp = nn.Sequential(
nn.Linear(dim, dim),
nn.GELU(),
nn.Linear(dim, dim)
)
def forward(self, x):
x = x + self.attn(self.norm1(x))
x = x + self.mlp(self.norm2(x))
return x
# Swin Transformer 模型
class SwinTransformer(nn.Module):
def __init__(self, in_channels, out_dim, patch_size, num_classes):
super().__init__()
self.patch_embedding = PatchEmbedding(in_channels, out_dim, patch_size)
# 假设我们有 4 个 Swin Blocks 和窗口大小为 8
self.blocks = nn.ModuleList([
SwinBlock(out_dim, 8, 8) for _ in range(4)
])
self.global_avg_pool = nn.AdaptiveAvgPool1d(1)
self.fc = nn.Linear(out_dim, num_classes)
def forward(self, x):
x = self.patch_embedding(x)
for block in self.blocks:
x = block(x)
x = self.global_avg_pool(x.mean(dim=1))
x = self.fc(x.squeeze(-1))
return x
# 测试模型
if __name__ == '__main__':
model = SwinTransformer(3, 128, 4, 10)
x = torch.randn(16, 3, 32, 32) # 假设有 16 张 32x32 的图像
y = model(x)
print(y.shape) # 应该输出 torch.Size([16, 10])