torch 将图像分成patch

img 原始shape=(3,256,256)

img = img.view(3,4,64,4,64)
img = img.permute(1,3,0,2,4)

此时img[i][j] 0<=i<4,0<=j<4代表每一个patch

其实在VIT中不用直接分patch,用一个conv就可以解决,例如输入图像224224,分成1414个patch,每个patch就是16*16。那么conv的卷积核尺寸为16,步长为16就解决了。

你可能感兴趣的:(python)