在自己的图像数据集上训练测试ViT-B16模型,以及position-embdding可视化-亲测可用

ViT在图像分类、检测、分割上已经取得了很大的成功!

下面讲解下如在自己的数据集上做训练:

环境 pytorch18.1+cu111

完整代码:https://download.csdn.net/download/qq_38784454/23512141

一、数据集制作

数据集需要采用猫狗大战的命名格式  如dog.0.jpg, cat..jpg等

二、转化预训练模型

我们需要将官网提供的预训练模型转化为torch能加载的模型(将jx_vit_base_p16_224-80ecf9dd.pth转化为base_p16_224_backbone.pth

百度网盘:预训练权重(包含已经转换好的base_p16_224_backbone.pth权重文件),将base_p16_224_backbone.pth放到model文件夹下,或者自己转化

链接:

你可能感兴趣的:(人工智能,深度学习,ViT,transformer,位置编码,可视化)