深度学习预训练与MMPreTrain

  • 来源
    • 深度学习预训练与MMPretrain_哔哩哔哩_bilibili
    • MMPreTrain Docs
  • MMPretrain算法库
    • 简介
      • 预训练开源算法框架
      • 源自MMClassification和MMSelfSup
    • 特点
      • 丰富的模型
      • 数据集支持
      • 训练技巧与策略
      • 易用性
    • 推理API
      • 包含丰富的相关任务:
        • 图像分类
        • 图像描述
        • 视觉问答
        • 视觉定位
        • 检索
    • 代码框架
      深度学习预训练与MMPreTrain_第1张图片
    • 配置文件的运作
      深度学习预训练与MMPreTrain_第2张图片
  • 主干网络
    • AlexNet
    • VGG
    • GoogLeNet
    • ResNet
      • 每级包含若干残差模块
      • 不同残差模块有不同个数的ResNet结构
      • 每级输出分辨率减半 通道倍增
      • 通过全局平均池化压缩空间维度
      • 通过单层全连接层输出类别概率
        深度学习预训练与MMPreTrain_第3张图片
    • Vision Transformer
      • 将图片切成若干固定的小块 所有块排列成“词向量”
      • 经过线性层映射后 送入Transformer Encoder产生特征向量
      • 最后通过MLP对特征向量进行分类
        深度学习预训练与MMPreTrain_第4张图片
  • 自监督学习
    • 方法分类
      • 基于各种代理任务
      • 基于对比学习
      • 基于掩码学习
    • 代表方法
      • SimCLR
        • 基本假设:若模型能够很好地提取图片的特征 那么无论图片经过什么数据增强操作 提取出来的特征都应该非常相似
        • 流程:
          • 对于某张图片 分别经过两次数据增强 得到两个样本
          • 这两个样本互为正样本
          • 其他图片增强结果都是负样本
          • 通过InfoNCE损失函数进行训练

      • Masked Autoencoder
        • 基本假设:模型只有理解图片内容 掌握图片的上下文 才能恢复出图片中被随机遮挡的内容
        • 流程:
          • 划分成规则不重叠的图像块 随机掩盖掉一部分图像块(75%)
          • 将没有遮挡的图像块按顺序送入Transformer Encoder中 获得特征向量
          • 将遮蔽的图像块(只包含位置信息) 按照原来的位置插入特征向量中
          • 放入Decoder 生成原始图片
      • iBOT
      • DINOv2
    • 多模态算法
      • CLIP
      • BLIP
      • BLIP2

你可能感兴趣的:(深度学习,人工智能,机器学习,计算机视觉)