随笔记录——不同模态信号、表征与应用

基本概述

深度学习模型(主要是感知类模型)接受的输入信号,主要包括图像、文本、语音等信号。不同模态的输入信号,经过模型的逐层抽象、转换之后,转变为不同程度的抽象表示(如语义、表征、编码知识等),并应用于不同的任务场景。

随笔记录——不同模态信号、表征与应用_第1张图片

如上图所示,深度学习模型包含前处理、浅层、深层、任务相关层与后处理多个阶段,不同阶段的输入/输出具备不同的含义,简述如下(图像信号处理以CNN模型为例、语音/文本信号处理以BERT/Transformer模型为例):

  • 输入信号:模型接收的输入信号,是原始的、或仅初步加工的数据(raw data),包括自然信号(图像、语音)与人工信号(文本);自然信号通常包含噪声、且信息冗余度较高;人工信号包含丰富语义,但含糊不清的表述也容易产生歧义;
  • 前处理:对于自然信号,典型如标准化、降噪滤波、信号域变换(如时域转频域)、降采样等信号预处理;对于人工信号,典型如文本信号的Tokenizer处理、Embedding查找表等;经前处理之后,信号将转为初步的特征表示,如Normalized image、Acoustic feature、Token embedding等;
  • 浅层处理:图像信号经浅层处理,能获取初步抽象的、细节性的特征(感受野较小),主要成分是低级的、高分辨率的纹理信息;文本、语音等序列信号经浅层处理,基于Attention机制的Context上下文信息编码,就能转为较高层次的抽象语义、或特征表征;
  • 深层处理:图像信号经过进一步的深层处理,将转为高层次的抽象语义(感受野较大)、或特征表征,有时为了丰富深层特征的细节信息,会采用FPN结构以融合浅层特征;序列信号的深层次处理可能是冗余的,尤其针对规模较小的下游任务,适当裁剪模型的网络深度、通常也不会影响预测精度,从而起到模型压缩与加速的目的;
  • 任务相关层:基于Backbone(包含了模型的浅层与深层)输出的抽象语义或特征表征,完成分类、回归等具体任务。基于视觉任务,举例如下:
    • Semantic-level:分类任务,依赖全局语义的完美表示,如ImageNet图像分类;特征匹配,依赖模型的特征表征能力(即包含语义、又不失细节,方显完美),如人脸识别、商品检索、矢量召回等;
    • Instance-level:目标检测,依赖实例目标的语义表示、以及位置相关的纹理细节信息;浅层特征由于感受野较小、富含纹理,适合小目标检测;深层特征由于感受野较大、富含语义,适合大目标检测,当目标尺度接近原图范围时,则近似于图像分类;
    • Pixel-level:语义/实例分割,依赖实例的语义表征、纹理信息;Low-level图像任务(如图像增强、超分、插帧等),主要依赖图像的纹理信息、局部语义;
  • 后处理:完成预测信息的精细化加工,并应用于具体的任务场景;

基于大规模数据集的预训练方法(如监督学习、自监督学习、对比学习等),能够有效确保Backbone的语义抽象、特征表征与实例鉴别能力。

除了对单一模态信号处理、加工的应用范式,也存在如CLIP、M6、Switch Transformer等多模态大模型,能实现多模特特征表征、内容理解、跨模态内容生成等任务。在具体的下游应用场景,大模型的压缩与知识蒸馏,是确保应用部署与泛化迁移的基础。

M6大模型的平台化应用,参考官网介绍:

大数据和AI案例体验馆

Bert/Transformer模型压缩与优化加速,参考如下讨论:

Bert/Transformer模型压缩与优化加速_AI Flash-CSDN博客_transformer模型加速

CLIP系列

简单介绍CLIP(图像文本双模态预训练模型)、以及视觉语言应用情况。

  • CLIP (Contrastive Language Image Pre-training):​​​​​​​
    • 预训练数据集:经由4亿图像文本对的自监督预训练(对比学习),构建了统一的视觉/文本表征空间;
    • 模型结构:包含Image encoder(如ViT、ResNet等)、与Text encoder(如Transformer),分别用以提取视觉特征、与文本特征;视觉特征与文本特征之间,通过dot production计算相似度;
    • Zero-shot应用:针对特定的下游任务,需人工设计Prompt、并与任务标签文本(如类目文本)相连接,以提取文本特征;典型下游任务如图文搜索、图像描述、图像分类等;CLIP亦可应用于Fine-tuning或Linear probe;

随笔记录——不同模态信号、表征与应用_第2张图片

  • Open Vocabulary Object Detection:
    • ​​​​​​​基于CLIP的知识迁移,将目标检测器的特征表征、统一到CLIP表征空间,以增强目标检测器在开放词汇场景的Zero-shot应用能力;

随笔记录——不同模态信号、表征与应用_第3张图片

 ​​​​​​​

  • CoOp(Prompt-tuning):
    • ​​​​​​​引入可训练的Context或Prompt,通过Few-shot learning微调Prompt,获得更好的文本表征以适应下游任务;

随笔记录——不同模态信号、表征与应用_第4张图片

 

  • CLIP-adapter:
    • 在CLIP的Image encoder或Text encoder中引入随机初始化的Adapter(轻量的Bottleneck模块),通过Few-shot learning更新适配器、以更好的适配下游任务;并通过残差结构融合CLIP原知识与适配知识,以减轻少样本训练的过拟合;

随笔记录——不同模态信号、表征与应用_第5张图片

你可能感兴趣的:(深度学习,自然语言处理,人工智能,深度学习,多模态处理,计算机视觉,自然语言处理,语音识别)