ML-Decoder: Scalable and Versatile Classification Head

ML-Decoder: Scalable and Versatile Classification Head,2021

可扩展和通用的分类头


要点

通过查询预测类标签的存在,与全局平均池化相比,能够更好地利用空间数据
基于GAP的分类头在多标签分类中,由于需要识别具有不同位置和大小的多个对象,导致平均池化GAP的使用不太理想
最近,基于注意力的多标签分类头
two-stream attention framework:从全局到局部的多类别对象识别
simple spatial attention score + class-agnostic average pooling features(与类别无关的平均池化特征)
pooling transformer with learnable queries for multi-classification(包含多标签分类可学习查询的池化转换器)

相比于传统的transformer-decoder,可扩展到ZSL(Zero-shot)
(1)去除冗余的自注意力块,将解码器在输入查询数量上的二次依赖降为线性依赖;
(2)新的 group-decoding 方案,不是为每个类分配一个查询,而是使用固定数量的查询,这些查询通过 group fully-connected 新架构 block 插入到最终的类数量中,使用 group-decoding,ML-decoder 将具有固定的空间池成本,并且可以很好的扩展到数千个类别;

贡献:
(1)新的分类头:为多标签、零镜头(zero-shot)和单分类提供统一的解决方案;
(2)ML-Decoder可用于替换全局平均池,与其他主干或基于注意力的头部相比,提供了更好的速度-准确率平衡;
(3)易扩展,补充查询增强技术提高了对不可见类的泛化能力;

transformer-decoder在COCO等少类别多标签数据集上效果较好,但是对于很多类别的大数据集,其计算成本是类数量的二次方


相关工作

Baseline Classification Heads:

处理空间嵌入的两类方案:
1、GAP-based:
通过简单的平均消除空间维度
(1)通过对空间维度进行全局平均池化,将空间嵌入减少为D维的一维向量;
(2)全连接层将空间嵌入向量转换为N个输出logit

2、Attention-based:
基于注意力,充分利用空间数据

** Attention and Transformer-Decoder:**

Q,K,V 详解

ML-Decoder:




图表

多功能性:

分类网络通常包含主干和分类头,主干输出一个空间嵌入张量,分类头将空间嵌入转化为预测logits
单分类中的分类头通常通过全局平均池化GAP+FC完成
基于GAP的分类头也用于多标签分类,但是需要识别具有不同位置和大小的多个对象,导致平均池化的使用不太理想

![在这里插入图片描述](https://img-blog.csdnimg.cn/66df65a0008f434c8b984970b84e8af2.png = 1000x)

可伸缩性:

空间池成本与类别数量无关

ML-Decoder:
(1)Self-attention removal:
移除了自注意模块
推理过程中,transformer的自注意模块对输入查询提供了一个固定的转换;
当查询进入交叉注意模块时,在进行Attention(Q,K,V)计算前将受到投影层影响;
实际上,投影层可以将查询转换为任何所需的输出,从而不再需要self-attention;
删除self-attention,并保持分类头的相同表达;
避免了一个代价昂贵的模块,并将ML-Decoder在输入查询数量上的二次依赖降低为线性依赖;

(2)Group-decoding:
解耦分类头与类数量,使交叉注意模块以及其后的前馈层与类数量无关;
类GAP,使用固定数量的组查询K作为输入,而不是每个类一个查询;

在前馈层之后,通过组全连接的pooling层将组查询转换为输出logits:
首先将每个组查询扩展到N/K个输出;
池化整合嵌入的维度。

Full-decoding:每个查询检测单个类的存在;
Group-decoding:每个查询检测一个组的类的存在,类别分组为随机划分(优化:通过语义相似性进行聚类分组)


ML-Decoder: Scalable and Versatile Classification Head_第1张图片
ML-Decoder: Scalable and Versatile Classification Head_第2张图片

ML-Decoder: Scalable and Versatile Classification Head_第3张图片

ML-Decoder: Scalable and Versatile Classification Head_第4张图片


代码

https://github.com/nightluo/ML_Decoder

你可能感兴趣的:(文献阅读笔记,人工智能,深度学习,自然语言处理)