目录
一、论文阅读笔记:
1、摘要:
2、主要贡献点:
3、方法:
3.1 网络的总体框架图:
3.2 Transformer-based Information Propagation Path (TIPP)
3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)
Q1: MHSA计算复杂度较高
A1:Patch-wise Token Re-Embedding (PTRE)
Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值
A2:View-Mixed Attention (VMA)
3.4 Inter-Modal Cross-Attention (IMCA)
4、实验:
二、代码复现
1、实验细节:
2、数据集:
3、实验步骤:
3.1 将对应的代码和数据集上传到服务器上
3.2 将根目录下的datasets.py里的路径更改成自己的路径
3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息
3.4 将预训练模型从给出的网址上下载下来,上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)
3.5 安装对应的module
3.6 在两个数据集上的训练结果
三、BUGS
问题1:assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError
问题2: TypeError: FormatCode() got an key word 'verify'
编辑
编辑 问题3:RuntimeError: CuDA error: no kernel imade is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrectFor debugging consider passing CUDA LAUNCH BLOCKING=1.
四、提问
发表期刊及年份:TIP 2023
代码网址:https://github.com/lartpang/CAVER
大多数现有的双模态(RGB-D 和 RGB-T)显着对象检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模态信息集成。卷积操作的固有局部连通性将基于卷积的方法的性能限制在天花板上。在这项工作中,我们从全局信息对齐和转换的角度重新思考这些任务。具体来说,所提出的跨模态视图混合转换器 (CAVER) 级联了几个跨模态集成单元来构建自上而下的基于转换器的信息传播路径。CAVER 将多尺度和多模态特征集成视为建立在新颖的视图混合注意力机制之上的序列到序列上下文传播和更新过程。此外,考虑到输入令牌数量的二次复杂度w.r.t,我们设计了一种无参数补丁令牌重新嵌入策略来简化操作。RGB-D 和 RGB-T SOD 数据集的广泛实验结果表明,当配备所提出的组件时,这种简单的双流编码器-解码器框架可以超越最近最先进的方法。代码和预训练模型将在链接处可用。
基于transformer的信息传播路径主要是四个CMUI模块之间自上而下地信息交互和传播,前三个CMUI模块(即CMUI1、CMUI2、CMUI3)都是有三个输入(RGB流、depth/thermal流,来自下一个CMUI的输出 ),但是最后一个CMUI4模块只有两个输入(即RGB流、depth/thermal流)
IMSA和CSSA两者的结构式相同的,但相较于自注意机制而言两者在FFN(前馈神经网络)和MHSA(多头注意力机制)两部分做出了改进。如下图所示:
其中如上两部分改进的原因:
MHSA单头的计算公式:
Qh、Kh、Vh 分别是单个头部的查询、键和值。Wq , Wk, Wv 是对应的投影矩阵。Z = [Y1,., Yh ] ,是一个输出投影层。
注意矩阵的点积运算具有输入序列长度的二次复杂度w.r.t,即N^2,这限制了它处理多尺度高分辨率特征。
与MHSA相比,PTRE被应用于将矩阵运算从像素形式提高到逐块形式,从而将复杂度降低了p^2倍。这里,p^2是Patch-wise中的元素数量。具体做法就是将1D序列折叠成2D的形式,部分和总体图如下面两图:
具体做法如下,值得注意的是,计算空间和通道的Z值时,计算方式不一样。
交叉注意机制和自注意机制两者之间的区别就是,自注意机制的Q、K、V是同源的,即来自同一个X,而交叉注意机制的Q、K、V是不同源的,如在IMCA中Q来自rgb流,但是K和V来自d/t流。
d/t流与上述公式类似
在AutoDL平台上租的服务器,服务器型号为:RTX A4000(16GB),同时使用的相关配置为:PyTorch 1.11.0 Python 3.8(ubuntu20.04) Cuda 11.3
并未采用论文里的数据集,而是采用rsdds_1500数据集和rsdds_113数据集
由于datasets.py中有多个数据集的定义,我只更改了第一个数据集的内容,具体是(更改的地方标红)
_RGBD_SOD_ROOT = "/root/autodl-tmp/CAVER/rsdds"
_RGBT_SOD_ROOT = "" # RGB-D SOD
rsdds= dict(
image=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/RGB", suffix=".bmp"),
depth=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/depth", suffix=".tiff"),
mask=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/GT", suffix=".png"),
)
由于使用的是ResNet101d训练模型,所以需要更改对应的./configs/rgbd-2dataset.py中的路径信息。
具体做法如下(由于数据集中图片较少,只进行了训练,没有测试,所以两者都是rsdds_113):
data = dict(
train=dict(
name=[
"rsdds_113",
],
shape=dict(h=256, w=256),
),
test=dict(
name=[
"rsdds_113"
],
shape=dict(h=256, w=256),
),
预训练模型网址:
Pre-trained parameters: Release All pretrained parameters. · lartpang/CAVER · GitHub
rsdds_113
解决办法:原来对应的datasets.py中的后缀suffix没有更改,原来对应的是如上图,但是我数据集里的三个文件夹中对应的图片格式与之不同,更改成对应的后缀即可 ,如下图:
_RGBD_SOD_ROOT = "/root/autodl-tmp/CAVER/rsdds"
_RGBT_SOD_ROOT = "" # RGB-D SOD
rsdds= dict(
image=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/RGB", suffix=".bmp"),
depth=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/depth", suffix=".tiff"),
mask=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/GT", suffix=".png"),
)
解决办法:我对应文件夹里的预训练模型上传出现问题,对应的.pth文件大小为0Bytes,重新上传即可
解决办法:由于为了直接快速安装各种包,我直接使用 pip install -r requirements.txt
安装各种包,但是由于txt文件里有torch和torchvision的版本,与无使用的版本不同,导致我原先的版本被卸载,重新安装了对应的版本,但是由于安装是从阿里云镜像里安装的cpu版本,导致出现这个问题。所以直接换一个服务器,然后再将requirements.txt中对应的
torch和torchvision的版本要求删掉,或者一步一步根据错误提示安装对应的包即可。
问题1:SOD(显著性目标检测)和图像分割之间的区别