Transformer Fusion for Indoor RGB-D Semantic Segmentation非官方自己实现的代码
声明:文章没有官方的代码,这里自己浅显的分析一下。首先看一下encoder,就是swintransformer,假设RGB的维度为(1,3,480,480),Depth维度为(1,1,480,480)。维度分别变为**(1,64,120,120)—>(1,64,120,120)—>(1,128,60,60)—>(1,256,30,30)—>(1,512,15,15)。**接着经过卷积,然后展平。在