多模态--Residual-based的融合方式

多模态–Residual-based的融合方式

之前希望通过融合图像语义信息提升双目视差网络的精度。

师兄也尝试过通过融合红外散斑双目图像RGB双目图像来提升双目视差网络的精度。

都有一些理论依据
1)小物体的视差差距往往小于大物体的视差差距。
2)红外散斑图像在白墙等物体上效果比较近好。
从结果上来看都有一些提升
但是融合方式都比较简单,基本就是直接concat。
损失函数部分也没有尝试过多的优化方法。

下图为通过融合图像语义信息提升双目视差网络的精度的网络结构图。
多模态--Residual-based的融合方式_第1张图片

网络结构优化

最近ICCV 2021 中的工作,基于视觉感知的多传感器融合点云语义分割方法《Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation》中使用的Residual-based的融合方式感觉比起concat要合理一些。

不知道之前是不是就有类似的方式,多模态还是很有趣的。

才疏学浅,有知道的朋友麻烦指出来

多模态--Residual-based的融合方式_第2张图片
https://mp.weixin.qq.com/s/uKipcDDh9V40zyFP9HpPIw

目标函数优化

《Gradient Surgery for Multi-Task Learning》中提到的把优化目标转化为向量,如果优化目标存在冲突,则进行处理的方式感觉比较合理。

多模态--Residual-based的融合方式_第3张图片

https://zhuanlan.zhihu.com/p/422460247?utm_source=wechat_session&utm_medium=social&utm_oi=817848465076916224&utm_campaign=shareopn

之前时间和机器都比较有限,并没有自己动手去尝试,希望以后有机会可以进行尝试。

你可能感兴趣的:(深度学习,python)