3D目标检测经典模型比较

研一不知道干啥,下面罗列了最近看的一些3D目标检测模型,其中都当作笔记记录在了主页博客里,不过记得不规范的就设置为私密了。现在比较一下相当于复习了,下面简单列了他们的主要思路。(有错误理解欢迎指出)

首先是基于LSS范式的:

3D目标检测经典模型比较_第1张图片

然后是基于transformer的:

3D目标检测经典模型比较_第2张图片

然后是基于双目立体视觉的:

3D目标检测经典模型比较_第3张图片

 

看了这些模型后的感受:

刚看基于transfromer的算法时,感觉未来的大方向就是类似于detr那种,感觉好简洁,摆脱了锚框和NMS,感觉网络可以放开干了,可是后面在detr的改进还是又加入了anchor的思想,希望基于注意力机制的模型可以多摆脱一些之前卷积网络的惯式,query在融合各种信息感觉更加自由,优雅。还有感觉双目立体视觉算法沿用了之前三维重建的很多思路,不过也差不多就是一回事,只是现在用于自动驾驶而已。还有就是看了nuscenes排行上排名前几的模型,感觉想上分就得加时序,对于视觉模型深度是最关键的点,得分高的模型不仅是多机位构造空间多视角,还要引入时序构造时序上的立体,还有就是bevdepth那种显示深度估计也起到不错的效果,不管显示隐式,我觉得在训练视觉模型时能用激光点云数据做监督才是本质。

只看论文不动手,感觉自己还是废物一个啊!

如果有大佬看到这边文章希望给点方向性意见,感觉好迷茫啊。

你可能感兴趣的:(PV2BEV,总结,人工智能)