全景分割相关论文写作与准备笔记

第一次写论文,把一些自己在写论文时收集的资料和阅读心得等零零碎碎记录下来。(写作方向是全景分割。)

CVPR经典论文introduction写法

VPS introduction:

全景分割的起源->应用->使用的数据集->自己网络的介绍->对比和评估->优势or贡献->把贡献总结如下:1234点巴拉巴拉

VIP introduction:

逆投影问题的定义->一般的解决办法->本文提出的办法->数据集介绍->对本文方法详细介绍并与其他方法对比突出自己的优势->把贡献总结如下:1234点巴拉巴拉

MAX-deeplab introduction:

全景分割的目标、使用的方法->最近的改进的方法(仍存在不足)->介绍我们的模型->评估并对比其他的方法我们的优势巴拉巴拉->把贡献总结如下:1234点巴拉巴拉

CVPR经典论文related work写法

Video Panoptic Segmentation (vps2020.1):

related work 主要分三大块:
1.第一大块Panoptic Segmentation:
讲了目前为止全景分割的处理,从最开始的提出者,到后来的各种优化。
Kirillov等人将语义分割和实例分割结合起来,这个创新称为全景分割;后来者又搜集了大量资料进行新的研究等等。
2.第二大块 Video Semantic Segmentation:
这一领域没有收到过多关注?可能是缺少合适的数据集,尽管数据集缺少,还是有人提出了通过光流利用时间信息来提高场景标记性能的准确性或效率。
3.第三大块 Video Instance Segmentation:
Yang等人提出了一种视频实例分割方法(VIS)将图像实例分割扩展到视频(2019年),它(VIS)结合了几个现有任务:视频对象分割[1,3,4,27,30,35,36,39]和视频对象检测[9,42,43],目的是同时检测、分割和跟踪视频中的实例。他们还提出了 Mask-Track R-CNN巴拉巴拉。我们的不同之处是巴拉巴拉,这使得我们的任务更具挑战性。

本文提出了一种新的方法VPSNet,该方法将时间特征融合模块和目标跟踪分支与单帧全景分割网络相结合。同时提出了一种新的评价指标VPQ。
缺点:在处理大量实例和解决这些对象之间的重叠方面仍需改进

ViP-DeepLab (2020.12):

ViP DeepLab通过联合执行单目深度估计和视频全景分割来实现,作者将这项联合任务命名为深度感知视频全景分割。该模型试图解决长期存在的视觉逆投影问题。
成果:ViP DeepLab实现了最先进的结果,在Cityscapes VPS上比以前的方法高出5.1%的VPQ。

related work 主要分三大块:
1.第一部分Panoptic Segmentation:
最近的图像全景分割方法可以分为两类:自顶向下(基于提案的)方法和自底向上(无框)方法。自上而下的方法是采用两阶段方法生成对象建议,然后输出基于区域计算的全景预测,例如xxx论文当中巴拉巴拉;自下而上的方法是巴拉巴拉…

2.第二部分Object Tracking :
视频全景分割的主要任务之一是目标跟踪,然后简单介绍了两类跟踪方法的设计巴拉巴拉。相比之下,我们的ViP DeepLab通过在两个连续视频帧中聚集所有实例像素隐式执行对象跟踪。而且我们的方法简单地使用了中心回归,在MOTS上取得了更好的结果。

3.第三部分Monocular Depth Estimation(单目深度估计):
单目深度估计巴拉巴拉~ViP DeepLab将单目深度估计建模为一个密集回归问题,我们以完全监督的方式对其进行训练。

max_deeplab (2021) :

related work分三部分:
1.第一部分Transformers:
2.第二部分Box-based panoptic segmentation.
大多数全景分割模型,如FPN,都采用基于框的方法,检测对象边界框并预测每个框的遮罩,通常使用mask R-CNN和FPN(特征金字塔)。实例分割和语义分割合成生成全景分割并列举了几个例子。例如UPSNet开发了一种无参数全景头巴拉巴拉;DETR通过基于transformer的端到端检测器扩展了基于包围框的方法。
3.第三部分Box-free panoptic segmentation.
与基于框的方法相反,无框方法通常从语义段开始,然后巴拉巴拉。在本篇文章中,我们使用mask transformer扩展了Axial-DeepLab来完成端到端的全景分割。

成果:是第一个端到端的全景分割模型,消除了许多手工设计的需求,在coco数据集上PQ增长了7.1% ,实现了state-of-the-art result,首次缩小了基于包围框和无包围框方法之间的差距。

Panoptic SegFormer(2022最新论文):

在本文中,作者提出了一个用Transformer进行端到端的全景分割框架。新提出了全景分割器(Panoptic SegFormer)的概念,Panoptic SegFormer可以超越以前的SOTA方法。本文还统一了things和stuff的处理流程,并证明了用相同的方式处理things和stuff的优越性。
related work分两部分:
1.第一部分Panoptic Segmentation:
先介绍了全景分割的概念;提到FPN、UPSNet和AUNet这些方法通过求解代理子任务来近似目标任务,引入了不期望的模型复杂性和次优性能。DETR预测things和stuff的边界框,并结合transformer解码器的注意力图和ResNet的特征图来执行全景分割;Max Deeplab通过双路径transformer直接预测对象类别和遮罩,而不管它是things还是stuff。与上面提到的方法不同,我们的方法巴拉巴拉。
2.第二部分End-to-end Object Detection:
DETR可以说是最具代表性的端到端目标探测方法,简单说了下deter。我们的方法巴拉巴拉。

Method

method 根据自己的网络和方法等进行合理细分即可。

Experiment

实验配置

数据集介绍、实现细节介绍、评估指标介绍

主要结果

消融实验

Conclusion

你可能感兴趣的:(笔记,计算机视觉,深度学习,人工智能)