论文阅读《STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos》
论文链接:https://arxiv.org/abs/2003.08429STEmSeg是ECCV20上的一篇文章,做的是VideoInstanceSegmentation(VIS),提出了一种可以end-to-end的方法,大大简化了VIS的pipeline,同时在很多数据集上达到了SOTA。过去很多经典的方法都遵循top-down模式,即仿照MOT里的tracking-by-detection