论文阅读CVPR Maskformer和Mask2former

前言(碎碎念):

七月初学完最原始的transformer之后,一直感觉对attention和transformer的理解云里雾里的,似懂非懂,后来又学习了关于visual transformer,像是ViT、Swin、MAE、MoCo和DETR之后,尤其是学习了DETR之后感觉那个query更加神奇了。决心趁热打铁,对transformer再加深理解。

这两篇工作比较有名,在benchmark的CoCo和ADE等数据集里表现非凡。FAIR出品,钞能力~

因为我还是一个初出茅庐的小白,水平和精力实在有限,所写的内容仅为目前为止对工作的理解和思考。其实是更想借这几个工作好好理解一下transformer query based的分割任务,其中如果有理解的不对的地方希望大家指出来,一起交流学习!~

题外话:为什么想学这篇工作?

想读的原因:1、对上一篇汇报的《Rethinking Semantic Segmentation:A Prototype View》里提到的分割任务里的query vector查询方式做分割挺好奇,正好maskformer就是如此 

2、学完detr之后,觉得

你可能感兴趣的:(精读AI论文系列,transformer,深度学习,人工智能,图像处理,学习)