九月份读论文笔记

之前两个月有点松懈,都没有认真读论文记笔记,开学了,要开始加油了。
9月份目标:20篇paper

  • 2019.9.3
    Mask scoring R-CNN
    这篇文章是cvpr19的文章,在maskrcnn上进行了改进,虽然只做了很小的改动,但是motivation很充分,可以看出作者对maskrcnn研究的比较透彻。maskrcnn在输出instance置信度的时候,用的是分类的置信度,跟检测一样。这样做的问题是,即使框里的mask分割的很差,有可能置信度还是很高。所以作者引入了一个maskiou分支计算mask的置信度,最后将两个置信度相乘作为最终置信度输出。虽然文章很简单,但是非常有道理,最后的实验结果也证明mask ap可以有一个多点的提升。
    IoU-balanced loss functions for single -stage object detection
    本文提出了一个iou-balanced的classification loss 和localization loss,通过赋予iou高的正样本更大的权重,iou低的正样本更小的权重,从而降低低iou的样本对梯度产生的影响。文章后面的公式没太看懂,,,,以后有时间再研究吧

  • 2019.9.9
    OVSNet : Towards one-pass real-time video object segmentation
    本文贡献在于,用mask当成一个attention乘回到大尺寸特征上,进一步refine;加入一个reid module,输出128d的reid feature,用一个triple loss来监督,用来找回丢失的instance。本来想参考这个加到目前的工作中,然而不想搞了,算了算了。

  • 2019.9.10
    Semantic instance segmentation with a discriminative loss function
    本文基于bottom-up的instance segmentation,提了一个discriminative loss,主要功能为:同一instance的pixel,其embedding应尽可能接近instance center;不同instance的pixel,其embedding mean应尽可能相互远离。不过,实验结果还说了,对于coco,pascal voc这种类型的instance库,本文还是做不好。主要原因是基于cluster的方法,对appearance比较敏感,个体内部appearance差异比较大的情况下,本文的方法表现并不好。猜测,spatial embedding应该也是这样。
    Blazingly fast video object segmentation with pixel-wise metric learning
    这篇文章将object tracking形式化成一个pixel retrieval问题,对每一帧得到一个embedding,作为key,与第一帧的embedding进行匹配,从而得到最合适的label。

  • 2019.9.27
    Unsupervised Visual Representation Learning by Context prediction
    这篇文章可能是cv最早做self-supervision的文章(?autoencoder),通过回归两个patch之间的位置关系,强迫网络学习图像的特征。也可以算作一种预训练方法,只不过是没有标签的数据。直接回归两个patch的位置关系,可能还是有些粗暴,所以需要避免shortcut的出现。

  • 2019.9.28
    SCOPS: Self-supervised Co-Part segmentation
    本文用自监督的方法来做co-part segmentation,相比landmask检测的方法,本文的方法对appearance variation更鲁棒(?)。个人觉得主要是co-part不需要人为定义,可以自适应的学习;并且除了人、脸,其他类别并没有关键点定义。就方法而言,自监督主要在于定义object function,即优化目标,否则根本不知道要做啥。本文提出了很多loss function,空间一致性、语义一致性、类内一致性、类间差异性等都做了相应的约束。不过这个的问题就是,很难对分割结果进行评价,可以考虑拿去辅助其他任务,观察结果提升。
    Self-supervised learning for video correspondence flow
    (看完这篇文章后,感到了深深的绝望。。。自监督的video已经有好多人做过了,昨晚想的几个idea基本都是别人做的不能再做的。。。)
    本文是基于之前一篇将输入图片转化为灰度图,利用与reference帧之间的attention,将reference帧的color赋给target帧。文章指出训练时用灰度图,测试(用来辅助其他任务时)用rgb图,存在gap,导致模型不能提出很好的特征(那你直接测试也输灰度图不行吗?_?)所以提出一个类似dropout的输入处理,训练时以一定概率将某些通道置零。同时,还引入cycle consistency。作者声称这两个trick可以解决drifting,但是实验中只提到J和F有了性能提升,并没有表现出来drifting得到了专门的解决。总的来说,个人感觉,这篇文章的贡献不是很大,只是基于之前一篇文章的若干增量式改进。
    Context encoder: feature learning by inpainting
    这篇文章是比较早的用gan做inpaiting的文章,内容比较简单,就是一个encoder和一个decoder,用重构loss和对抗loss监督,实验效果不是很好,并且用来做预训练也并没有取得很好的结果。贵在第一个做吧。
    Unsupervised representation learning by predicting image rotations
    本文是将原图旋转一定角度(stride为90度),训练网络预测旋转的角度。由于只有理解图像的内容才能知道旋转角度,所以这种方法也可以学到具有代表性的特征。可视化特征图发现,自监督的网络的响应位置,跟有监督的分类网络的响应位置差不多。大概发现代理任务设计的要点是,能训练网络学习出来,同时又不存在shortcut,不需要网络理解图像内容就能学习出来。

你可能感兴趣的:(九月份读论文笔记)