最近在做这个方面的研究,关于图像区域标注,一般来说,现有的大部分标注都是基于image level的,低于图像级别的很少,下面介绍我的阅读笔记。
关于区域图像标注的叫法很多,正是因为研究人数少的原因,有些地方叫tag to region assignment,也有叫region tagging,也有叫region to label还有叫semantic segmentation的,在我看来都是一个意思,都是给图像的一个区域一个标签。
下面通过几篇文章分别介绍一下现有的region tagging的各个部分。
1.图像区域的获取
一般来说图像区域都是基于图像分割的方式获取,且不说图像分割的准确率如何,即使图像分割的在准确,很多时候也和我们的目标semantic有出入,例如一张教室的图片,如何分割才能得到教师的区域。并且很多时候分割得到的目标区域并不是完整的一个物体,人的半脸、全脸、上半身。所以很多时候我们并不是需要多么精确的划分,而是需要过划分(over segmentation),只要划分的得到的区域能够拼成一个semantic整体就可以,也有很多文章使用multi scale 图像分割。
文章【1】,使用了multi scale ,并且选择了具有unique semantic的instance(只能具有单个semantic的instances)。over-segmentation or under-segmentation can be easily reached by using different parameters for a segmentation algorithm. To solve this dilemma, we utilize a set of parameters to generate multiple segments (i.e. instances) with different sizes and shapes.在这些不同尺度的segments之中,作者认为至少有一个会和image的label,也就是semantic想对应。(我认为这个假设并不成立,比如说由不同的几个物体才能组成的一个概念,例如马群,台式机(主机和显示器,而且都是分割的))等等这些都不能通过multi scale分割得到。
上图显示了不同的尺度的划分结果,但是里面很多并不是unique instance,我们把他们看做unique instance的一个fragment,所以下一步就是进行过滤。
作者使用了random walk的过程,也是类似于page rank。作者提出了一个假设,认为那些我们需要的unique instance 和那些fragment(没有很好划分的那些)具有很高的相似性,因为那些fragment是它的一部分,所以可以根据相似性建立一条边,然后随机游走一下,得到relevance score。初始的relevance score和这个instance在multi scale segmentation中出现的次数有关(使用不同的scale都划分出这个instance了,就说明这个instance越重要),转移概率与两个instance的相似性成正比。
normalized L1 norm to measure the distance of two instances。The L1 norm (i.e. Manhattan distance) has been proved more robust to outliers than L2 norm (i.e., Euclidean distance). 最后保留relevance score最大的n/sigma个instance,n是划分的instance数目,sigma是尺度参数,这里不太明白,是对每个不同尺度划分的segment得到这些还是所有segment,因为sigma取了多个值。
Reference:
[1]Automatic tag-to-region assignment via multiple instance learning
[2]Tag Taxonomy Aware Dictionary Learning for Region Tagging