PointRend的原理与代码解读

PointRend的提出是为了解决实例分割精度不高的问题,当然也可以应用到语义分割上。PointRend是如何解决分割结果精细度不高的问题呢?下面回顾一下语义分割领域最经典的FCN模型。

PointRend的原理与代码解读_第1张图片

FCN语义分割思想:对原始图像经过不断的卷积和池化,得到高语义低分辨率特征,然后进行分类,分类后直接上采样(线性插值类算法)到与图像大小一致的结果,这样必然会导致分割结果很粗糙,尤其是边界部分误差很大。

(代码层面上实现,有一种是原始图像经过卷积池化后,上采样到原始图像大小后再进行像素级的分类预测)

PointRend的原理与代码解读_第2张图片

后面大部分的语义分割模型都是基于FCN框架衍生,并在最后上采样部分做了修改,如UNet,deeplabV3+,PSPNet分类预测后上采样的倍数都不一样。

PointRend核心思想:语义分割经过多次池化降采样后,直接预测分类结果,而不是上采样到跟原图像同样尺寸。在粗糙的分割结果中选择分割精度不高的点,然后在这些点上结合粗糙和精细的特征训练MLP模型,对这些点进行重新预测,在训练阶段用重新预测的结果替换原来预测的粗糙结果进行loss计算。推理阶段重新预测的结果替换原来预测的粗糙结果。

训练阶段:

以deeplabv3+为例,输入影像经过特征提取backbone(如RestNet)后,选取layer2和layer4层特征,其中layer4层经过deeplabv3+的ASPP后,直接预测分类结果,称为corase分类结果。layer2称为精细特征fine。然后在corase分类结果中选择分类结果不是非常确定的点(数目为输入影像高度的16分之一),然后根据这些不确定点的坐标分别在corase分类结果特征和layer2特征上采集相应的特征,最后把特征cat后送入mlp进行训练,得到新的预测结果,叫rend。

损失:分为2个,一个是corase分类结果直接上采样后与gt对比得到的seg loss;另一个是rend预测结果与根据不确定点坐标在gt上采样得到的结果进行计算得到的points loss。

PointRend的原理与代码解读_第3张图片

ASPP

推理阶段:

以deeplabv3+为例,输入影像经过特征提取backbone(如RestNet)后,选取layer2和layer4层特征,其中layer4层经过deeplabv3+的ASPP后,直接预测分类结果,称为corase分类结果。layer2称为精细特征fine。然后对corase分类结果进行2倍上采样,再在上面进行点采样(文章8096个points);接着再在layer2层采样,然后把2种采样特征cat起来,放入mlp进行预测,预测结果代替2倍上采样后的corase分类结果;

一直迭代下去,直到操作到原始图像尺寸大小为止。

注意点:训练和推理的不确定点的采样策略不一样

代码理解:

函数def point_sample(input, point_coords, **kwargs)调用了F. grid_sample函数进行采样。

def grid_sample(
    input: Tensor,
    grid: Tensor,
    mode: str = "bilinear",
    padding_mode: str = "zeros",
    align_corners: Optional[bool] = None,
)

官方说明:

Given an input and a flow-field grid, computes the output using input values and pixel locations from grid.

个人理解:

简单来说就是,提供一个input的Tensor以及一个对应的flow-field网格(比如光流,体素流等),然后根据grid中每个位置提供的坐标信息(这里指input中pixel的坐标),将input中对应位置的像素值填充到grid指定的位置,得到最终的输出。​

PointRend的原理与代码解读_第4张图片

 

你可能感兴趣的:(图像分割,深度学习,计算机视觉,机器学习)