图像分割(上)

显著性检测

    显著性物体分割:最能引起人的视觉注意的物体区域

    注视点预测:通过对眼动的预测和探究探索人类视觉注意机制

    俩种策略的视觉注意机制:

        自底而上基于数据驱动的注意机制:从数据出发,与周边有较强对比度或差异,颜色,亮度,边缘等特征

        自上而下基于任务驱动的目标注意机制:从认知因素出发,如知识,语气,兴趣等

    DNN模型:

        由VGG网络修改而成

DNN模型


物体分割

 前景背景分割

        前景一般包含物体,需要交互提供初始标记

    Groph Cuts分割

        基于图论的分割方法

        分割模型:每个像素是一个节点,加2个节点F/B,边 像素跟F/B的连接,相邻像素的连接,最小割最大流算法优化。

    Grab Cuts分割(opencv内包含)

        前景/背景的颜色模型,高斯混合模型,Kmeans算法获得

        迭代进行Graph Cuts    优化前景和背景的颜色模型,能量随着不断迭代变小,分割结果越来越好

        算法流程

            使用标记初始化的颜色模型

            执行Graph Cuts

Grab Cuts分割


语义分割

    目标:从像素水平上,理解,识别图片的内容,根据语义信息分割,输入:图片,输出:通尺寸的分割标记(像素水平),每个像素会被识别为一个类别。

语义分割

    语义分割的用处:

        机器人视觉和场景理解,辅助/自动驾驶,医学X光


    算法研究阶段

        2015年前:手工特征+图模型CRF

        2015年开始:深度神经网络

            思路:改进CNN,并使用预训练CNN层的参数

            传统的CNN问题:后半段网络无空间信息,输入图片尺寸固定

            卷积网络:所有层都是卷积层,解决降采样后的低分辨率问题

            全卷积网络:

                卷积化(Convolutionalization):将所有全连接层转换成卷积层(可以输入任意尺寸的图片),适应任意尺寸的输入,输入低分辨率切割图片

                    基础CNN网络:AlexNet,VGG16,GoogLeNet

                    卷积化后的核尺寸(通道数,宽,高):FC6->(1*1,4096),FC7->(1*1,4096),FC8->(1*1,类别N),分辨率降低32倍,五个卷积层,每层降俩倍。

FCN卷积化

                反卷积(Deconvolution):将低分辨率图片进行上采样,输出同分辨率分割图片

                    一对多操作,卷积的逆操作:小数步长1/f,卷积核尺寸不变,前向和后向传播:对应于卷积操作的后向和前向传播,优化上做颠倒,反卷积核是卷积核的转置,学习率为0,也叫转置卷积,可以拟合出双线性插值。

                    外围全部补0(Full padding)反卷积,输入2*2,输出4*4,参数设置,卷积核尺寸3*3,步长:1,padding:2,倍、被Skip-layer使用。(偶数输出使用的例子)

反卷积(  外围全部补0(Full padding) )

                    插零分数步长反卷积(Deconvolution),输入3*3,输出5*5,参数设置:卷积核尺寸:3*3,步长:2,padding:1,精化分割图片(奇数输出使用的例子)

反卷积( 插零分数步长反卷积(Deconvolution) )

                      反池化操作:记录池化时的位置,将输入特征按记录位置摆放回去(近似)[效果不太好,一般不用]

 反池化操作

        跳层结构(Skip-layer):

            原因:直接使用32倍反卷积得到的分割结果粗糙,使用前2个卷积层的输出做融合,跳层:Pool4和Pool3后会增加一个1*1卷积层做预测,较浅网络的结果精细,较深网络的结果鲁棒

   跳层结构(Skip-layer)


FCN构架图例

                使用AlexNet构建FCN

                    第一步:使用AlexNet作为初始网络,保留参数,舍弃最后一个全连接层。

第一步

                    第二步:替换为俩个不同深度的卷积层(4096,1,1)->16*16*4096,追加一个预测卷积层(21,1,1)->16*16*21,追加一个步长为32的双线性插值反卷积层->500*500*21

第二步

                    第三步:Conv7结果2倍上采样->34*34*21,提取Pool4输出,追加预测卷积层(21,1,1)->34*34*21,相融合->34*34*21,追加一个步长为16的双线性插值反卷积层->500*500*21

第三步

                    第四步:结果2倍上采样->70*70*21,提取Pool3输出,追加预测卷积层(21,1,1)->70*70*21,相融合->70*70*21,追加一个步长为8的双线性插值反卷积层->500*500*21

第四步

            FCG训练

                初始化:卷积层:前五个卷积层使用初始CNN网络的参数,剩余第6和7卷积层初始化为0

                              反卷积层:最后一层反卷积层固定为双线性插值,不做学习,剩余反卷积层初始化为双线性插值,做学习。

你可能感兴趣的:(图像分割(上))