【自问自答】Semi-Supervised Deep Regression with Uncertainty Consistency and Variational Model Ensembling

写在前面:由于之前已经写过这篇论文的阅读笔记,在这里是我精度之后产生的问题以及对应的我的理解(不一定正确,可能存在强行解释)。

  • 基础模型使用的ResNet,其中具体的结构是怎样的?
    参考。其中,在原文中有五个参数量不同的网络结构,分别是ResNet18ResNet34ResNet50ResNet101ResNet152,其中数字表示网络用的总层数,越多表示网络越深也就是越复杂。本文使用的是ResNet50作为编码器提起图像特征。

  • 本文使用的BNN结构是怎样的呢?
    从代码上来看,仅仅是在层与层之间添加了dropout。值得注意的是,与传统的单输出不同,文中的模型有两个输出,分别对应预测值(x_m)与对应的不确定性(x_v)。

 def _forward_impl(self, x: Tensor) -> Tensor:
        # See note [TorchScript super()]
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.layer1(x)
        x = nn.functional.dropout(x, p=self.drop_rate, training=True)
        x = self.layer2(x)
        x = nn.functional.dropout(x, p=self.drop_rate, training=True)
        x = self.layer3(x)
        x = nn.functional.dropout(x, p=self.drop_rate, training=True)
        x = self.layer4(x)

        x = self.avgpool(x)
        x = torch.flatten(x, 1)

        x_feat_m = nn.functional.dropout(x, p=self.drop_rate, training=True)
        x_feat_v = nn.functional.dropout(x, p=self.drop_rate, training=True)


        x_m = self.fc_m(x_feat_m)
        x_v = self.fc_v(x_feat_v)

        return x_m, x_v
  • 本文是使用了两个相同的模型来完成集成,如何确保多样性?
    实际上,论文中没有提到这一问题。我在代码中也没有发现相应的控制,实际上应该是在训练阶段不同的dropout保证的多样性,这样才不至于两个模型一致(集成就没有意义了)。
		# 模型1
		model = models.resnet50_unc(pretrained=pretrained, drp_p = drp_p)
		model = torch.nn.DataParallel(model)
		# 模型1
		model_1 = models.resnet50_unc(pretrained=pretrained, drp_p = drp_p)
		model_1 = torch.nn.DataParallel(model_1)
  • BNN训练如何体现?
    1. 这里面有一个认识误区。前面我们说到,模型有两个输出,x_m,x_v。其中x_m对应预测值有标签,x_v对应于认知不确定性,没有标签。那么x_v是怎么训练的呢?对于x_v的约束体现在不确定性一致上,同时在有标记数据和无标记数据上。其实,x_v参与了loss计算,而且x_v也是模型预测的,最小化loss,也就会优化模型了。
    2. 同时在无监督损失中,为了减少variance,用samp_ssl=5次重复预测(增加采样)的均值作为伪标签。
    3. 参考> 注意到,在学习偶然不确定性时,其实是不需要标记的。如果一个像素很难预测对,为了最小化整个损失, σ ^ i \hat{\sigma}_i σ^i会相应地变大,而 log ⁡ ( σ ^ i 2 ) \log(\hat{\sigma}_i^2) log(σ^i2)又会防止 σ ^ i \hat{\sigma}_i σ^i变得无穷大。并不需要 σ i \sigma_i σi的ground truth。
  with torch.no_grad():
            for samp_ssl_itr in range(samp_ssl):
                mean1_raw_0, var1_raw_0 = model(X_ulb_in)
                mean1_0 = mean1_raw_0.view(-1)
                var1_0 = var1_raw_0.view(-1)
                mean2s_0.append(mean1_0)
                var1s_0.append(var1_0)

                mean1_raw_1, var1_raw_1 = model_1(X_ulb_in)
                mean1_1 = mean1_raw_1.view(-1)
                var1_1 = var1_raw_1.view(-1)
                mean2s_1.append(mean1_1)
                var1s_1.append(var1_1)


        mean2s_0_stack = torch.stack(mean2s_0, dim=1).to("cpu").detach().numpy()
        mean2s_0_stack_ls.append(mean2s_0_stack)
        var1s_0_stack = torch.stack(var1s_0, dim=1).to("cpu").detach().numpy()
        var1s_0_stack_ls.append(var1s_0_stack)
		# Notice
        mean1s_0_ = torch.stack(mean1s_0, dim=0).mean(dim=0)
        mean2s_0_ = torch.stack(mean2s_0, dim=0).mean(dim=0)
        var1s_0_ = torch.stack(var1s_0, dim=0).mean(dim=0)

        mean2s_1_stack = torch.stack(mean2s_1, dim=1).to("cpu").detach().numpy()
        mean2s_1_stack_ls.append(mean2s_1_stack)
        var1s_1_stack = torch.stack(var1s_1, dim=1).to("cpu").detach().numpy()
        var1s_1_stack_ls.append(var1s_1_stack)
		# Notice
        mean1s_1_ = torch.stack(mean1s_1, dim=0).mean(dim=0)
        mean2s_1_ = torch.stack(mean2s_1, dim=0).mean(dim=0)
        var1s_1_ = torch.stack(var1s_1, dim=0).mean(dim=0)

你可能感兴趣的:(论文阅读,深度学习,人工智能,机器学习)