CV_Daily Issue 27

CV_Daily Issue 27

  • [2019] W-Net: A CNN-based Architecture for White Blood Cells Image Classification

由于人工过程的复杂性,用于分析白细胞(WBC)的计算机辅助方法已广泛普及。
最近的工作显示了从显微血液图像中对白细胞的高精度分割和检测。
然而,由于五种类型的分布反映了免疫系统的状况,所观察到的细胞的分类仍然是一个挑战,并且是非常需要的。
这项工作提出了W-Net,一种基于CNN的WBC分类方法。
我们从韩国天主教大学获得的真实世界大型数据集上评估W-Net,其中包括五种WBC类型的6,562幅真实图像。
W-Net的平均准确度达到97%。

  • [2019 NIPS]DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

随着从大规模预训练模型进行的转移学习在自然语言处理(NLP)中变得越来越普遍,在实时和/或受限的计算训练或推理预算下操作这些大模型仍然具有挑战性。
在这项工作中,我们提出了一种预训练较小的通用语言表示模型DistilBERT的方法,然后可以对它在较大任务(如较大的对应对象)上的良好性能进行微调。
虽然大多数先前的工作都在研究使用蒸馏来构建特定于任务的模型,但我们在预训练阶段利用了知识蒸馏,并表明可以将BERT模型的大小减少40%,同时保留其97%的模型。
语言理解能力,并且提高60%。
为了利用较大的模型在预训练期间学习的归纳偏差,我们引入了三重损失,将语言建模,蒸馏和余弦距离损失结合在一起。
我们的更小,更快,更轻便的模型比预训练便宜,并且我们在概念验证实验和比较性设备上研究中证明了其在设备上计算的能力。

  • [2019]The Benefits of Over-parameterization at Initialization in Deep ReLU Networks

在现有文献中已经指出,ReLU网络中的过度参数化通常会提高性能。
尽管这背后可能涉及多个因素,但我们证明了ReLU网络可能会在初始化时获得一些理想的理论特性。
具体而言,众所周知,对于无限宽的网络,深度ReLU网络中的He初始化渐近地保留了前向通过中激活的方差和后向通过中梯度的方差,从而保留了两个方向上的信息流。
我们的论文超越了这些结果,并显示了在He初始化下具有的新颖属性:i)每层的隐藏激活范数等于输入的范数,ii)每层的重量梯度范数等于
输入向量范数与输出层误差的乘积。
这些结果是使用PAC分析框架得出的,并适用于有限大小的数据集,因此ReLU网络的宽度仅需要大于某个有限的下限。
正如我们所展示的,该下限取决于网络的深度和样本数量,并且由于具有下限,因此,超参数化的ReLU网络具有这些理想的属性。
对于上述在He初始化下的隐藏激活范数属性,我们进一步扩展了理论,并表明即使数据样本的数量是无限的,该属性也适用于有限宽度的网络。
因此,我们克服了现有论文的一些局限性,并在初始化时展示了深度ReLU网络的新特性。

  • [2019 ICCV oral**]Expectation-Maximization Attention Networks for Semantic Segmentation

自注意力机制已被广泛用于各种任务。
它旨在通过所有位置要素的加权总和来计算每个位置的表示形式。
因此,它可以捕获计算机视觉任务的远程关系。
但是,这在计算上很消耗。
由于注意力图是用其他所有位置计算的。
在本文中,我们将注意力机制表达为一种期望最大化的方式,并迭代地估计了一个更为紧凑的基础集,用于计算注意力图。
通过在这些基础上进行加权求和,所得表示形式将成为低秩,并从输入中淘汰嘈杂的信息。
所提出的期望最大化注意(EMA)模块对输入方差具有鲁棒性,并且在存储和计算方面也很友好。
此外,我们建立了基地维护和标准化方法以稳定其训练程序。
我们对流行的语义分割基准进行了广泛的实验,包括PASCAL VOC,PASCAL Context和COCO Stuff,在这些基准上我们创造了新记录。

CV_Daily Issue 27_第1张图片

Semantic Segmentation:

多尺度上下文聚合
Several model variants are proposed to enhance the multi-scale contextual aggregation. For example, DeeplabV2 [4] makes use of the astrous spatial pyramid pooling (ASPP) to embed contextual information, which consists of parallel dilated convolutions with different dilated rates. DeeplabV3 [4] extends ASPP with image-level feature to further capture global contexts.
Meanwhile, PSPNet [37] proposes a pyramid pooling module to collect contextual information of different scales. GCN [25] adopts decoupling of large kernel convolution to gain a large receptive field for the feature map and capture long-range information
预测更多的细节
These methods are based on U-Net [27], which combines the advantages of high-level
features with mid-level features. RefineNet [21] makes use of the Laplacian image pyramid to explicitly capture the information available along the down-sampling process and output predictions from coarse to fine. DeeplabV3+ [5] adds a decoder upon DeeplabV3 to refine the segmentation results especially along object boundaries. Exfuse [36] proposes a new framework to bridge the gap between low-level and high-level features and thus improves the segmentation quality.

Attention model:

The self-attention methods [2, 29] calculate the context coding at one position by a weighted summation of embeddings at all positions in sentences. Nonlocal [31] first adopts self-attention mechanism as a module for computer vision tasks, such as video classification,object detection and instance segmentation.
PSANet [38] learns to aggregate contextual information for each position via a predicted attention map. A2Net [6] proposes the double attention block to distribute and gather informative global features from the entire spatio-temporal space of the images. DANet [11] applies both spatial and channel attention to gather information around the feature maps, which costs even more computation and memory than the Nonlocal method.

  • [2019 ICCV oral]CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

已经提出了区域丢弃策略来增强卷积神经网络分类器的性能。
事实证明,它们可以有效地指导模型参与对象的较少区分性部分(例如,腿而不是人的头部),从而使网络更好地泛化并具有更好的对象定位能力。
另一方面,当前的区域丢弃方法通过覆盖黑色像素或随机噪声的补丁来去除训练图像上的信息像素。
这样的删除是不理想的,因为它会导致信息丢失和训练过程中的效率低下。
因此,我们提出了CutMix增强策略:在训练图像之间剪切和粘贴补丁,其中地面真相标签也与补丁的区域成比例地混合。
通过有效利用训练像素并保留区域丢失的正则化效果,CutMix在CIFAR和ImageNet分类任务以及在ImageNet弱监督的本地化任务上始终优于最新的增强策略。
此外,与以前的增强方法不同,我们的CutMix训练的ImageNet分类器用作预训练模型时,可在Pascal检测和MS-COCO图像字幕基准测试中获得一致的性能提升。
我们还表明,CutMix改进了针对输入损坏及其分布外检测性能的模型鲁棒性。CV_Daily Issue 27_第2张图片CV_Daily Issue 27_第3张图片

你可能感兴趣的:(3.,深度学习)