12.2-3 DL for CV, SR

2019年1月10日
阅读内容:12.2 Computer Version,12.3 Speech Recognition
介绍DeepLearning在计算视觉和语音识别两个领域的应用情况和技巧;

小结:

  1. NN擅长学习输入值存在不同方向上的差异(通过调节weight),而不擅长学习数据在同方向不同distances上的差异(需要对应不同的bias),因此做normalization将减轻NN数据处理负担;
  2. CV中对数据的预处理非常重要,需要做normalization使得数据取值范围一致,介绍了两种对比度归一化(Contrast Normalization)方法:GCN、LCN,两者的区别在于归一化时考虑的数据范围不同(全局global或者局部local)
  3. Dataset Augmentation(数据集扩充)可提高模型的泛化性能,方式为将原有样本拷贝多份并对其输入内容做(不影响输出结果的)调整(如平移、反转、调色);
  4. 语音识别领域长期占据核心地位的是GMM-HMM等模型,尤其是在2009-2012年间;该领域是最早使用NN技术的领域之一(早至1980s),但早期仅用于为HMM等模型做feature learning等辅助功能;近年larger and deeper model的使用显著提高了NN模型的准确率,从2009年NN模型开始在SR领域受到重视和广泛使用;
  5. TIMIT corpus [Garofolo, 1993]:是音素识别(phoneme recognition)任务的benchmark;就如MNIST是CV领域中object recognition任务的benchmark;

遗留问题:

  1. GCN与L2-norm的区别
  2. GCN与sphering的区别

详细内容

Global Contrast Normalization (GCN)

目标:将数据点归一化到相同scale,以减轻学习算法的负担;

contrast: 整个图片上各点数据值的标准差(用于在GCN中作为分母)


contrast

GCN: 基于contrast,对图片上各点数据值进行归一化,使得数据的分布以0为均值,s为方差(s通常取1);
为避免除0现象为避免contrast为0导致的除0现象(zero-contrast image,即图片标准差为0情况,发生在整个图片各点取值完全相同时),可做以下调整(两者二选一):

  • 引入参数:考虑到contrast值取非零小值时的图片通常携带非常少量的信息,将zero-contrast调整为一个非零小值
  • 引入参数:过小的contrast值一律调节为
    于是,最终得到通过GCN处理后的新值为:
    GCN

优点:

  • 相当于将数据归一化到一致的scale,为NN的学习减轻负担;

缺点:

  • 缺乏对特殊feature的考虑(fail to highlight image features we would like to stand out);(因此提出LCN)
GCN

Local Contrast Normalization (LCN)

不同于GCN考虑整个图片的数据点来计算contrast,LCN仅考虑当前值所在局部区域(窗口)内的值用于normalize;
LCN有多种变种,考虑的区域的形式不同、计算方式不同等;

具体实现方法: separable convolution


LCN implementation

优点:

  • 关注轮廓信息

缺点:

  • 当normalization kernel带宽过大时,将丢失细节信息;

你可能感兴趣的:(12.2-3 DL for CV, SR)