Day 3 梯度消失、梯度爆炸

知识点归纳

DP神经网络里应该避免使用sigmoid或者tanh函数
——>这两个激活函数会把元素转移到[0,1]和[-1,1]之间,加速梯度消失

协变量偏移:虽然输入的分布可能随时间改变,但是标记函数,即条件分布P(y|x)不会改变,实践中容易忽视(本质是分布特征的变化)
标签偏移: 当我们认为导致偏移的是标签P(y)上的边缘分布的变化,但类条件分布是不变的P(x|y)时,就会出现相反的问题。当我们认为y导致x时,标签偏移是一个合理的假设。例如,通常我们希望根据其表现来预测诊断结果。在这种情况下,我们认为诊断引起的表现,即疾病引起的症状。有时标签偏移和协变量移位假设可以同时成立。例如,当真正的标签函数是确定的和不变的,那么协变量偏移将始终保持,包括如果标签偏移也保持。有趣的是,当我们期望标签偏移和协变量偏移保持时,使用来自标签偏移假设的方法通常是有利的。这是因为这些方法倾向于操作看起来像标签的对象,这(在深度学习中)与处理看起来像输入的对象(在深度学习中)相比相对容易一些。

病因(要预测的诊断结果)导致 症状(观察到的结果)。
训练数据集,数据很少只包含流感P(y)的样本。
而测试数据集有流感P(y)和流感Q(y),其中不变的是流感症状P(x|y)。
概念偏移: 本质上来讲,就是数据分布会随着时间逐渐改变

你可能感兴趣的:(Day 3 梯度消失、梯度爆炸)