4-Error and Noise

  • 一般的非线性变换学习流程。从空间X变换到空间Z;在空间Z进行学习; 若有必要, 可将空间Z的boundary变换回到空间X。


    4-Error and Noise_第1张图片
    nonlinear
  • Error measure. (应该就是train、valid)我们如何保证选择到的h≈f呢?事实上, 我们并不知道具体的f长什么样子, 但首先可以定义e是如何计算的。 于是, 之前的P(X)有两个功能, 一个是辅助产生样本, 另外一个是验证 g(x)=f(x)。


    4-Error and Noise_第2张图片
    error

    4-Error and Noise_第3张图片
    diagram
  • 如何选择error measure呢?这个需要根据真实场景。lecture中从指纹识别引申处了两个例子。 对于安全部门来说,宁可杀错一百, 也不能放过一个, 因此false accept是绝对不允许的, 可以赋予很大的权重,如false accept: false reject = 1000:10。对于超市来说, 如果用指纹来识别用户是否有优惠权限, 这种情况下如果用户是需要被接受的但是识别出错的话后果是比较严重的, 可能就失去用户了, 所以, false reject 应该收到更大的惩罚。


    4-Error and Noise_第4张图片
    measure
  • Noise。在实际场景中是可能存在噪声的, 如银行发行银行卡, 有可能针对两个相同的用户,系统却会给出不同的评估。所以, 我们用target distribution取代target function来模拟这种情况, 即是否接受是服从概率分布的。我们的样本也就可以认为是P(x)抽样产生x, 而P(y|x)指定它的target值,构成了样本(x, y)。那么,可以认为确定的target值就是P(y|x)的期望值, 而到了具体的例子, 又还要加上一定的噪声即y = f(x) + (y - f(x))。 如果没有噪声, y - f(x) = 0, y = f(x)。至此,完整的diagram构成了。


    4-Error and Noise_第5张图片
    noise

    4-Error and Noise_第6张图片
    final diagram
  • 异同。相同点在于都是通过概率去传达x和y的表示来构成样本对(x, y), 它们具体的分布都是未知的并且我们并不需要知道。差异点在于我们尝试学习P(y|x), 而P(x)只有产生样本的作用。


    4-Error and Noise_第7张图片
    relationship
  • 在一个学习过程中, 我们需要回答这两个问题: E_in(g)与E_out(g) 一致, 这个保证了in sample样本是能代表out of sample样本的(lecture 2的hoeffding 定理保证)。 E_out(g) 越小越好, 这个保证了模型是有学习到的。


    4-Error and Noise_第8张图片
    learning

    4-Error and Noise_第9张图片
    problem

    4-Error and Noise_第10张图片
    theory

你可能感兴趣的:(4-Error and Noise)