9-Linear Models II

  • 非线性变换。对于线性不可分的情况, 可以进行非线性变换(可能增加VC dimension)。变换之后的坐标之间是有冗余的, 有可能存在关联关系, 所以是小于等于号。


    9-Linear Models II_第1张图片
    nonlinear

    9-Linear Models II_第2张图片
    price
  • 两个不可分的例子。 第一个例子是接近于线性可分的, 第二个例子是线性不可分的。第一个例子显然如果坚持要Ein=0, 就必须到高维空间Z; 第二个例子是如果映射到6维空间, 根据VC理论, 需要的训练数据也会更多, 我们可以降到三维, 两维, 一维, 但是我们是怎么知道要怎么做的呢——相当于先偷看了数据, 这样子泛化能力一定差。


    9-Linear Models II_第3张图片
    cases

    9-Linear Models II_第4张图片
    first

    9-Linear Models II_第5张图片
    second

    9-Linear Models II_第6张图片
    snooping
  • OK, 下面要讲的都是logistic regression了。先总结如下,我们的出发点都是s=w^Tx这种表达开始, 然后linear classification是用sign function做分类(hard), linear regression是输出real value, 并且有closed form 的解, 下面要讲的logistic regression是对s进行非线性变换, 并且让它有概率形式的表达。


    9-Linear Models II_第7张图片
    models

    9-Linear Models II_第8张图片
    function
  • Error measure。 我们用概率似然来表达, 当然是希望概率越大越好。 并且观察到\theta(-s) = 1 - \theta(s)。 于是概率的表达可以同样表达成\theta(yw^Tx)。 最大化似然概率, 得到了交叉熵的表达。


    9-Linear Models II_第9张图片
    measure

    9-Linear Models II_第10张图片
    maximize
  • learning。现在不像linear regression那样有closed form的解了, 而是需要随机梯度下降的方法了。logistic regression with cross entropy
    loss 有一个好的性质, 就是它只有一个global minimum, 所以我们不用担心local minimum的问题了。 但是, 如何得到迭代的方向呢, 首先得到Ein的变化率,第二个等式是根据导数推导出来f(x) - f(x') = f'(x)(x - x'), 泰勒一阶展开。 因为v是unit vector,[-1, 1], 所以有第三个不等式。 而只有v等于最后的公式的时候, 等式才成立。


    9-Linear Models II_第11张图片
    how

    9-Linear Models II_第12张图片
    iterative

    9-Linear Models II_第13张图片
    image.png
  • 学习率的问题, 太大太小都不好。可以看到, 一开始可以用比较大的学习率, 然后用比较小的学习率, 也就是说学习率与Ein的变化量大小成正比, 那么再把||Ein||乘进去, 我们得到了最终的表达(学习率固定!), 它有如learning curve 3的表现。


    9-Linear Models II_第14张图片
    rate

    9-Linear Models II_第15张图片
    implement
  • 算法如下。 有几个问题是值得考虑的: 权重的初始化, 学习率的确定, 以及算法合适终止!


    9-Linear Models II_第16张图片
    algorithm
  • 最后, 用credit approval的例子来总结目前为止遇到的linear model。perception只能+-1分类, linear regression是决定credit的量, 而logistic regression提供了是否approval的概率。


    9-Linear Models II_第17张图片
    credit

你可能感兴趣的:(9-Linear Models II)