吃瓜教程|Task2(阅读西瓜书第3章)

文章目录

    • 一元线性回归
    • 多元线性回归
    • 对数几率回归
    • 二分类线性判别分析
    • 类别不平衡问题(Class-imbalance)

一元线性回归

输入的属性数目只有一个,对于离散属性,通过连续化的方式将其转化为连续值。

学得:

吃瓜教程|Task2(阅读西瓜书第3章)_第1张图片

最小二乘法:基于均方误差最小化来进行模型求解,分别对w、b求偏导,同时令式子为0,可以求到w,b的闭式解。
吃瓜教程|Task2(阅读西瓜书第3章)_第2张图片
吃瓜教程|Task2(阅读西瓜书第3章)_第3张图片

多元线性回归

输入的属性数目有多个,同样试图学得:

这里同样利用最小二乘法来对w,b进行估计,有

吃瓜教程|Task2(阅读西瓜书第3章)_第4张图片

求导为零可以得到w,b的符号解如下:

吃瓜教程|Task2(阅读西瓜书第3章)_第5张图片

最终得到线性回归模型:

吃瓜教程|Task2(阅读西瓜书第3章)_第6张图片

对数几率回归

又叫作逻辑回归,用来处理分类问题的算法。

相对熵(KL散度):度量两个分布的差异,其典型使用场景是用来度量理想分布p(x)和模拟分布q(x)之间的差异。

模型:线性模型,输出值的范围为[0, 1],近似跃阶的单调可微函数

策略:极大似然估计,信息论

算法:梯度下降,牛顿法

找到一个单调可微的“替代”函数,用来替代单位跃阶函数,实现将函数的预测值映射到[0, 1]上面,有:

吃瓜教程|Task2(阅读西瓜书第3章)_第7张图片

利用极大似然法化简有:

吃瓜教程|Task2(阅读西瓜书第3章)_第8张图片

二分类线性判别分析

算法原理:

从集合的角度,让全体训练样本经过投影后:

  1. 异类样本的中心尽可能远
  2. 同类样本的方差尽可能小

类别不平衡问题(Class-imbalance)

有“再缩放”策略

吃瓜教程|Task2(阅读西瓜书第3章)_第9张图片

当然“再缩放”策略也存在一定问题:主要因为训练集是真实样本总体的无偏估计这个假设往往不成立,也就是说,我们未必能够有效的基于训练集观测几率来推断出真实几率。

现有的技术大致有三种做法:

  1. 直接对训练集中的反类样例进行“欠采样”,即去除一些反例使得正、负样例数目接近,然后进行学习。
  2. 对训练集中的正类样例进行“过采样”,即增加一些正例使得正、反例数目接近,然后进行学习。
  3. 直接基于原始训练集进行学习,但在训练好的分类器进行预测时,将“再缩放”策略嵌入到其决策过程中,称为“阈值移动”。

注意

“过采样”法不能简单的对初始正样例进行重复采样,否则会导致严重的过拟合。

同样,“欠采样”法也有一定的缺陷,丢弃的反例样本中可能含有重要信息。

参考:

  1. 【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集
  2. 《机器学习》周志华等著

你可能感兴趣的:(西瓜书,深度学习,面试,机器学习)