周志华机器学习--线性模型

系列文章目录

第一章 绪论
第二章 模型评估与选择
第三章 线性模型
第四章 决策树
第五章 支持向量机
第六章 神经网络
第七章 贝叶斯分类器
第八章 集成学习和聚类


文章目录

  • 系列文章目录
  • 一、线性回归
  • 二、最小二乘解
  • 三、多元线性回归
  • 四、广义线性模型
  • 五、对率问题
  • 六、对率回归求解
  • 七、类别不平衡


一、线性回归

周志华机器学习--线性模型_第1张图片
周志华机器学习--线性模型_第2张图片
线性模型擅长处理数值问题,所以需要将离散变量转为连续的变量。离散变量又序的关系,则可进行变换(如高–1,低–0));若没有序的关系,可用k维的向量。

二、最小二乘解

周志华机器学习--线性模型_第3张图片
求偏导实际是在找变化率

![请添加图片描述](https://img-blog.csdnimg.cn/2aaae4d11c5e4c46b68e18e263aea5cf.jpeg

三、多元线性回归

周志华机器学习--线性模型_第4张图片
将 w与 b合并为一个向量,在 x 的最后增加一列1
周志华机器学习--线性模型_第5张图片
若满秩,多元线性回归的最小二乘解唯一
对于不满秩的情况,引入正则化以加入便好/限制

四、广义线性模型

周志华机器学习--线性模型_第6张图片
不再接近ground truth,而是其衍生物。
e.g.,对数线性回归,是在用求线性回归的方式来逼近对数的目标,求非线性的问题
周志华机器学习--线性模型_第7张图片

五、对率问题

如何用回归模型解决分类问题?

周志华机器学习--线性模型_第8张图片
logstic function:平滑,无限阶可微
周志华机器学习--线性模型_第9张图片
建议将logistic regression翻译成:对数几率模型。因为1.其对应的是实数值而并非逻辑值。2. y/(1-y) 是统计学中的几率(odds)

六、对率回归求解

周志华机器学习--线性模型_第10张图片
最小二乘法为何不行?只有在凸函数的时候,求梯度为零的点能得到极值。对于非凸函数,不行。

  • 极大似然估计

周志华机器学习--线性模型_第11张图片

  1. 基本思想:MAX(P(实际为+)*P(预测为+)+P(实际-)*p(预测为-))
  2. 引入ln,将乘法变成加法,因为概率p值一般较小,存在浮点数下溢问题,用加法可以解决这个问题。

七、类别不平衡

当小类比大类更重要时,需要处理类别不平衡的问题
周志华机器学习--线性模型_第12张图片

  • 过采样:将小样增加(若只是copy,可能会放大噪声)
    e.g.,SMOTE–不完全copy,在已有数据上加变化(如差值)
  • 欠采样:丢掉大类样本(随机丢可能会丢掉关键样本)
    e.g.,EasyEnsemble–集成学习方法,从大类中找出一些与小类平衡,重复采样几次。

你可能感兴趣的:(机器学习,人工智能,python)