吃瓜笔记:Task02 线性模型

  • Datawhale 2022年5月 吃瓜教程 Task02
  • 所用教程:《机器学习》(周志华), 《机器学习公式详解》(谢文睿,秦州)

学习内容:
一元线性回归与多元线性回归(2天)
预习:西瓜书3.1、3.2
一元线性回归直播回放:https://www.bilibili.com/video/BV1Mh411e7VU?p=2
多元线性回归直播回放:https://www.bilibili.com/video/BV1Mh411e7VU?p=3
对数几率回归
预习:西瓜书3.3
直播回放:https://www.bilibili.com/video/BV1Mh411e7VU?p=4
线性判别分析
预习:西瓜书3.4
直播回放:https://www.bilibili.com/video/BV1Mh411e7VU?p=5

直播课推荐学习内容:
一元线性回归
推荐视频:张宇考研数学——《概率论与数理统计》
推荐教材:陈希孺.《概率论与数理统计》、盛骤 等.《概率论与数理统计》
拓展阅读:靳志辉.《正态分布的前世今生》
推荐教材:王燕军.《最优化基础理论与方法》
多元线性回归
推荐教材:张贤达.《矩阵分析与应用》
推荐手册:https://en.wikipedia.org/wiki/Matrix_calculus
对数几率回归
拓展阅读:https://sm1les.com/2019/01/17/logistic‑regression‑and‑maximum‑entropy/


一元线性回归

以下介绍两个内容:一元线性回归的数学模型及其参数估计方法。

模型

在这里插入图片描述
线性回归的可解释性体现在:权重参数直观表达了各属性在预测中的重要性。

对离散属性的处理办法:

  1. 属性值之间存在“序”关系,通过连续化将其转化为连续值。如高度的“高”、“中”、“低”可转化为{1.0,0.5,0.0}
  2. 属性值之间不存在“序”关系,通过One-hot编码将其转化为多维向量。例如颜色“红”、“黄”、“蓝”可转化为(0,0,1),(0,1,0),(1,0,0)

策略:损失函数

参数估计的目标: 寻找最优的模型参数使模型输出与真实值之间的差距最小
如何衡量模型输出与真实值之间的差距,参考《机器学习》2.3节。
损失函数对于回归任务,此处用均方误差衡量
参数估计的方法: 最小二乘法和极大似然估计。

最小二乘法

最小二乘法: 基于均方误差最小化来进行求解的方法。最终找到一条直线,是所有样本到直线上的欧氏距离之和最小。
目标函数
吃瓜笔记:Task02 线性模型_第1张图片

极大似然估计

首先说明:结果与最小二乘估计一致
吃瓜笔记:Task02 线性模型_第2张图片
吃瓜笔记:Task02 线性模型_第3张图片吃瓜笔记:Task02 线性模型_第4张图片

算法:凸函数

凸优化理论,前面求解过程已经涉及

如何求解最优解(目标函数的最小值):

  1. 凸函数的导数为零的地方是最小值。
  2. 二阶导非负的函数是凸函数,二阶导大于零的函数时严格凸函数。

目标函数关于w, b分别为凸函数。因此,目标函数分别对w, b求导,导数为0时对应的w,b即为目标函数的最优解。
注意:这里的凹凸定义与高等数学是相反的,机器学习对于凹凸函数的定义与最优化理论是一致的。

具体求解过程见西瓜书3.2节。
南瓜书对以上过程进行了向量化分析,以便于使用numpy进行加速计算。


多元线性回归

多元线性回归思路与一元线性回归基本一致:首先给出数学模型,然后利用最小二乘法进行参数估计求解模型。

数学模型:
在这里插入图片描述
目标函数:
详见西瓜书3.2节。

关于多元凸函数以及求最优解的原理直播课有详细讲解
如何判定多元函数为凸函数,需要证明其海塞矩阵(二阶偏导)半正定
如何判定半正定:顺序主子式均为非负
凸函数的性质:凸充分性定理

最小二乘法参数估计:
w的系数矩阵为满秩矩阵或正定矩阵时,w有唯一解。
w的系数矩阵不满秩的时候,存在多个解,引入正则化项进行归纳偏好;或者采用广义线性模型。

非齐次线性方程组有唯一解的充要条件是系数矩阵的行列式|A|≠0.
行列式|A|≠0等价于:

  1. A可逆。
  2. A满秩
  3. A的列向量线性无关

正定矩阵的行列式恒大于0

补充:矩阵微分公式,搜索关键词:矩阵微分手册
吃瓜笔记:Task02 线性模型_第5张图片
吃瓜笔记:Task02 线性模型_第6张图片


对数几率回归(逻辑回归)

名字是回归,但实际这里讨论的是二分类问题。

模型

在线性模型的基础上套一个映射函数来实现分类功能。
在这里插入图片描述

名字的来源
式(3.18)可变形为几率–>对数几率log odds–>logit or logistic regression

模型的优点:

  1. 直接对分类可能性进行建模,无需事先假设数据分布(求解过程不包含任何对数据分布的假设)
  2. 不是仅仅预测“类别”,可以得到近似概率预测
  3. 对率函数式任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可以直接用于求取最优解

策略:最大似然函数 and 信息论

对数似然函数详细过程见《机器学习》3.3.

信息论在直播课中有所讲解;详见课程PPT。
涉及内容:
自信息;信息熵(自信息的期望);相对熵
基于信息论的策略:与理想分布最接近的模拟分布即为最优分布
基于信息论的目标函数:最小化相对熵,又因为相对熵=理想分布的信息熵(固定值)+ 交叉熵,因此目标函数可转化为最小化交叉熵(前面带负号)
吃瓜笔记:Task02 线性模型_第7张图片

算法:经典的数值优化都可以

损失函数是关于参数的高阶可导连续凸函数,经典的数值优化算法都可以求得其最优解。
梯度下降法、牛顿法。
南瓜书对一阶导做了向量化处理。


线性判别分析

模型

找到一条直线,让全体样本经过投影后:
异类样本的中心尽可能远,同类样本的方差尽可能小。

策略

类内散度矩阵与类间散度矩阵的广义瑞丽商最大化。

算法

用拉格朗日乘子法求极值点

你可能感兴趣的:(吃瓜笔记,概率论)