吃瓜教程-Task02

目录

一元线性回归

多元线性回归

对数几率回归

二分类线性判别分析


一元线性回归

吃瓜教程-Task02_第1张图片

上图是正交回归示例图

它试图找到一个正交拟合线,使得实际观测值在拟合线上的投影和预测值之间的残差平方和最小化。

吃瓜教程-Task02_第2张图片

上图是线性回归示例图 

为了能进行数学运算,样本中的非数值类属性都需要进行数值化。对于存在“序”关系的属性,可通过连续化将其转化为带有相对大小关系的连续值;对于不存在“序”关系的属性,可根据属性取值将其拆解为多个属性

min”和“arg min”的区别 

前者输出目标函数的最小值,而后者输出使得目标函数达到最小值时的参数取值。
闭市解
闭式解是指可以通过具体的表达式解出待解参数
梯度下降法
梯度下降法利用“梯度指向的方向是函数值增大速度最快的方向”这一特性,每次迭代时朝着梯度的反方向进行,进而实现函数值越迭代越小

吃瓜教程-Task02_第3张图片

 牛顿法

牛顿法的迭代公式:

 拟牛顿法

牛顿法每次迭代时需要求解海森矩阵的逆矩阵,该步骤的计算量很大,所以将求解海森矩阵的逆矩阵改成求解计算量更低的近似逆矩阵,称为拟牛顿法。


 线性回归

目标是最小化观测值和预测值之间的残差平方和。最小二乘法也就是最小化均方误差。

多种类型的回归

吃瓜教程-Task02_第4张图片

最小二乘法 :基于均方误差最小化来进行模型求解的方法

吃瓜教程-Task02_第5张图片

损失函数 

 求使得这个式子值最小的w与b的值

极大似然估计

吃瓜教程-Task02_第6张图片

利用对数来简化似然函数得到对数似然函数,方便求导计算。 

极大似然估计也能推导出最小二乘法:

通常假设误差服从均值为0的正态分布   \epsilon \sim N (0,\sigma ^{2}) 

吃瓜教程-Task02_第7张图片

吃瓜教程-Task02_第8张图片

吃瓜教程-Task02_第9张图片

吃瓜教程-Task02_第10张图片

 多元函数的一阶导数:梯度

吃瓜教程-Task02_第11张图片

 多元函数的二阶导数:海森矩阵

吃瓜教程-Task02_第12张图片

半正定矩阵的判定定理之一:若实对称矩阵的所有顺序主子式均为非负,则该矩阵为半正定矩阵。

吃瓜教程-Task02_第13张图片

吃瓜教程-Task02_第14张图片

吃瓜教程-Task02_第15张图片

吃瓜教程-Task02_第16张图片

 公式具体推导链接

w的向量化

吃瓜教程-Task02_第17张图片

机器学习三要素:
1. 模型:根据具体问题,确定假设空间
2. 策略:根据评价标准,确定选取最优模型的策略(通常会产出一个 损失函数
3. 算法:求解损失函数,确定最优模型

多元线性回归

有最小二乘法导出损失函数

吃瓜教程-Task02_第18张图片

吃瓜教程-Task02_第19张图片

吃瓜教程-Task02_第20张图片

吃瓜教程-Task02_第21张图片

吃瓜教程-Task02_第22张图片

吃瓜教程-Task02_第23张图片

吃瓜教程-Task02_第24张图片

吃瓜教程-Task02_第25张图片

吃瓜教程-Task02_第26张图片

吃瓜教程-Task02_第27张图片

 矩阵微分


对数几率回归

从极大似然函数的角度推出对数几率回归的损失函数

吃瓜教程-Task02_第28张图片

吃瓜教程-Task02_第29张图片

吃瓜教程-Task02_第30张图片

吃瓜教程-Task02_第31张图片

吃瓜教程-Task02_第32张图片

信息论:以概率论、随机过程为基本研究工具,研究广义通信系统的整个过程。常见的
应用有无损数据压缩(如ZIP文件)、有损数据压缩(如MP3和JPEG)等。
自信息:

吃瓜教程-Task02_第33张图片

吃瓜教程-Task02_第34张图片

吃瓜教程-Task02_第35张图片

吃瓜教程-Task02_第36张图片

吃瓜教程-Task02_第37张图片

 全体样本的交叉熵:

吃瓜教程-Task02_第38张图片

吃瓜教程-Task02_第39张图片

这就是对数几率回归的损失函数

对数几率回归算法的机器学习三要素:
1. 模型:线性模型,输出值的范围为 [0, 1] ,近似阶跃的单调可微函数
2. 策略:极大似然估计,信息论
3. 算法:梯度下降,牛顿法

 sigmod函数

Sigmod函数(Sigmoid函数)是一种常用的数学函数,它将输入的实数映射到区间(0, 1)之间的一个值。它的公式如下:

S(x) = 1 / (1 + exp(-x))

其中,x是输入的实数,exp表示自然指数函数(e的x次幂),S(x)是Sigmod函数的输出。Sigmod函数的特点是在x接近0时,输出值接近0.5,而在x趋向正无穷大时,输出值接近1,而在x趋向负无穷大时,输出值接近0。


二分类线性判别分析

线性判别分析是一种监督降维方法,即降维过程中需要用到样本类别标记信息
从几何的角度,让全体训练样本经过投影后:
异类样本的中心尽可能远
同类样本的方差尽可能小

 损失函数推导:

吃瓜教程-Task02_第40张图片

吃瓜教程-Task02_第41张图片

吃瓜教程-Task02_第42张图片

拉格朗日乘子法: 

吃瓜教程-Task02_第43张图片

吃瓜教程-Task02_第44张图片

吃瓜教程-Task02_第45张图片

吃瓜教程-Task02_第46张图片

吃瓜教程-Task02_第47张图片

广义特征值: 

广义瑞利商: 

吃瓜教程-Task02_第48张图片

厄米矩阵:

厄米矩阵(Hermitian Matrix),也称为自伴随矩阵(Self-adjoint Matrix),是一种特殊的方阵(即行数等于列数的矩阵)。在线性代数和量子力学等领域中,厄米矩阵是非常重要的概念。

厄米矩阵是指一个复数方阵 A,它的转置共轭等于它本身的逆矩阵。用数学符号表示为:

A^† = A*

其中,A^† 是 A 的厄米共轭(Hermitian Conjugate),也称为伴随矩阵(Adjoint Matrix)或共轭转置矩阵(Conjugate Transpose Matrix);A* 是 A 的转置共轭(Transpose Conjugate),即将 A 先转置后再取共轭。

对于实数矩阵(所有元素都是实数),厄米矩阵的定义与对称矩阵相同即 A 的转置等于它本身。但对于复数矩阵,厄米矩阵要求更严格,需要满足 A 的转置共轭等于它本身的逆矩阵。

你可能感兴趣的:(西瓜书,机器学习)