机器学习笔记 线性模型

写在前面的一些废话
伴随课程以及自习,学得既算系统也算零散。学校多统计,算法讲解几近寥寥。自古以来,统计系的教授多半乐于指摘机器学习与人工智能,但学科总又不得不与之挂钩密切,且多随其发展潮起潮落。内部纠纷,不足为外人道已。只有深受其纷杂概念困扰的学习者,感触颇深。不随时总结,建立知识库,实在容易迷失。

对《利用PYTHON进行数据分析》重点章节粗略研习,绘制思维导图加深记忆,成效喜闻乐见。但考虑到涉及的原理与算法,知识点繁多,思维导图不利于初学记忆与学习,故择些要点阐述与加深印象。(注:原理与算法总结多出自于《Python大战机器学习》,有兴趣者可自行阅读研习。) 文章阅读适合对像:有一定统计基础,希望串知识点,查漏补缺。

总结多数机器学习算法框架,可发现组成部分:
1. 明确样本输入与输出;
2. 构建待学习模型;
3. 确定损失函数/目标函数(平方损失函数等);
4. 明确模型目标(最小化、最大化);
5. 求解方法(最小二乘法、极大似然估计、牛顿迭代法、拉格朗日等);
6. 求解结果形式;
其中,由
于不同的模型方法,涉及的损失函数不尽相同,部分涉及参数的引进与构建。此时,求解过程多半需要参数优化与交叉验证。

正文
1.1 线性模型概述

线性模型中的“线性”其实是一系列一次特征的线性组合,在二维空间中是一条直线,在三位空间是一个平面,推广至n维空间,为广义线性模型。
广义线性模型包括:岭回归、lasso回归、Elastic Net、逻辑回归、线性判别分析等。
模型形式:在这里插入图片描述
其中,在这里插入图片描述表示样本,样本包含n种特征,在这里插入图片描述为每个特征对应的权重生成的权重向量,直观表示各个特征在预测中的重要性。

1.2 算法精华
1.2.1 普通线性回归

原理关键词:回归分析技术、函数估计(参数估计和非参数估计)、因果关系、有监督
学习模型:在这里插入图片描述
损失函数:(平方损失函数)在这里插入图片描述
求解目标:在这里插入图片描述
求解方法:最小二乘法与梯度下降法
注意点:梯度下降法需对特征归一化,这是许多机器学习模型都需注意的问题。特征归一化的好处:1.提升模型的收敛速度,归一化可以极大减少寻找最优解的时间;2.提升模型精度,比如计算欧式距离,取值范围大的特征对结果产生的影响较大,容易导致精度的损失。
求解过程(以多元线性回归为例):
令:

机器学习笔记 线性模型_第1张图片
则有:
在这里插入图片描述
令:
机器学习笔记 线性模型_第2张图片
则:
在这里插入图片描述
在这里插入图片描述,求其极小值。求导令导数为零,得到解析解:
在这里插入图片描述
在这里插入图片描述为满秩矩阵或者正定矩阵时,可得:在这里插入图片描述
在这里插入图片描述不是满秩矩阵时,也就是说样本特征存在多重共线性,权重向量有多个解析解。解决方法:1.逐步回归,选择合适特征进行回归;2.偏最小二乘法或主成分回归,对变量进行降维;3.引入正则化项,也是常用方法,如L1正则化或者L2正则化,分别代表LASSO与岭回归方法。不同的正则化方法,求解结果不尽相同。以L2正则化为例:
在这里插入图片描述
其中,在这里插入图片描述调整正则化项与均方误差的比例;||…||2为L2范数

1.2.2 广义线性模型
考虑单调可导函数h(·),令在这里插入图片描述,这样得到的模型称为广义线性模型。即对因变量与自变量进行相应变换,将非线性模型转换至线性模型进行求解。典型例子为对数线性回归:
在这里插入图片描述
1.2.3 逻辑回归原理
关键词:分类、对数概率函数
Odds(优势比/概率):在这里插入图片描述
Logit(log odds 对数概率):在这里插入图片描述
学习模型(以二分类为例):在这里插入图片描述
目标函数:(似然函数)在这里插入图片描述
求解目标:极大化似然函数
求解方法:极大似然估计、梯度下降法、牛顿法
求解结果:

机器学习笔记 线性模型_第3张图片
对于多分类逻辑回归问题:设离散随机变量Y的取值集合为[1,2,…,K],则求解模型为
机器学习笔记 线性模型_第4张图片
1.2.4 线性判别分析(LDA)
原理关键词:样本投影、同类样本投影点尽可能地接近、异类样本地投影点尽可能地远离
学习模型(以二分类为例):求解满足条件的投影线,如下所示
机器学习笔记 线性模型_第5张图片
其中,两类样本的中心在直线上的投影分别为在这里插入图片描述在这里插入图片描述;两类样本投影的方差分别为在这里插入图片描述在这里插入图片描述
目标函数:
在这里插入图片描述
求解目标:使目标函数最大化,即使同类样例投影点的方差(分母)尽可能地小,使异类样例地中心地投影点尽可能地远(分子尽可能大)
求解方法:拉格朗日乘子法
求解结果:在这里插入图片描述
其中,在这里插入图片描述对于多分类LDA,将样本投影到M-1维空间。但由于不止两个中心点,不能完全简单套用二类LDA的做法。考虑到每一类样本集的大小可能不同,故对这个距离加以权重。此时,定义类散布矩阵在这里插入图片描述

你可能感兴趣的:(机器学习)