1. 线性回归优缺点
优点:结果易于理解,计算上不复杂
缺点:对非线性数据拟合不好
适用数据类型:数值型和标称型数据。
目的:预测数值型的目标值
2.回归方程、回归系数
回归:求回归系数的过程就叫回归。
比较 模型效果:计算两个序列的相关系数–可以计算预测值序列和真实序列的匹配程度。
线性回归不足:可能出现欠拟合,因为求的是最小均方误差的无偏估计。
解决:在估计中引入一些偏差,从而降低预测的均方误差,其中一个是局部加权线性回归(LWLR)。
1.局部加权线性回归(LWLR)
**算法思想:**给待预测点附近的每个点赋予一定的权重,在这个子集上基于最小均方差进行普通的回归。与KNN一眼,该算法每次预测均需要事先选取出对应的数据子集。
构建了一个只含对角元素的权重矩阵w,并且x与x(i)越近,w(i,j)将会越大.k需用户指定,它决定了对附近的点赋予多大的权重,也是LWLR唯一需要考虑的参数。
使用较小的核将得到较低的误差,但容易造成过拟合。
2.局部加权线性回归不足
增加了计算量,它对每个点做预测时都必须使用整个数据集
特征比样本点多的情况,输入数据的矩阵X不是满秩矩阵,求逆会出错,解决办法?
岭回归可用于处理特征数多于样本数的情况;在估计中加入偏差,得到更好的估计。
**缩减(shrinkage)*通过引入 蓝么大 限制所有w之和,通过引入该惩罚项,减少不重要的参数。
岭回归在线性回归的基础上,加了如下约束:
**该约束的作用是:**限定所有回归系数的平方不大于 蓝么大 。普通的最小二乘法回归在两个或更多的特征相关时,可能会得出一个很大的正系数和一个很大的负系数,上述约束使得岭回归可以避免。
缩减方法–lasso的约束
不同点在于:将平方变为绝对值。
优点:当 蓝么大 足够小的时候,一些系数被迫缩减为0,可以更好的理解数据。
缺点:增加计算复杂度
贪心算法,即每一步都尽可能减少误差。一开始所有的权重设为1,然后每一步所做的决策都是对某个权重增加或减少一个很小的值。
优点:帮助理解现有模型并作出改进。构建一个模型后,运行该算法找出重要的特征,这样有可能及时停止那些不重要特征的收集。
应用缩减方式时,模型增加了偏差,减小了方差。
分类是预测连续型变量,回归预测离散型变量。
回归方程中,求特征对应的最佳回归系数的方法是最小化误差的平方和。
**判断回归方程好坏:**预测值yHat和原始值y的相关性来度量回归方程的好坏。
样本数比特征数少的时候(不可逆):缩减方法-岭回归,lasso, 前向逐步回归
缩减法是对一个模型增加偏差减少方差的方法。