Machine Learning Algorithm : 多元线性回归

多元线性回归与单一变量的线性回归的区别:

 

单一变量的线性回归考虑的自变量的个数是一个,所以考虑的影响因素就只有一个。多元线性回归涉及到的变量有多个,

例如,影响冰激凌销量的因素可能不止温度一种,还涉及到时间,价格等因素的影响。

 

参照单一变量的线性回归,我们给出多元线性回归的一般通式:

Machine Learning Algorithm : 多元线性回归_第1张图片

其中,a是偏置,W是各个因素的权值,X是各种影响因素,也就是自变量。Y是结果,也是因变量,待预测量。

我们要做的还是调整a和所有的W,使得预测值与真实值偏差的平方和最小。

 

多元线性回归的坑

 

1.权值不要过高。

如果权值太大,自变量变化很小的量将会导致因变量的大幅度变化,例如:

Machine Learning Algorithm : 多元线性回归_第2张图片

当自变量发生变化时,因变量会产生巨大的变化。

解决办法:

a  取对数。log(10000)=4,很容易降下来。

b  对数据正则化处理。

c  使用L1,L2参数进行惩罚。

 

2.数据量要大

一般来说,数据量越大拟合的效果越好。一般来说,数据量至少是自变量个数的100倍

 

3.对于自变量个数过多的情况进行惩罚

 

调整R squared参数:

Machine Learning Algorithm : 多元线性回归_第3张图片

调整R squared越小,模型越好。

 

线性回归的一些基本假设

 

1.自变量与因变量之间是线性关系。

 

2.自变量中不含异常值。如果含异常值需要做标注。

 

3.样本点均匀的分布在拟合直线的两侧。

Machine Learning Algorithm : 多元线性回归_第4张图片

4.误差应该符合正态分布

 

 

你可能感兴趣的:(Machine,Learing,机器学习算法)