回归模型-简单线性回归

在一个回归模型中,我们需要关注或预测的变量叫做因变量,我们选取的用来解释因变量变化的变量叫做自变量。

一元线性回归模型

y=w0+w1x+ε,其中w0,w1为回归系数,ε为随机误差项,假设ε~N(0,σ2),则随机变量y~N(w0+w1x,σ2)。

面对一个具体问题,给定样本集合D={(x1,y1),…,(xn.yn)},我们的目标是找到一条直线y=w0+w1x使得所有样本点尽可能落在它的附近。

数据模型为 ( w 0 ^ , w 1 ^ ) = a r g m i n ( w 0 ^ , w 1 ^ ) ∑ i = 1 n ( y i − w 0 − w 1 x i ) 2 (\hat{w_{0}},\hat{w_{1}})=arg min_{(\hat{w_{0}},\hat{w_{1}})}\sum_{i=1}^{n}(y_{i}-w_{0}-w_{1}x_{i})^{2} (w0^,w1^)=argmin(w0^,w1^)i=1n(yiw0w1xi)2
回归模型-简单线性回归_第1张图片

多元线性回归模型

y=w0x0+w1x1+w2x2+…+wdxd

y=wTx+ε,其中x=(x1,x2,…,xd)为自变量,w=(w1,w2,…,wd)为回归系数。

假设将训练集中的输入特征部分记为n*d维矩阵X,矩阵第一列值全为1,训练数据的输出特征部分写成向量形式y=(y1,y2,…,yn)T
在多元线性模型中,输入X对应的模型输出为
y ^ = X w \hat{y}=Xw y^=Xw
回归模型-简单线性回归_第2张图片

线性回归的问题

实际数据可能不是线性的
●使用R2等指标进行模型诊断,R2越接近1,证明模型拟合的越好。
回归模型-简单线性回归_第3张图片
多重共线性
●正则化、主成分回归、偏最小二乘回归
过度拟合问题
当模型的变量过多时,线性回归可能会出现过度拟合问题。假如在房价预测问题中,假设x表示房屋面积,如果将x2,x3等作为独立变量可能出现以下情况
回归模型-简单线性回归_第4张图片

简单线性回归通常对模型作了以下假设:
1.输入特征是非随机的且互相不相关;
2.随机误差具有零均值,同方差的特点,且彼此不相关;
3.输入特征与随机误差不相关;
4.随机误差项服从正态分布N(0, σ2 ).

你可能感兴趣的:(机器学习,机器学习,算法,python,人工智能,深度学习)