统计回归模型的设计

这篇文章会从统计建模的方面来说明,机器学习方面的回归模型将放到之后。
一、模型假设
考虑模型如下
在这里插入图片描述
建立回归模型时,需要考虑数据是否满足以下六个条件。满足以下条件的数据才具有用回归模型模拟的意义,同时回归模型对于数据也才具备解释和预测的能力。
指数分布族和广义线性回归(见上篇)可以保证线性回归模型的以下基本假设
a、Y的平均值能够准确地被由X组成的线性函数建模出来
b、解释变量和随机扰动项不存在线性关系
c、解释变量之间不存在线性关系(或强相关)
d、假设随机误差项ε是一个均值为0的正态分布
e、假设随机误差项ε的方差恒为σ^2
f、误差是独立的。
二、目标函数(以一元回归为例)
最小化每个观测到拟合曲线的距离平方和
在这里插入图片描述
对于待求变量求偏导,令其为0
统计回归模型的设计_第1张图片
三、模型检验:
统计学中对于模型的检验分为三部分,
一是模型整体拟合情况检验即拟合优度检验,衡量模型预测数据与实际数据的差别来看待模型整体的处理(模型形式/参数选择等)是否合理。一元线性模型使用的是R^2,多元线性模型使用的是F检验;
二是模型的参数的检验,即每个参数的系数的显著性检验,检验该系数与0是否显著不一致。检验自变量系数β_1、β_2与0是否显著不一致,使用t检验,一般模型的结果会给出P值。小于显著性水平的P值对应的系数可以认为是显著的;
三是残差检验,直观展现模型是否捕捉到了数据中的全部信息。
1、单位正态分布的残差,说明模型已经捕捉到了所有的信息。
统计回归模型的设计_第2张图片
2、非线性残差,说明还有X的非线性信息未有加入到残差图中,此时可以增加X的高阶项(X^2)
统计回归模型的设计_第3张图片
3、异方差残差,说明存在异方差现象,一般是对于因变量(和自变量)取对数
统计回归模型的设计_第4张图片
4、自相关残差,说明存在自相关现象,一般是在模型中增加Y的一阶滞后项
统计回归模型的设计_第5张图片
四、模型解释
现在的模型还比较简单,实际中一般有以下三种解释的方向。
在这里插入图片描述
以X_1为例
1、当X_1=0,Y=β_0+β_2^X_2。看Y的变化情况与X_2的关系。
2、当X_1≠0,Y=β_0+β_1^X_1 + β_2^X_2
3、当X_1每变化一个单位,Y变化β_1个单位(对于对数模型,系数表示变化率)
五、程序(python)
假设需要检验房价与房屋面积之间的关系,数据如下
| 统计回归模型的设计_第6张图片
程序如下:


"""
AREA-房屋面积

price-平米单价
"""
import pandas as pd
import statsmodels.api as sm
from numpy import corrcoef,array
#from IPython.display import HTML, display
from statsmodels.formula.api import ols

import os
os.chdir(r"E:\编程")
#%%

data1=pd.read_excel("房价与面积.xlsx")  #读入数据
print("%d",data1.shape[0])  #样本量

data1.price=data1.price/10000  #价格单位转换成万元

#线性回归模型#
lm1 = ols("price ~ AREA", data=data1).fit()
lm1_summary = lm1.summary()
lm1_summary 

模型运行结果如下:


"""
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                  price   R-squared:                       0.959
Model:                            OLS   Adj. R-squared:                  0.956
Method:                 Least Squares   F-statistic:                     327.2
Date:                Sun, 16 Dec 2018   Prob (F-statistic):           4.17e-11
Time:                        17:04:14   Log-Likelihood:                 4.8181
No. Observations:                  16   AIC:                            -5.636
Df Residuals:                      14   BIC:                            -4.091
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.6534      0.289      2.262      0.040       0.034       1.273
AREA           0.0879      0.005     18.090      0.000       0.078       0.098
==============================================================================
Omnibus:                        9.711   Durbin-Watson:                   2.179
Prob(Omnibus):                  0.008   Jarque-Bera (JB):                7.007
Skew:                          -0.988   Prob(JB):                       0.0301
Kurtosis:                       5.569   Cond. No.                         359.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
"""

你可能感兴趣的:(统计回归模型的设计)