应用回归分析

几个问题

  • 线性回归模型的思想和基本假设是什么?
  • 线性回归模型的估计与检验问题?模型中参数的估计和性质(检验)
  • 模型假设不符合时该如何处理?换模型换假定还是换指标设计?
  • 如何利用回归分析方法解决实际问题?

章节目录

  • 回归分析概述
  • 一元线性回归
  • 多元线性回归(从第二章到第三章很多结论可以平推)
  • 违背基本假定的情况(上面说的第三个问题)
  • 自变量选择和逐步回归(模型选择)
  • 多重共线性的情形及其处理
  • 岭回归
  • 非线性回归(不是重点——书里还是退化到线性来解决,比较简单)
  • 含定性变量的回归模型(分类变量的处理)

考核方式

  • 作业 30%
  • 课堂表现 10%
  • 闭卷考试 60%——选择题的部分(不定项选择40分)
  • 大作业(MSE)——预测书的价格

第一章 回归分析概述

变量间的统计关系

  • 先了解一下函数关系:确定的映射关系
  • 需要研究的统计关系是相关关系——有一定关系但是不完全确定
  • 用回归的方法研究变量之间的相关关系,回归分析和相关分析不一样
    • x与y的地位在回归中不同(分因变量和自变量——解释变量和被解释变量),在相关关系中不考虑差异(用相关系数衡量)
    • 随机变量与非随机变量:在相关分析里面两个变量都必须是随机变量,在回归中认为x是非随机的(应该是随机的,但是为了简化问题说是随机的)
    • 研究的目的与作用:回归主要的目的是解释结构和做预测,相关分析就是看相关性

回归方程与回归名称的由来

两个变量是有相关性的,一般来讲期望中二者的相关性比较高
回归是由Galton和Pearson研究父母身高及其子女身高遗传问题的时候,发现有归回的现象,系数是0.5哇

回归分析的主要内容及其一般模型

  • 主要内容:通过建立统计模型研究
    • 通过x去预测y是回归最核心的东西
    • 什么是y的最佳预测?
      我们企图用 g ( x ) g(x) g(x)去预测y,取 g ( x ) = E [ Y ∣ X ] g(x)=E[Y|X] g(x)=E[YX]时, E ( Y − g ( x ) ) 2 E(Y-g(x))^2 E(Yg(x))2最小
      f ( x ) = E [ Y ∣ X ] = β 0 + β 1 x f(x)=E[Y|X]=\beta_0+\beta_1x f(x)=E[YX]=β0+β1x回归函数取线性的形式,所以叫线性回归
    • 什么是y的最佳线性预测?

E ( Y − g ( x ) ) 2 = E ( Y − E [ Y ∣ X ] + E [ Y ∣ X ] − g ( x ) ) 2 E(Y-g(x))^2=E(Y-E[Y|X]+E[Y|X]-g(x))^2 E(Yg(x))2=E(YE[YX]+E[YX]g(x))2
= E ( Y − E [ Y ∣ X ] ) 2 + E ( E [ Y ∣ X ] − g ( x ) ) 2 =E(Y-E[Y|X])^2+E(E[Y|X]-g(x))^2 =E(YE[YX])2+E(E[YX]g(x))2
+ 2 E ( Y − E [ Y ∣ X ] ) ( E [ Y ∣ X ] − g ( x ) ) +2E(Y-E[Y|X])(E[Y|X]-g(x)) +2E(YE[YX])(E[YX]g(x))
根据条件期望公式 E ( E [ Y ∣ X ] ) = E ( Y ) E(E[Y|X])=E(Y) E(E[YX])=E(Y),发现 E ( Y − E [ Y ∣ X ] ) ( E [ Y ∣ X ] − g ( x ) ) = 0 E(Y-E[Y|X])(E[Y|X]-g(x))=0 E(YE[YX])(E[YX]g(x))=0

  • 一般形式: y = f ( x 1 , x 2 , . . . , x p ) + ϵ y = f(x_1,x_2,...,x_p)+\epsilon y=f(x1,x2,...,xp)+ϵ
    • y——被解释变量(因变量)
    • x i x_i xi——解释变量(自变量)
    • ϵ \epsilon ϵ——随机误差项
  • 线性回归模型: y = β 0 + β 1 x 1 + . . . + β p x p + ϵ y=\beta_0+\beta_1 x_1+...+\beta_p x_p + \epsilon y=β0+β1x1+...+βpxp+ϵ
    • 线性模型指的是 β i \beta_i βi是线性的,不要求 x i x_i xi是线性的,比如 y = β 0 + β 1 x 1 2 + . . . + β p x p p + ϵ y=\beta_0+\beta_1 x_1^2+...+\beta_p x_p^p + \epsilon y=β0+β1x12+...+βpxpp+ϵ也是线性的(可替换)
    • 基本假设
      • 解释变量 x 1 , x 2 , . . . x_1,x_2,... x1,x2,...是非随机变量,观测值 x i 1 , . . . x i p x_{i1},...x_{ip} xi1,...xip是常数(希望从平均意义上看,E(Y|X)=E(Y),因为x是常数)
      • Gauss-Markov假定:等方差及不相关假定(最小二乘法——最佳线性无偏估计——的条件)
        • E ϵ = 0 E\epsilon=0 Eϵ=0
        • c o v ( ϵ i , ϵ j ) = 0 cov(\epsilon_i,\epsilon_j)=0 cov(ϵi,ϵj)=0
        • V a r ( ϵ i ) = σ 2 Var(\epsilon_i)=\sigma^2 Var(ϵi)=σ2——这个 σ 2 \sigma^2 σ2同时反映了Y的方差(因为X是非随机的)
      • 正态分布的假定: ϵ i N ( 0 , σ 2 ) \epsilon_i N(0,\sigma^2) ϵiN(0,σ2)
      • n > p n>p n>p:样本量比待估参数要多

把x看作随机变量
E [ ϵ ∣ X ] = E ( Y − f ( x ) ∣ X ) = E [ Y ∣ X ] − f ( x ) = f ( x ) − f ( x ) = 0 E[\epsilon|X]=E(Y-f(x)|X)=E[Y|X]-f(x)=f(x)-f(x)=0 E[ϵX]=E(Yf(x)X)=E[YX]f(x)=f(x)f(x)=0

  • 对于线性回归模型通常要研究的问题
    • 根据样本求出 β 0 , β 1 , . . . , β p , σ 2 \beta_0,\beta_1,...,\beta_p,\sigma^2 β0,β1,...,βp,σ2的估计
    • 对回归方程以及回归系数的种种假设进行检验
    • 根据回归方程进行预测和控制,以及进行实际问题的结构分析

建立实际问题回归模型的过程(见书)


第二章 一元线性回归

一元线性回归模型

  • y = β 0 + β 1 x + ϵ y = \beta_0+\beta_1 x+\epsilon y=β0+β1x+ϵ 不是一个完整模型,完整模型要带假定条件,比如上面写的G-M条件,代入样本之后有 y i = β 0 + β 1 x i + ϵ i y_i = \beta_0+\beta_1 x_i+\epsilon_i yi=β0+β1xi+ϵi——最好用矩阵的形式表示
  • 回归系数作何解释?
    • β 0 \beta_0 β0表示 E [ Y ∣ X i = 0 ] E[Y|X_i=0] E[YXi=0]
    • β 1 \beta_1 β1表示 E [ Y ∣ X 1 = x + 1 ] − E [ Y ∣ X 1 = x ] E[Y|X_1=x+1]-E[Y|X_1=x] E[YX1=x+1]E[YX1=x],随着x的增加, E [ Y ] E[Y] E[Y]的单位增量(一元的回归模型)
    • β i \beta_i βi表示 E [ Y ∣ X i = x + 1 ] − E [ Y ∣ X i = x ] E[Y|X_i=x+1]-E[Y|X_i=x] E[YXi=x+1]E[YXi=x],随着 x i x_i xi的增加, E [ Y ] E[Y] E[Y]的单位增量(其他因素不变——因为往往因素之间有相关关系)——类似偏导

注意x是不是随机的,决定要不要加条件

  • 得到经验回归方程 y ^ = β 0 ^ + β 1 ^ x \hat y = \hat{\beta_0}+\hat{\beta_1}x y^=β0^+β1^x
  • y ∣ x y|_x yx服从 N ( β 0 + β 1 x , σ 2 ) N(\beta_0+\beta_1x,\sigma^2) N(β0+β1x,σ2)

参数 β 0 , β 1 \beta_0,\beta_1 β0,β1的估计

最小二乘估计的性质

回归方程的显著性检验

残差分析

回归系数的区间估计

预测和控制

你可能感兴趣的:(应用回归分析)