线性相关(皮尔逊相关)和线性回归的比较

“回归”概念的出现:

       十九世纪英国人类学家 F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长做了测量,发现:

       儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:Y=33.73+0.516X

       即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。

       目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。

直线回归:

  • 目的:研究应变量Y对自变量X的数量依存关系
  • 特点:描述的是X和Y的统计关系,具体来说是描述X和Y的均数的关系,不同于一般数学上X和Y的函数关系
  • 一般表达式:Y=a+bX

     ab82dcb6879545d18ba8f3e33ae3c667.png       a59968afff8e401091cb4c60c5cc15cb.png

   线性相关(皮尔逊相关)和线性回归的比较_第1张图片

直线相关:

  • 目的:研究两个变量X,Y数量上的依存(相关)关系
  • 特点:描述的是X和Y的统计关系
  • 意义:相关系数的大小说明了两变量之间的直线关系的密切程度,其值在-1到1之间

     线性相关(皮尔逊相关)和线性回归的比较_第2张图片

    线性相关(皮尔逊相关)和线性回归的比较_第3张图片

直线回归和直线相关的比较:

  1. 直线相关用于说明两直线关系的方向和密切程度,X和Y没有主次之分
  2. 直线回归用于进一步定量刻画Y对自变量X在数值上的依存关系,变量的选择要依靠专业知识而定 
  3. 直线回归的p值描述了两变量间直线关系的存在的可能性,不能说p值越小,直线关系越密切
  4. 直线相关的R^2反映了两变量间直线关系的密切性,绝对值越接近1,直线关系越密切
  5. 直线相关的R^2代表了可由直线回归解释的变异的百分比

    线性相关(皮尔逊相关)和线性回归的比较_第4张图片

你可能感兴趣的:(统计学基础知识,学习,算法)