R语言 cor与lm

R语言:cor与lm中的R方

    • 简介
      • cor
      • lm
    • 相关系数
      • 协方差(Covariance)
      • 方差(variance)
    • 线性拟合
      • 拟合优度

简介

今天遇到了一个问题,为啥R中cor求的R和 lm() 的R2 值不一样

cor

cor常用于计算两组数据之间的皮尔森 相关系数,它也可以用于计算"kendall", "spearman"相关系数。

cor(x, y,method = c("pearson", "kendall", "spearman"))

lm

summary(lm(y~x))
names(summary(lm(y~x))) #可以看到其下的属性
summary(lm(y~x))$adj.r.squared #得到r方

lm用于拟合线性模型。它可以用来进行回归、方差的单因素方差分析和协方差分析(尽管aov更方便)。

相关系数


其中cov(x,y)为 协方差,Var[X]为X的 方差,Var[Y]为Y的方差

协方差(Covariance)

在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
Alt

E(X)是 数学期望,设连续性随机变量X的概率密度函数为f(x),若积分绝对收敛,则称积分的值为随机变量的数学期望,记为E(X)。

如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

方差(variance)

Alt
X为变量, μ 为总体均值, N为总体例数。
相关系数是用以反映变量之间相关关系密切程度的统计指标。绝对值越接近1,相关性越好,正值表明为正相关。

线性拟合

R² 是对模型进行线性回归后,评价回归模型系数 拟合优度
又称为“决定系数”。
公式:R2=SSR/SST=1-SSE/SST
SST (total sum of squares):总平方和
SSR (regression sum of squares):回归平方和
SSE (error sum of squares) :残差平方和。

拟合优度

拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数(亦称确定系数)R²。R²最大值为1。R²的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R²的值越小,说明回归直线对观测值的拟合程度越差。

R²和 Adjusted R²有何种区别?
不断添加变量,使模型变得复杂,R²会变大(模型的拟合优度提升,而这种提升是虚假的),Adjusted R²则不一定变大(随意添加变量不一定能让模型拟合度上升)。

你可能感兴趣的:(R语言学习)