Datawhale打卡-统计学(Day4)

线性回归

  1. 坐标系中若干点,找出一条直线y=mx+b,使这些点到该直线上同一横坐标的点的距离的平方和最小,求斜率m与截距b
  2. Datawhale打卡-统计学(Day4)_第1张图片
    上面的公式其实是m,b以及 S E l i n e SE_{line} SEline组成的曲面,其中要想求得m和b,最小化平方误差就是找到曲面的最低点,故可以转化为求偏导为零的点
    Datawhale打卡-统计学(Day4)_第2张图片
    Datawhale打卡-统计学(Day4)_第3张图片
  3. 决定系数为R—Squared,如果直线的平方误差很小,意味着直线拟合的很好,这时候R-Squared接近1,相反若平方误差很大,则R-Squared就会接近0
  4. 协方差是表示两随机变量同步程度的,是这两个随机变量离各自均值距离之积的期望值
    Datawhale打卡-统计学(Day4)_第4张图片

卡方分布

  1. 假设 X i X_i Xi~N(0,1),i=1,…,n,且相互独立,使变量
    Q = ∑ i = 1 n X i 2 Q=\sum\nolimits_{i=1}^{n} X_i^2 Q=i=1nXi2
    则Q服从自由度为n的卡方分布
  2. 有两种卡方检验,一种是皮尔逊卡方检验,一种是列联表卡方检验

方差分析

  1. 分析数据总波动是有多少由于组内波动造成的,有多少是由于组外波动造成的
  2. 其中SST是方差的分子部分,自由度为m*n-1
  3. 还有SSW是组内平方和,也即不同分组内数据对组内均值差的平方和之和,自由度为m*(n-1),知道哥组内n-1个数据就可以求出第n个数据的值
  4. SSB为组件平方和,总波动有多少是因为组均值之间的波动,也即不同分组均值对总均值差的平方和,自由度为m-1
  5. SST的自由度等于SSB与SSW之和,由此可说明数据的总波动可以分解为两个分量的波动之和,一个是组内,一个是组间

F统计量假设检验

F统计量:[SSB/(m-1)}/{SSW/[m(n-1)]}
若分子比分母大很多,说明波动大多数来自于各组之间

因果性与相关性

存在因果性一定相关,但是相关不一定是因果

你可能感兴趣的:(Datawhale打卡-统计学(Day4))