统计学_4

  1. 线性回归:基于平方误差最小的原理,利用线性函数对自变量和因变量关系进行建模的一种回归分析方法
    假定线性回归的最佳拟合曲线为:y=mx+b,则有关于m和b的确定步骤如下:
    平方误差最小原理: min ⁡ : Δ = ∑ i = 1 n ( y i − ( m x i + b ) ) 2 \min : \Delta=\sum_{i=1}^{n}\left(\mathrm{y}_{i}-\left(\mathrm{mx}_{i}+\mathrm{b}\right)\right)^{2} min:Δ=i=1n(yi(mxi+b))2
    对平方误差进行化简:
    Δ = ∑ i = 1 n ( y i − ( m x i + b ) ) 2 = ∑ i = 1 n y i 2 − 2 ∑ i = 1 n y i ( m x i + b ) + ∑ i = 1 n ( m x i + b ) 2 = ∑ i = 1 n y i 2 − 2 m ∑ i = 1 n x i y i − 2 b ∑ i = 1 n y i + m 2 ∑ i = 1 n x i 2 + 2 m b ∑ i = 1 n x i + n b 2 = n y 2 − 2 m n x y ‾ − 2 b n y ‾ + m 2 n x 2 + 2 m n b x ‾ + n b 2 \begin{aligned} \Delta &=\sum_{i=1}^{n}\left(\mathrm{y}_{i}-\left(\mathrm{mx}_{i}+b\right)\right)^{2} \\ &=\sum_{i=1}^{n} y_{i}^{2}-2 \sum_{i=1}^{n} y_{i}\left(\mathrm{mx}_{i}+b\right)+\sum_{i=1}^{n}\left(\mathrm{mx}_{i}+b\right)^{2} \\ &=\sum_{i=1}^{n} y_{i}^{2}-2 m \sum_{i=1}^{n} \mathrm{x}_{i} y_{i}-2 b \sum_{i=1}^{n} y_{i}+m^{2} \sum_{i=1}^{n} \mathrm{x}_{i}^{2}+2 m b \sum_{i=1}^{n} \mathrm{x}_{i}+n b^{2} \\ &=\mathrm{n} y^{2}-2 m n \overline{x y}-2 b n \overline{y}+m^{2} n x^{2}+2 m n b \overline{x}+n b^{2} \end{aligned} Δ=i=1n(yi(mxi+b))2=i=1nyi22i=1nyi(mxi+b)+i=1n(mxi+b)2=i=1nyi22mi=1nxiyi2bi=1nyi+m2i=1nxi2+2mbi=1nxi+nb2=ny22mnxy2bny+m2nx2+2mnbx+nb2
    为求得最小平均误差,应满足:
    ∂ Δ / ∂ m = 0 ⇒ m x 2 + b x ‾ = x y ‾ ∂ Δ / ∂ b = 0 ⇒ m x ‾ + b = y ‾ \begin{array}{l}{\partial \Delta / \partial m=0 \Rightarrow m x^{2}+b \overline{x}=\overline{x y}} \\ {\partial \Delta / \partial b=0 \Rightarrow m \overline{x}+b=\overline{y}}\end{array} Δ/m=0mx2+bx=xyΔ/b=0mx+b=y
    则可以得到: m = x ‾ y ‾ − x y ‾ ( x ‾ ) 2 − x 2 ‾ , b = y ‾ − m x ‾ m=\frac{\overline{x} \overline{y}-\overline{x y}}{(\overline{x})^{2}-\overline{x^{2}}}, b=\overline{y}-m \overline{x} m=(x)2x2xyxy,b=ymx

  2. 决定系数R2:表征y的总波动中,有多少比例能以直线关系被描述(or:y的波动有多少比例能被x的波动所描述)。
    y的总波动: S E y ‾ = ∑ i = 1 n ( y i − μ y ) 2 ≈ ∑ i = 1 n ( y i − y ‾ ) 2 S E_{\overline{y}}=\sum_{i=1}^{n}\left(\mathrm{y}_{i}-\mu_{y}\right)^{2} \approx \sum_{i=1}^{n}\left(\mathrm{y}_{i}-\overline{\mathrm{y}}\right)^{2} SEy=i=1n(yiμy)2i=1n(yiy)2
    总波动中未被回归线描述的部分:
    S E line = ∑ i = 1 n ( y i − ( m x i + b ) ) 2 S E_{\text {line}}=\sum_{i=1}^{n}\left(\mathrm{y}_{i}-\left(\mathrm{mx}_{i}+b\right)\right)^{2} SEline=i=1n(yi(mxi+b))2
    决定系数R2: R 2 = 1 − S E y ‾ S E line R_{2}=1-\frac{S E_{\overline{y}}}{S E_{\text {line}}} R2=1SElineSEy

  3. 协方差:协方差的定义公式如下: cov ⁡ ( x , y ) = E ( ( x − E ( x ) ) ( y − E ( y ) ) ) \operatorname{cov}(x, y)=E((x-E(x))(y-E(y))) cov(x,y)=E((xE(x))(yE(y)))
    协方差与回归之间的关系:
    cov ⁡ ( x , y ) = E ( ( x − E ( x ) ) ( y − E ( y ) ) ) = E ( x y − x E ( y ) − y E ( x ) + E ( x ) E ( y ) ) = E ( x y ) − E ( x E ( y ) ) − E ( y E ( x ) ) + E ( E ( x ) E ( y ) ) = E ( x y ) − E ( x ) E ( y ) − E ( y ) E ( x ) + E ( x ) E ( y ) = E ( x y ) − E ( x ) E ( y ) = μ x y − μ x μ y ≈ x y ‾ − x y ‾ \begin{aligned} \operatorname{cov}(x, y) &=\mathrm{E}((\mathrm{x}-\mathrm{E}(\mathrm{x}))(\mathrm{y}-\mathrm{E}(\mathrm{y}))) \\ &=\mathrm{E}(x y-x \mathrm{E}(\mathrm{y})-y \mathrm{E}(\mathrm{x})+\mathrm{E}(\mathrm{x}) \mathrm{E}(\mathrm{y})) \\ &=\mathrm{E}(\mathrm{xy})-\mathrm{E}(\mathrm{xE}(\mathrm{y}))-\mathrm{E}(\mathrm{yE}(\mathrm{x}))+E(\mathrm{E}(\mathrm{x}) \mathrm{E}(\mathrm{y})) \\ &=\mathrm{E}(\mathrm{xy})-\mathrm{E}(\mathrm{x}) \mathrm{E}(\mathrm{y})-\mathrm{E}(\mathrm{y}) \mathrm{E}(\mathrm{x})+\mathrm{E}(\mathrm{x}) \mathrm{E}(\mathrm{y}) \\ &=\mathrm{E}(\mathrm{xy})-\mathrm{E}(\mathrm{x}) \mathrm{E}(\mathrm{y}) \\ &=\mu_{\mathrm{xy}}-\mu_{\mathrm{x}} \mu_{\mathrm{y}} \\ & \approx \overline{\mathrm{xy}}-\overline{\mathrm{xy}} \end{aligned} cov(x,y)=E((xE(x))(yE(y)))=E(xyxE(y)yE(x)+E(x)E(y))=E(xy)E(xE(y))E(yE(x))+E(E(x)E(y))=E(xy)E(x)E(y)E(y)E(x)+E(x)E(y)=E(xy)E(x)E(y)=μxyμxμyxyxy
    m = x y ‾ − x y ‾ ( x ‾ ) 2 − x 2 ‾ ≈ cov ⁡ ( x , y ) cov ⁡ ( x , x ) = cov ⁡ ( x , y ) E ( ( x − E ( x ) ) 2 ) = cov ⁡ ( x , y ) σ x 2 m=\frac{\overline{x y}-\overline{x y}}{(\overline{x})^{2}-\overline{x^{2}}} \approx \frac{\operatorname{cov}(x, y)}{\operatorname{cov}(x, x)}=\frac{\operatorname{cov}(x, y)}{E\left((x-E(x))^{2}\right)}=\frac{\operatorname{cov}(x, y)}{\sigma_{x}^{2}} m=(x)2x2xyxycov(x,x)cov(x,y)=E((xE(x))2)cov(x,y)=σx2cov(x,y)

  4. 卡方分布:k个独立且分别服从标准正态分布的随机变量,其平方和构成一个新的随机变量,该随机变量服从自由度为k的卡方分布。
    卡方分布的曲线:
    统计学_4_第1张图片

  5. 皮尔逊卡方检验:基于卡方分布做假设性检验,其中构造随机变量为:X2=Σ(实际频数-理论频数)^2/理论频数,该随机变量近似服从卡方分布。
    例:一家餐厅预计的每天顾客量占整周的比例为:10%(Mon),10%(Tue),15%(Wen),20%(Thu),30%(Fri),15%(Sat),经过一周的抽检,得到每天的顾客数为:30(Mon),14(Tue),34(Wen),45(Thu),57(Fri),20(Sat),做皮尔逊卡方检验,显著性水平5%。
    做总体的假设:零假设:该餐厅的预计比例正确;备择假设:该餐厅的预计比例错误。假定零假设正确,则每天的预计顾客数为:20(Mon),20(Tue),30(Wen),40(Thu),60(Fri),30(Sat),根据样本的结果得到随机变量X2的值为11.44,根据卡方分布(此处自由度应当为5,因为只需要知道任意五天的比例,即可知道剩下一天的情况,从而得到X2的值),随机变量X2大于11.07的概率为5%,因此得到该样本的几率会更小,否定1零假设,从而接受备择假设。

  6. 列联表卡方检验:
    列联表:以表格的形式表示两个或多个变量/属性同时出现的频率
    列联表卡方分布的自由度等于(行数-1)(列数-1)
    例:为检验两种药草的有效性进行抽样试验,对于药草A实验组,20人生病,100人健康;对于药草B,30人生病,110人健康;对于对照实验组,30人生病,90人健康,对药草有效性做卡方检验,显著性水平10%:
    列表结果如下:
    统计学_4_第2张图片
    对总体做假设:零假设:药草无效;备择假设:药草有效。在零假设成立的基础上,药草无效,则三种情况下的总体生病/健康率应当一致,根据样本的期望值估计总体期望值,则生病的期望概率应当是:80/380=21%,健康的期望概率应当是:300/380=79%,由此得到三种情况下各自的期望结果,做列联表如下:
    统计学_4_第3张图片
    构造随机变量为:X2=Σ(实际频数-理论频数)^2/理论频数,计算随机变量X2的值为2.53,根据卡方分布(自由度等于:(2-1)(3-1)=2),随机变量X2大于4.6的概率为10%,因此得到该样本的结果概率要大于10%,无法拒绝零假设

  7. 方差分析:用于两个及两个以上样本均值差别的显著性检验
    例:有三种食物A,B,C,分别对三种食物的评分做抽样试验,A组的抽样试验结果为:3,2,1,B组的抽样试验结果为:5,3,4,C组的抽样试验结果为:5,6,7。
    计算各组的平均值和总平均值:
    x A ‾ = ∑ x A i / 3 = 2 x B ‾ = ∑ x B i / 3 = 4 x C ‾ = ∑ x G i / 3 = 6 x ‾ = ( x A ‾ + x B ‾ + x C ‾ ) / 3 = ( ∑ x A i / 3 + ∑ x B i / 3 + ∑ x c i / 3 ) / 3 = ( ∑ x A i + ∑ x B i + ∑ x C i ) / 9 = 4 \begin{aligned} \overline{x_{A}} &=\sum x_{A i} / 3=2 \\ \overline{x_{B}} &=\sum x_{B i} / 3=4 \\ \overline{x_{C}} &=\sum x_{G i} / 3=6 \\ \overline{x} &=\left(\overline{x_{A}}+\overline{x_{B}}+\overline{x_{C}}\right) / 3 \\ &=\left(\sum x_{A i} / 3+\sum x_{B i} / 3+\sum x_{c i} / 3\right) / 3 \\ &=\left(\sum x_{A i}+\sum x_{B i}+\sum x_{C i}\right) / 9 \\ &=4 \end{aligned} xAxBxCx=xAi/3=2=xBi/3=4=xGi/3=6=(xA+xB+xC)/3=(xAi/3+xBi/3+xci/3)/3=(xAi+xBi+xCi)/9=4
    计算总平方和SST(可以看做是总波动)及其自由度(m
    n-1,m表示组数,n表示样本容量。根据总平均值,知道mn-1个值,剩下的结果可以直接计算得到):
    S S T = ∑ ( x A i − x ‾ ) 2 + ∑ ( x B i − x ‾ ) 2 + ∑ ( x C i − x ‾ ) 2 = 30 n S S T = m n − 1 = 3 × 3 − 1 = 8 \begin{array}{l}{\mathrm{SST}=\sum\left(x_{A i}-\overline{x}\right)^{2}+\sum\left(x_{B i}-\overline{x}\right)^{2}+\sum\left(x_{C i}-\overline{x}\right)^{2}} \\ {\quad=30} \\ {n_{\mathrm{SST}}=m n-1=3 \times 3-1=8}\end{array} SST=(xAix)2+(xBix)2+(xCix)2=30nSST=mn1=3×31=8
    计算组内平方和(可以看做组内波动)及其自由度【m(n-1)。对于每一组样本的样本均值,知道该组的n-1个数据,剩下的结果可以直接计算得到】:
    S S W = ∑ ( x A i − x A ‾ ) 2 + ∑ ( x B i − x B ‾ ) 2 + ∑ ( x C i − x C ‾ ) 2 = 6 n S S W = m ( n − 1 ) = 3 × ( 3 − 1 ) = 6 \begin{aligned} S S W &=\sum\left(x_{A i}-\overline{x_{A}}\right)^{2}+\sum\left(x_{B i}-\overline{x_{B}}\right)^{2}+\sum\left(x_{C i}-\overline{x_{C}}\right)^{2} \\ &=6 \\ n_{S S W} &=m(n-1)=3 \times(3-1)=6 \end{aligned} SSWnSSW=(xAixA)2+(xBixB)2+(xCixC)2=6=m(n1)=3×(31)=6
    计算组间平方和(可以看做组间波动)及其自由度(m-1。根据总平均值,知道m-1个各组均值,剩下的结果可以直接计算得到):
    S S B = ∑ ( x A ‾ − x ‾ ) 2 + ∑ ( x B ‾ − x ‾ ) 2 + ∑ ( x c ‾ − x ‾ ) 2 = 24 n S S B = m − 1 = 3 − 1 = 2 \begin{array}{l}{S S B=\sum\left(\overline{x_{A}}-\overline{x}\right)^{2}+\sum\left(\overline{x_{B}}-\overline{x}\right)^{2}+\sum\left(\overline{x_{c}}-\overline{x}\right)^{2}} \\ {=24} \\ {n_{\mathrm{SSB}}=m-1=3-1=2}\end{array} SSB=(xAx)2+(xBx)2+(xcx)2=24nSSB=m1=31=2
    根据平方和的结果可知:总平方和=组内平方和+组间平方和 <=> 总波动=组内波动+组间波动,总波动的自由度=组内波动的自由度+组间波动的自由度
    针对三种食物的差异做假设检验,显著性水平10%。基于样本的结果对总体做假设:零假设:三种食物无差异(μ_A=μ_B=μ_C);备择假设:三种食物有差异。构造随机变量:
    F = S S B / n S S B S S W / n S S W F=\frac{S S B / n_{S S B}}{S S W / n_{S S W}} F=SSW/nSSWSSB/nSSB
    该随机变量服从F分布。在假定零假设成立的基础上,基于F分布,该随机变量大于3.46的概率为10%,而样本的结果的对应的F值为12,因此得到样本的结果概率更小。根据以上结果,拒绝零假设,接受备择假设。

  8. 因果性与相关性:因果性是指,由A会导致B,是一种明确表明两者之间关系的描述;相关性是指,A和B有可能会同时被检测到,并不能明确说明两者之间的关系。
    例:不吃早餐与肥胖相关,吃早餐与不肥胖相关(相关性)。
    这种相关性,可能是因为不吃早餐导致肥胖,也有可能是因为肥胖所以才不想吃早餐,因果关系可能是反的。
    还有可能是因为某个因素导致两者同时发生,也许是因为运动导致早上想吃早餐,且运动使得不会肥胖,这样的话,在运动的前提下,早餐与不肥胖会被同时检测到;也许是因为睡眠过晚,导致错过早餐,且睡眠不足导致消化不抗因而肥胖,在睡眠过晚的前提下,不吃早餐与肥胖会被同时检测到。类似的这种因素还有很多。

  9. 演绎推理与归纳推理:
    归纳推理:寻找规律或趋势,然后进行推广(利用已有信息进行趋势外推)
    演绎推理:从一些数据或事实出发,演绎得到其他正确的事实
    两者的区别:归纳推理是基于假设现有的趋势会继续的基础上,得到其他的结果,其结果不一定正确;演绎推理得到的结果则一定是正确的。
    例:证明等式两边相等,是基于演绎推理,从等式的一边结合已有的公式(事实)推导到另一边(其他正确的事实)

你可能感兴趣的:(统计学_4)