统计学基础面点

文章目录

        • 1. T检验
        • F检验
        • 卡方检验
        • 2. 方差分析
        • 3. 多重共线性
        • 4. 参数估计
        • 5. 假设检验
        • 6. 大数定律和中心极限定理

总结一下统计学的基础概念和考点给即将秋招的统计学er以及baozi

1. T检验

  • 基本概念
    t检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。 t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
  • 基本用途
    (1) 单总体检验
    a. 单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。比如检验这个班级的平均身高是否为168cm。
    b. 基本统计量为: t = X ‾ − μ σ X n t=\frac{\overline{X}-\mu}{\frac{\sigma_X}{\sqrt{n}}} t=n σXXμ

(2) 双总体检验
检验两个样本的均值是否显著相等,要求两样本的总体方差相等,即具有方差齐性
统计学基础面点_第1张图片

(3) 配对样本检验

F检验

百度上解释:其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体

怎么理解呢?

每个检验其实都是对问题的参数构造一个样本统计量,该样本统计量服从某个分布(T分布、F分布、卡方分布),可以称为T统计量、F统计量、卡方统计量

统计量
(样本的已知函数;其作用是把样本中有关总体的信息汇集起来;是数理统计学中一个重要的基本概念。统计量依赖且只依赖于样本x1,x2,…xn;它不含总体分布的任何未知参数。

然后根据假设检验小概率原理,认为小概率事件几乎不可能发生,设定显著性水平进行推断。比如T分布类似于正态分布,对于均值可以构造一个t统计量,该统计量服从T分布,根据小概率原理进行假设检验,若p<α,则该统计量落在了拒绝域,因此有理由拒绝原假设,接受备择假设
统计学基础面点_第2张图片

  • F检验的用处
    (1) 方差齐性检验
    a. 检验两样本的方差是否显著相等,比如双样本t检验之前是需要检验方差是否齐性的
    b. 原假设:总体方差相等,备择假设:总体方差不相等
    c. 构造统计量 s 1 2 / σ 1 2 s 2 2 / σ 2 2 服从 F ( n 1 − 1 , n 2 − 1 ) \frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2}服从F(n_1-1,n_2-1) s22/σ22s12/σ12服从F(n11,n21)

(2) 方差分析
方差分析(ANOVA)又称“变异数分析”,是R.A.Fister发明的,用于两个及两个以上样本均数差别的显著性检验

由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和

经过方差分析若拒绝了检验假设,只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较

  • 方差分析的基本假设
    a. 各处理条件下的样本是随机的。
    b. 各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果
    c. 各处理条件下的样本分布必须为正态分布,否则使用非参数分析。
    d. 各处理条件下的样本方差相同,即具有齐效性

  • 基本公式 S S A / ( r − 1 ) S S E / ( n − r ) 服从 F ( r − 1 , n − r ) ) \frac{SSA/(r-1)}{SSE/(n-r)}服从F(r-1,n-r)) SSE/(nr)SSA/(r1)服从F(r1,nr))其中,SSA表示组间平方和,SSE表示组内平方和,总平方和 S S T = S S E + S S A SST=SSE+SSA SST=SSE+SSA

(3) 线性回归方程整体的显著性检验

  • 检验整个模型是否显著,采用F检验
  • 基本公式
    S S R / ( p ) S S E / ( n − p − 1 ) 服从 F ( p , n − p − 1 ) ) \frac{SSR/(p)}{SSE/(n-p-1)}服从F(p,n-p-1)) SSE/(np1)SSR/(p)服从F(p,np1))其中,SSR表示回归平方和,SSE表示残差平方和,总平方和 S S T = S S R + S S E SST=SSR+SSE SST=SSR+SSE

卡方检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
注意:卡方检验针对分类变量。

用途:
两分布的检验

基本公式
χ 2 = Σ ( A − T ) 2 T \chi^2=\Sigma\frac{(A-T)^2}{T} χ2=ΣT(AT)2其中,A表示实际值,T表示理论值,卡方值的意义是衡量理论与实际的差异程度

代码实现:
计算两两特征的卡方值,因变量为好坏样本,二分类

#根据矩阵计算卡方值
def _chi2(df):
    col_sum=df.sum(axis=0)
    row_sum=df.sum(axis=1)
    e_sum=df.sum()
    e=np.ones(df.shape)*col_sum/e_sum
    e=(e.T*row_sum).T
    chi=(df-e)**2/e
    chi[e==0]=0
    return chi.sum()

2. 方差分析

3. 多重共线性

4. 参数估计

5. 假设检验

6. 大数定律和中心极限定理

你可能感兴趣的:(统计学,概率论,机器学习,算法)