数据分析面试统计问题整理

  • 参数估计
    用样本统计量去估计总体的参数。

  • 假设检验
    是先对μ的值提出一个假设,然后利用样本信息去检验这个假设是否成立。

  • 置信度与置信区间
    置信区间是我们所计算出的变量合理的存在范围,置信度就是这个范围的可信程度。

  • 协方差与相关系数的区别和联系
    1)协方差:两个变量的总体的误差。
    2)相关系数:取值范围是[-1,1]。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

  • 中心极限定理

    • 参考文章:https://www.zhihu.com/question/22913867/answer/250046834
    • 什么是中心极限定理
      1)样本平均值约等于总体平均值。
      2)不管总体是什么分布,任意一个样本平均值都会围绕在总体平均值周围,并且呈正态分布。
    • 用处
      1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。
      2)根据总体的平均值和标准差,判断某个样本是否属于总体
  • 大数定律

    1. 什么是大数定律
      如果统计数据足够大,那么事物出现的频率就能无限接近他的期望值。
    2. 小数定律
      如果统计数据很少,事件就表现为各种极端情况,这些情况都是偶然事件,跟它的期望值一点关系都没有。
    • 参考文章:https://www.zhihu.com/question/19911209/answer/245487255
  • p值

    • 基本原理
      1)一个命题只能证伪,不能证明为真
      2)在一次观测中,小概率事件不可能发生
      3)在一次观测中,如果小概率事件发生了,那就是假设命题为假
    • 证明逻辑
      某个命题为真–>在此条件下目标事件发生的概率(p值)–>p值很小,则小概率事件发生–>原命题为真的假设错误
  • 什么是PCA,为什么PCA要中心化?
    PCA通常是用于高维数据的降维,它可以将原来高维的数据投影到某个低维的空间上并使得其方差尽量大。

参考文章:

  • https://zhuanlan.zhihu.com/p/67650146

你可能感兴趣的:(数据分析笔试题)