概率统计面试题

概率

条件概率:已知A事件发生,想要在此基础上求出B事件发生的概率时,需要考虑构建条件概率P(A|B),即A事件发生条件下B事件发生的概率。条件概率的计算公式为:P(A|B)=P(AB)/P(B)。

概率和似然:

  1. 概率:给定某⼀参数值,求某⼀结果的可能性的函数。

    例如,抛⼀枚匀质硬币,抛10次,6次正⾯向上的可能性多⼤? 解读:“匀质硬币”,表明参数值是0.5,“抛10次,六次正⾯向上”这是⼀个结果,概率(probability)是求这⼀结果的可能性。

  2. 似然:给定某⼀结果,求某⼀参数值的可能性的函数。

    例如,抛⼀枚硬币,抛10次,结果是6次正⾯向上,其是匀质的可能性多⼤? 解读:“抛10次,结果是6次正⾯向上”,这是⼀个给定的结果,问“匀质”的可能性, 即求参数值=0.5的可能性。

实例面试题:

  1. 抛硬币直到连续两次出现正面的概率,求扔的期望次数?

    假设期望次数为X,有三种情况:1.第一次为反面,则期望需要X+1次;2.前两次都为反面,则期望需要X+2次;3.前两次均为正面,结束。建立方程;解得X=6。

    X = 0.5 * (X+1) + 0.5 * 0.5 * (X+2) + 0.5 * 0.5 * 2

  2. 50个红球50个白球放入两个黑箱,怎么分配摸到红球概率最大?

    1个红球放在一个箱子,其余99个球放在另一个箱子里。

    P(拿到红球)=0.5+0.5(49/99)≈ 0.75(74/99)

  3. 一个班20个人,至少两个人同一天生日的概率?

    20个人可能的生日组合是365×365×365×……×365(20)个(a);

    20个人生日都不重复的组合是365×364×363×……×346(20)个(b);

    20个人生日有重复的概率是1-b/a。 这里,20个人生日全不相同的概率是b/a=0.59,因此50个人生日有重复的概率是1-0.59=0.41

  4. 两个孩子,已知一孩子是男孩,另一孩子是男孩的概率?

    1/2或者1/3。

    1/2:两者为独立事件,互不影响,故为1/2。

    1/3:如果区分顺序两个孩子可能为:男男,男女,女男,女女;已知其一为男孩,则可能为:男男,男女,女男;男男的概率为1/3。

  5. 两个人相约在8点到9点时间段见面,彼此等15分钟,见不到人就走。两人在8点至9点任一时刻到达目的地,求两人能见面的概率?

    几何概型,绘制正方形[0,60,0,60],|x-y|<=15,求该面积占正方形的面积的比例 = 1-45 * 45/60 * 60 = 7/16

假设检验

  1. 概念

    1. 一种 判断样本与样本、样本与总体的差异是由抽样误差引起还是由本质差别造成 的统计推断方法。
    2. 对总体参数提出假设值,原假设与备择假设,通过样本构造检验统计量,最后计算检验值或P值与临界值或显著性水平进行比较,得出拒绝或接受原假设的结论
  2. 基本思想:概率性质的反证法

    根据所考察问题的要求提出原假设和备择假设,为了检验原假设是否正确,先假定原假设是正确的情况下,构造一个小概率事件,然后根据抽取的样本去检验这个小概率事件是否发生。如果在一次试验中小概率事件竟然发生了,我们就怀疑原假设的正确性,从而拒绝原假设;反之,接受原假设

  3. 基本方法

    常用的假设检验类型:Z检验、t检验、卡方检验、F检验

    检验方式:单侧/双侧检验

    1. 分析问题、确定原假设和备择假设。
    2. 确定适当的检验统计量,并计算其数值。
    3. 选择哪个统计量作为检验统计量需要考虑一些因素,例如进行检验的样本量多还是少,总体标准差是已知还是未知等等。
    4. 最后看这个数据是落在接受域还是拒绝域,如果落在接受域则接受原假设,如果落在拒绝域则接受备择假设。
  4. 判断标准

    1. 显著性水平α:发生小概率事件的概率(0.05/0.01)
    2. p值:由无效假设所规定的总体做随机抽样,获得大于及等于(或等于及小于)现有统计量的概率。
    3. 置信区间:由样本统计量所构造的总体参数的估计区间。
  5. 推论

    1. 若P>α,就没有理由怀疑H0的真实性,结论为不拒绝H0,不否定此样本是来自于该总体的结论,也即差别无显著意义。
    2. 若P≤α,则拒绝H0,接受H1,也就是这些统计量来自不同的总体其差别不能仅由抽样误差来解释,结论为差别有显著性意义。
  6. 延申面试题

    1. 参数估计和假设检验分别是什么?区别在哪里?

      1. 参数估计和假设检验都是样本去估计总体,都是建立在概率基础上的统计,可以相互转换
      2. 区别:
        1. 参数估计是用样本统计量估计总体参数的方法,以置信区间(大概率)估计总体参数。
        2. 假设检验是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立。利用小概率事件是否发生来判断假设是否成立。
    2. 说一下假设检验的显著性水平?

      假设检验是利用“小概率事件”原理做出统计判断的,而“小概率事件”是否发生与一次抽样所得的样本及所选择的显著性水平α有关,由于样本的随机性及选择显著性水平α的不同,因此检验结果与真实情况也可能不吻合,从而假设检验是可能犯错误的。

      一般地,假设检验可能犯的错误有如下两类:

      1. 弃真:当假设H0正确时,拒绝假设H0。称此为第一类错误,犯此类错误的概率恰好就是“小概率事件”发生的概率α,即P{拒绝H0/H0为真}=α;
      2. 取伪:当假设H0不正确,接受H0。称此为第二类错误,记β为犯第二类错误的概率,即P{接受H0/H0不真}=β。

      我们通常希望犯这两类错误的概率都很小。但当样本容量n固定时,α、β不能同时都小,α变小时β就变大,而β变小时α就变大。只有当样本容量n增大时,才有可能使两者变小。在实际应用中,一般原则是控制犯第一类错误的概率,即给定α,然后通过增大样本容量n来减小β。这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验,α就是显著性水平。

    3. 假设检验相关的第一类错误、第二类错误,怎么降低第一类错误,如何同时降低第一类和第二类错误?

      • 第一类错误:弃真错误,即原假设为真却被拒绝的概率;

      • 第二类错误:取伪错误,即原假设为假却接受了原假设的概率。

        当样本量不变时,降低其中一类错误,则必然会使另一类错误增大,所以在实验中一般会优先控制犯第一类错误的概率,一般犯第一类错误的概率不超过5%,即当原假设为真时,接受原假设的概率超过95%。 通过增加样本量,可以同时降低犯第一类错误和第二类错误的概率,因为用样本去估计总体时,样本量越大,样本和总体之间的差异就会越小

不定期补充ing!

你可能感兴趣的:(数据分析,数据分析)