[概率统计]商务与经济统计知识点总结 Part 1

写在前面

概率统计无疑是数据类岗位笔试和面试中很重要的一块,尤其是对我们这种本硕统计学专业的,可能问的就要更系统一些。思考了很久还是需要从基础知识慢慢复习起,理论结合具体实践,不然越看面经越焦虑哈不是嘛。不知道我的博客有没有人看,不过就当是一个小白2020的求职复习之路吧。
这个系列大概会按照安德森的商务与经济统计来慢慢梳理,也不想去找什么速成的方法了,总觉得是不靠谱的。每一部分会整理基本的知识点,尽可能的加上一点实际中的运用吧,如果有面经里的一些会稍微整理一点(当然以基础为主)。

这一 part 主要包括第一章到第二章的内容。


第一章 数据与统计资料

数据类型划分

分类变量和数量变量
截面数据和时间序列数据

两种统计

统计一般包括描述性统计统计推断


第二章 描述统计学1:表格法和图形法

描述性统计一般会用在数据分析比赛的第一步用来对数据进行初步的感知,或者是用在最后的数据可视化,所以这一步看似简单但实则是很重要的,怎么去直观的感受数据带来的信息,下面就来看看都有哪些操作。

针对分类变量的描述

频数分布
[概率统计]商务与经济统计知识点总结 Part 1_第1张图片
相对频数分布和百分数频数分布
这个虽然没有怎么接触到,但意义也是比较好理解的。
[概率统计]商务与经济统计知识点总结 Part 1_第2张图片
条形图和饼图
一般而言,人们更喜欢用条形图来展示,因为长度往往比角度更加的直观
[概率统计]商务与经济统计知识点总结 Part 1_第3张图片
[概率统计]商务与经济统计知识点总结 Part 1_第4张图片

针对数量变量的描述

频数分布
这里我们会问啦,上面分类变量也有这个方法啊,这里说的频数分布有哪里不一样嘛。答案是肯定的,因为类型的不同,所以说对于分类变量可以直接的根据类型进行计数,而数值型变量是没有类别的,需要人为的去划定一些组别,那么问题就聚焦到应该怎么去划定这个组别比较合理等等。
基本步骤为:

  1. 确定组数
  2. 确定组宽
  3. 确定组限

[概率统计]商务与经济统计知识点总结 Part 1_第5张图片
以这个例子来进行介绍,第一步共20个数据,要确定适合的组数,总不能说20个数据分10个组吧,这也太多了,也不能只分两组。根据一般的原则,组数会在5~20之间,根据数据的个数再酌情确定,这里我们选择5.
第二步,我们一般用这个公式来近似的确定组宽,
在这里插入图片描述
这里的话,即组宽近似为4.2,则取整选择为5.
最后则根据这些来确定组限即可,注意不要重叠,一些统计学的教材上面会强调左开右闭或者左闭右开(两个我都看到过),我个人感觉应该不是太重要,每个值都有去处就可以了。
[概率统计]商务与经济统计知识点总结 Part 1_第6张图片
相对频数分布和百分数频数分布
和上面的同理了,我就不说了。

打点图
这个图我倒是第一次听说!
它长这个样子!
大概意思就是取值一次就打一个点,还真可爱哈哈。
[概率统计]商务与经济统计知识点总结 Part 1_第7张图片
直方图
直方图是常用的数值型变量分布的可视化形式,要注意直方图的横坐标是连续的,区别于条形图(用于类别变量)是分割开的。
直方图是很好的展示分布形态的一个工具,很轻易的看到下面这张图是右偏的,
[概率统计]商务与经济统计知识点总结 Part 1_第8张图片
累积频数分布
[概率统计]商务与经济统计知识点总结 Part 1_第9张图片
茎叶显示
也就是通常所说的茎叶图哈,
非常简单的理解,要注意右侧数值要排序展示。
和直方图的区别就在于,一个是横的一个是竖的,茎叶图能展示更多的细节数据。
[概率统计]商务与经济统计知识点总结 Part 1_第10张图片

用表格方法汇总两个变量的数据

交叉分组表
通过这个交叉汇总的方式,我们可以接着得到很多的信息,比如针对横坐标进行质量等级的展示,或者针对纵坐标进行参加等级的展示等等。
[概率统计]商务与经济统计知识点总结 Part 1_第11张图片
辛普森悖论(重点)
这个真的考的是重中之重啊,几乎每个面试都有问到,虽然我暂时不知道运用在工作中是以什么形式体现,但是既然接触到了理论就需要好好的总结一下!
我们常常合并或综合两个或两个以上的交叉分组表中的数据,生成一个汇总的交叉分组表,以显示两个变量的相关性。在这种情形下,从两个或多个单独的交叉分组表得到的结论与一个综合的交叉分组表数据得到的结论可能截然相反。依据综合和未综合数据得到的相反结论被称为辛普森悖论
下面给出一个经典的例子~法官判决
综合民事庭和市政庭
[概率统计]商务与经济统计知识点总结 Part 1_第12张图片
未综合民事庭和市政庭
[概率统计]商务与经济统计知识点总结 Part 1_第13张图片
可以看到两个数据结论是截然相反的。对两位法官来说,法庭类型是一个隐藏的变量,所以当评价两位法官的记录时,它是不可忽视的变量。
在得出结论之前,我们应该思考应该考察综合形式还是未综合形式。

用图形显示方法汇总两个变量的数据

散点图和趋势线
是可以明显的展示变量之间的相关关系的。
[概率统计]商务与经济统计知识点总结 Part 1_第14张图片
复合条形图和结构条形图
[概率统计]商务与经济统计知识点总结 Part 1_第15张图片
[概率统计]商务与经济统计知识点总结 Part 1_第16张图片

数据可视化:创建有效图形显示的最佳实践

[概率统计]商务与经济统计知识点总结 Part 1_第17张图片
这一部分的话就是说如何选择合适的可视化图示来更好的说明数据带来的信息吧!这一块对于数据分析师来说当然也是非常重要的,在今后的实习和工作中应该也会进一步的学习,当然在笔试面试的考察中占比不是太大,但是依然要注意积累和总结。


小总结

好了今天这一部分就到这里了,前面一部分都是比较容易的,但是一步一步理解就会由浅入深了。
Part 1 的重点就在于了解一些描述变量的图示和表格,以及最重要的辛普森悖论,有机会后面会单独写一篇辛普森悖论,拭目以待啦。

你可能感兴趣的:(统计学)