统计学知识梳理

统计学大体可以分为两类:
描述性统计学:希望在不告诉别人所有数据的情况下介绍这些数据的情况。
推论统计学:从总体中获得一些样本,利用样本的数学计算,推断出总体的情况。

机器学习、数据挖掘、数据分析领域离不开统计学。以前学习统计的时候,只是为了应付考试,很多知识都是靠死记硬背。考试过后,这些东西慢慢的就忘记了。最近重新回顾统计基础知识,感觉很多细节还是值得注意的。

统计学的主要知识基本包括:随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析等内容。

1、均值、 中位数、 众数、 极差 反应数据的集中趋势。
2、不同的统计图体现不同的目的,比如,

  • 线形图表示随某个属性(如时间)的变化趋势;在用多个线形图比较同一属性时,一定要注意刻度的一致。
  • 条形图擅长将事务分类,看每一分类的情况;
  • 饼图体现各部分的占比;
  • 茎叶图能帮助了解分布情况,但无法很好体现数据散布情况;
  • 箱线图则能很好的体现中位数和数据散布。

箱线图:

import matplotlib.pyplot as plt
import pandas as pd
data = [6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36]
df = pd.DataFrame({'data':data})
df.boxplot()
plt.show()

统计学知识梳理_第1张图片

通过箱线图我们可以看出,data = [6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36]的极差,数据的分布情况,上图表明data的中位数更加接近于数据的小端。

##集中趋势##
经常用mean, median, mode(一起)描述集中趋势(Central Tendency or Average
总体和样本的各项指标:
总体均值,样本均值
总体方差,样本方差(两者期望相等)
总体标准差,样本标准差(两者期望并不相等)

统计学知识梳理_第2张图片

随机变量更像是从随机过程映射到数值的函数,数字是随机的。(分离散型和连续性随机变量)

X = {丢色子的值}

你可能感兴趣的:(数据分析)