Task2:数理统计与描述性分析(2天)

Task2:数理统计与描述性分析(2天)

  • 学习任务
  • 知识点
  • 代码实现

91-听说大家很喜欢篮球队-tang

学习任务

  • 理论部分
    • 统计量与抽样;常用统计量;
    • 数据集中与离散趋势的度量;
    • 分布特征,偏度与峰度;
  • 练习部分
    • 做理论知识点的笔记;
    • python实现数据各维度的描述性分析;

知识点

  • 总体:研究对象的全体
  • 个体:组成总体的每个基本单元
  • 样本:从总体 X 中随机抽取一部分个体 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn ,称 $X_1,X_2,…,X_n $为取自 X X X 的容量为 n n n 的样本
  • 要求每次抽取必须是随机的、独立的
  • 随机:每个个体被抽到的机会是均等的
  • 简单随机样本:若 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 相互独立,且每个 x i x_i xi X X X 同分布,则称 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn 为简单随机样本
  • 样本容量:样本中包含的个体个数 n n n
  • 样本具有两重性:在抽样后是随机的数值;抽样是随机的
  • 随机样本: X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn
  • 样本观测值: x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn
  • 统计推断:数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,以此对所研究的问题作出一定的结论,这一过程称为为统计推断
  • 统计量:对样本进行加工整理,统计量是样本的某种函数
  • 抽样分布:设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是总体 X X X 的一个简单随机样本, T ( X 1 , X 2 , . . . , X n ) T(X_1,X_2,...,X_n) T(X1,X2,...,Xn) 为一个 n n n 元连续函数,且 T T T 中不包含任何关于总体的未知参数,则称 T ( X 1 , X 2 , . . . , X n ) T(X_1,X_2,...,X_n) T(X1,X2,...,Xn) 是一个统计量,称统计量的分布为抽样分布
  • 样本均值: X ‾ = 1 n ∑ i = 1 n x i \overline{X} = \frac{1}{n} \sum_{i=1}^n{x_i} X=n1i=1nxi
# 均值函数
def avg(l: list) -> float:
    """

    :type l: list
    """
    return sum(l) / len(l)

  • 样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2 = \frac{1} {n-1} {\sum_{i=1}^{n}(X_i-\overline X)^2} S2=n11i=1n(XiX)2
  • k k k阶样本原点矩: A k = 1 n ∑ i = 1 n X i k A_k = \frac{1} {n} {\sum_{i=1}^{n}X_i^k} Ak=n1i=1nXik
  • k k k阶样本中心矩: M k = 1 n ∑ i = 1 n ( X i − X ‾ ) k M_k = \frac{1} {n} {\sum_{i=1}^{n}(X_i-\overline X)^k} Mk=n1i=1n(XiX)k
  • 顺序统计量:样本按样本观测值从小到大重新排序
  • 最小顺序统计量:样本观察中最小的一个
  • 最大顺序统计量:样本观察中最大的一个
  • 数据集中趋势的度量
    • 平均数
    • 中位数
    • 频数
    • 众数
    • 百分位数: p 分 位 点 p分位点 p
  • 数据离散趋势的度量
    • 方差
    • k k k阶样本中心矩
    • k k k阶样本原点矩
    • 标准差
    • 极差
    • 变异系数:标准离差率/单位风险
    • 四分位差
  • 分布特征
  • 离散型随机变量
  • 概率函数
  • 概率密度函数
  • 分布函数
  • 正态分布
  • 偏度:也称为偏态,是统计数据分布偏斜方向和程度的度量
  • 左偏
  • 右偏
  • 峰度:分布曲线在平均值处峰值高低的特征数
  • 样本峰度系数
  • 数理统计学中的总体是指与总体相联系的某个(或某几个)数量指标 X 取值的全体

代码实现

import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt

X = [1, 3, 5, 1, 2, 33, 5, 0, 8, 8]

# numpy:均值,中位数
X_mean = np.mean(X)
X_med = np.median(X)
print("X的均值为:", X_mean)
print("X的中位数为:", X_med)

# scipy:众数
# mode方法统计分别统计行列向量中的众数,多个众数返回最小的
X_mode1 = stats.mode(X)[0][0]
print("X的众数为:", X_mode1)

#将一维数组转成Pandas的Series,然后调用Pandas的mode()方法
X_ser = pd.Series(X)
X_mode2 = X_ser.mode()
print("X的众数为:",X_mode2)

# numpy:方差,标准差,变异系数
X_var = np.var(X)
X_std = np.std(X)
X_cv = X_std / X_mean
print("X的方差为:", X_var)
print("X的标准差为:", X_std)
print("X的变异系数为:", X_cv)


# 生成标准正态分布的随机数(10000个)

data = list(np.random.randn(10000))

plt.hist(data, 1000, facecolor='g', alpha=0.5)
plt.show()

# 偏度,峰度
s = pd.Series(data) # 将数组转化为序列

print('偏度系数', s.skew())
print('峰度系数', s.kurt())

你可能感兴趣的:(Task2:数理统计与描述性分析(2天))