数据分析与挖掘建模(理论知识)

学习进度(3-10)

理论铺垫:

  • 集中趋势(数据聚拢位置的衡量):均值( df.mean() )、中位数( df.median() )、众数( df.mode() )、分位数( df.quantile(q=0.25)  0.25下四分位数  0.5中四分位数  0.75上四分位数 )
  • 离中趋势(值越大越离散,越小越集中):标准差( df.std() )、方差( df.var() )
  • 数据分布:偏态( df.skew() ):数据平均值偏离状态的衡量;与峰态( df.kurt() 正态分布为0【实际正态分布是3】作为标准值 )、正态分布与三大分布
  • 抽样理论:抽样误差、抽样精度

其他常用方法:

  • 求和:df.sum()
  • 抽样:df.sample(10)   # 抽10个样本     df.sample(frac=0.01)  # 抽1%的样本
  • 查看异常值:df.isnull()
  • 异常值处理:df.dropna(axis = 0 ,how = 'any')   // axis = 0删除行,1删除列 ,how = 'any'出现一个Nan就删,‘all’整行或整列是Nan就删    ,df.fillna()
  • 条件筛选:Series.where(条件判断)
  • 连续变量的区间值数量分布(直方图):np.histogram(Series.values, bins = np.arange(0.0 , 1.1 , 0.1) )  // bins 自定义区间np.histogram(Series.values, bins =10 )  // bins 分成10个区间
  • 小区间整数分布(直方图):np.value_counts()  // 数量,np.value_counts(normalize = True)  // 百分比     数据分析与挖掘建模(理论知识)_第1张图片数据分析与挖掘建模(理论知识)_第2张图片

生成正态分布:Python3数据分析与挖掘建模实战 3-5 8分钟之后

集中趋势:

四分位数的计算方法:

  • (上四分位数)Q1的位置 = (n+1)*0.25
  • (中四分位数)Q2的位置 = (n+1)*0.5
  • (下四分位数)Q3的位置 = (n+1)*0.75
  • 如:[1,2,3,4,5,6,7] -->Q1=2,Q2=4,Q3=6
  • 如:[1,2,3,4,5,6,7,8,9] -->Q1=2.5,Q2=5,Q3=7.5
  • 四分位数筛选正常值:

数据分析与挖掘建模(理论知识)_第3张图片

离中趋势:

标准差:

m = 0
for i in list:
    m += (i - 平均数)的平方
标准差 = m/len(list)

数据分析与挖掘建模(理论知识)_第4张图片

方差:标准差的开方

数据分析与挖掘建模(理论知识)_第5张图片


数据分布:

偏态系数(正数表示正偏移,均值大,大部分数比均值小,负数表示负偏移,均值小,大部分数比均值大):数据平均值偏离状态的衡量

数据分析与挖掘建模(理论知识)_第6张图片

峰态系数(值越大越像尖,越小分布越平滑):数据分布集中强度的衡量

      正态分布一般为3,若算得的系数小于1或大于5,即可判断该数据不符合正态分布,故有下面作用。

      最大作用:直接拒绝正态分布的假设

数据分析与挖掘建模(理论知识)_第7张图片

正态分布与三大分布:
正态分布(均值为0,方差为1):

数据分析与挖掘建模(理论知识)_第8张图片

其他三大分布(卡方分布(χ2分布)、t分布和F分布):

  • 卡方分布(几个标准正态分布的平方和满足于....,就是卡方分布)
  • 数据分析与挖掘建模(理论知识)_第9张图片
  • t分布(正态分布的一个随机变量除以一个服从卡方分布的变量):经常用于根据小样本来估计成正态分布,且方差未知的总体的均值。
  • 数据分析与挖掘建模(理论知识)_第10张图片
  • F分布(构成两个服从卡方分布的随机变量的比值构成的)
  • 数据分析与挖掘建模(理论知识)_第11张图片


抽样理论:

重复抽样(无放回抽样):总体方差的平方/抽样数量

不重复抽样(不放回抽样):N=总体数量,n=抽样数量

抽样平均误差计算公式:


总体确认时,估计抽样数目:Zα=(保证概率对应的正态值),△=要控制的方差


例题:某鱼塘进行抽样调查,从鱼塘不同部位共网到150条鱼,草鱼123条,草鱼平均2公斤,标准差0.75公斤,95.45概率保证,估计草鱼平均每条的重量。(由于是不同位置,可看做重复抽样)

数据分析与挖掘建模(理论知识)_第12张图片

由于概率为95.45,就要在均值的2倍(看标准正态分布图)误差之内,这里的均值是2,所以每条草鱼在95.45%的概率保证下,重量范围:[2-2*0.07-2+2*0.07]kg --> [1.86-2.14]kg


例题:

数据分析与挖掘建模(理论知识)_第13张图片


数据分析工具:

  • 狭义上有三个:Numpy,Scipy,Pandas
  • 可视化工具:Matplotlib,seaborn(封装好Matplotlib,方便设置),plotly(画出的图标可直接用在网页上)
  • 数据挖掘与建模工具:sklearn
  • 神经网络实现的工具:keras

数据分类:

一般分为两类:

  • 离散变量
  • 连续变量

统计学上分为四类:

  • 定类(类别):根据事物离散、无差别属性进行的分类,如:民族,国籍
  • 定序(顺序):可以界定数据的大小,但不能测定差值,如:收入的低中高,具体值需要根据实际情况
  • 定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点,乘除无意义,如:温度中,20℃不是10℃的两倍
  • 定比(比率):可以界定数据的大小,可测定差值,有绝对零点,乘除有意义,如:身高,体重,长度,体积

单属性分析(3-7到10)

异常值分析:

  • 离散异常值:如收入低中高,出现其他的为异常值
  • 连续异常值:上下界之外的值为异常值                                                                                                                   数据分析与挖掘建模(理论知识)_第14张图片
  • 常识(知识)异常值:如身高3m以内,出现10m这种不符合常理的都为异常值

对比分析:

  • 绝对数与相对数
  • 时间、空间、理论维度比较

结构分析:

各组成部分的分布与规律

分布分析:

数据分布频率的显示分析



你可能感兴趣的:(数据分析)