春眠不觉晓,大数据分析模型知多少

数据分析

  1. 目的: 把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律

  2. 大数据的采集和存储

  • 系统日志采集:可以使用海量数据采集工具
  • 互联网数据采集:网络爬虫
  • APP移动端数据采集:SDK插件可以把用户信息上传
  • 与数据服务机构进行合作

大数据分析模型建立步骤

  1. 业务调研
    春眠不觉晓,大数据分析模型知多少_第1张图片

  2. 准备数据
    春眠不觉晓,大数据分析模型知多少_第2张图片

  3. 浏览数据

春眠不觉晓,大数据分析模型知多少_第3张图片

  1. 变量选择

  2. 定义或发现模式

  3. 计算模型参数

  4. 模型的解释与评估

基本统计量

春眠不觉晓,大数据分析模型知多少_第4张图片

全表统计量

  1. 反应数据集中趋势
  • 平均值
  • 加权平均
  • 中位数
  • 众数
  1. 反应数据波动大小
  • 极差
  • 方差
  • 协方差

春眠不觉晓,大数据分析模型知多少_第5张图片

皮尔森相关系数

  1. 变化范围[-1,1],绝对值越大相关性越强。

  2. 适用条件
    春眠不觉晓,大数据分析模型知多少_第6张图片

  3. 通常假设为正态分布。(正态分布是许多统计方法的理论基础)

小结

春眠不觉晓,大数据分析模型知多少_第7张图片

推断统计:参数估计

点估计

  1. 极大似然估计
    在只有概率的情况下,湖绿低概率直接将高概率时间认为是真实事件

  2. 点估计的评价

  • 无偏性
  • 有效性
    春眠不觉晓,大数据分析模型知多少_第8张图片

区间估计

置信水平与置信区间
春眠不觉晓,大数据分析模型知多少_第9张图片

点估计与区间估计的异同

春眠不觉晓,大数据分析模型知多少_第10张图片

推断统计:假设检验

  1. 带有某种概率性质的反证法

  2. 小概率,概率 < 0.05

步骤

  1. 提出假设
  • 原假设
  • 备择假设
  1. 确定适当的检验统计量

  2. 规定显著水平和计算检验统计量的值

  3. 做出结论

t检验

  1. 单样本均数t检验t检验

  2. 两个独立样本均数t检验

  3. 配对样本均数t检验

你可能感兴趣的:(数据分析)