SPSS:方差、相关、回归

数据分析流程

  1. 建立需求:报告(财报、运营报:公司业务框架;过去)、痛点(当下)、未来;
  2. 建立与统计的关系:y的量化(业务与统计的桥梁),boss关心的指标;
  3. X的选择:归因(重要的X→业务;不重要X→非业务);
  4. 描述:大数据研究行,小数据研究列;
  5. 预分析
  6. 建模:模型判定系数:R2(确定性;随机性);
  7. 模型修正
  8. 评估:R2→小数据;boss→大数据;
  9. 应用:归因、预测;
  10. 可视化

数据分析俩大方向:

  • 对客户的数据挖掘
  • 机器学习优化

SPSS:方差、相关、回归_第1张图片

小数据分析重要性:小众>异常>大众;

大数据分析重要性:大众>异常>小众;

数据描述:均值、标准差、最大值、最小值、截距;

SPSS:方差、相关、回归_第2张图片

 SPSS:方差、相关、回归_第3张图片

图形:低微探索数据以推演高维;

模型:高维探索数据用低微描述;

一、SPSS建立线性回归模型(建模):

分析 → 回归 → 线性 → 因变量:y(关心的指标);自变量:x(一般把不重要的指标放后面)→ 确定 

二、线性回归模型流程

  1. 图形:散点图(相关、线性趋势、异常);
  2. 相关性:r(相关系数)→ 删除变量,精简模型(x控制在15个以内);
  3. 构建回归:β→和boos沟通的唯一渠道,强调模型细节;       Zβ      R2→强调模型整体
  4. 误差:
  5. 应用:归因(主次、规则);预测(老样本:內延;新样本:外推);

1、图形:y与每个x画散点图

图形→图形构建器→图库→散点图→简单散点图→y:纵坐标;x:横坐标→确定;

双击图形→向X\Y轴添加参考线→将标签附加到线→应用;

SPSS:方差、相关、回归_第4张图片

SPSS:方差、相关、回归_第5张图片

 2、相关性

2.1、协方差

高尔顿:发明协方差,最大贡献优生学,表哥达尔文,学生皮尔逊(统计学之父);

自己与自己的协方差是方差;

SPSS:方差、相关、回归_第6张图片

 2.2相关系数

分子有差,分母有误差;

皮尔逊相关系数的本质:数据之间的密集程度,>0 正相关,<0 负相关;

SPSS:方差、相关、回归_第7张图片

 2.3、spss求相关

分析→相关→双变量→将x、y放入变量(spss可以一次对所有x与y求相关)→相关系数:皮尔逊→确定;

相关性假设检验:H0:y与x不相关;H1:y与x相关;   

假设检验<0.5:   拒绝H0,y与x显著相关;

假设检验>0.5:接受H0,y与x不相关,删除x;

小数据:归因 ;   大数据:不归因(工具归因);

SPSS:方差、相关、回归_第8张图片

 SPSS:方差、相关、回归_第9张图片

 相关系数分类:

  • 皮尔逊:连续-连续;
  • 肯德尔:分类(有序)-连续;
  • 斯皮尔曼:都可以;
  • 卡方:分类-分类;

3、构建回归

3.1、R2

SPSS:方差、相关、回归_第10张图片

 3.2、spps建回归

分析→回归→线性→应变量:x;自变量:y;→确定;

3.3、回归模型结果解读

R2>0.6,容易过拟合;

SPSS:方差、相关、回归_第11张图片

SPSS:方差、相关、回归_第12张图片

SPSS:方差、相关、回归_第13张图片

SPSS:方差、相关、回归_第14张图片

SPSS:方差、相关、回归_第15张图片

SPSS:方差、相关、回归_第16张图片

 4、残差、

回归:向均值回归的现象;

SPSS:方差、相关、回归_第17张图片

4.1、残差判定

残差服从均值为0的正态分布:残差是否随机; → 通过画直方图判断;

残差与y的预测值不相关:残差是否有确定的东西; → 散点图(y的预测值与残差的协方差等于0);

SPSS:方差、相关、回归_第18张图片

4.2、spss操作

SPSS:方差、相关、回归_第19张图片

SPSS:方差、相关、回归_第20张图片

4.3、结果解读

残差分布图

SPSS:方差、相关、回归_第21张图片

y与y的预测R2图

SPSS:方差、相关、回归_第22张图片

y的预测与残差散点图;

可以求y的预测与残差相关系数判断是否相关;

SPSS:方差、相关、回归_第23张图片

删除俩个异常值,丢失俩行信息,换来更高的准确度;

SPSS:方差、相关、回归_第24张图片

5、模型应用

金融、电商经常做服务器的卡壳分析;

5.1、预测

老样本的预测:内衍;         新样本的预测:外推;

真分数:预测出的值;  实际是带误差的;   相信预测值;

SPSS:方差、相关、回归_第25张图片

SPSS:方差、相关、回归_第26张图片

 

此文件用处:1、新样本预测;  2、软件二次开发;

SPSS:方差、相关、回归_第27张图片

 SPSS:方差、相关、回归_第28张图片

 SPSS:方差、相关、回归_第29张图片

 预测值与误差往往呈U型,U型底部为y的均值;

SPSS:方差、相关、回归_第30张图片

 5.2、归因

主次归因:主:20%;次:80%;(单个变量)

规则归因:所有x组合发生的概率;(整体)

  •  联合分析    小
  • 对应分析    小
  •  决策树        大
  • 贝叶斯        大  

SPSS:方差、相关、回归_第31张图片

三、案例

1、y与x散点图

SPSS:方差、相关、回归_第32张图片

SPSS:方差、相关、回归_第33张图片

 2、求相关

SPSS:方差、相关、回归_第34张图片

 3、构建回归

SPSS:方差、相关、回归_第35张图片

 4、残差

五个问题主要的是内生性问题,次要的是异常值问题;

SPSS:方差、相关、回归_第36张图片

SPSS:方差、相关、回归_第37张图片

 4.1、解决内生性

对y值进行变化(变化只能削弱内生性,不能消除内生性)

SPSS:方差、相关、回归_第38张图片

 SPSS:方差、相关、回归_第39张图片

重新建模

 SPSS:方差、相关、回归_第40张图片

 结果解读

SPSS:方差、相关、回归_第41张图片

SPSS:方差、相关、回归_第42张图片

SPSS:方差、相关、回归_第43张图片

 4.2、解决异常值

删掉异常值

SPSS:方差、相关、回归_第44张图片

 重新跑模型

SPSS:方差、相关、回归_第45张图片SPSS:方差、相关、回归_第46张图片

SPSS:方差、相关、回归_第47张图片

 4.3、最终模型

删除不相关变量

SPSS:方差、相关、回归_第48张图片

 最终结果:广义线性回归模型

SPSS:方差、相关、回归_第49张图片

SPSS:方差、相关、回归_第50张图片

 SPSS:方差、相关、回归_第51张图片

你可能感兴趣的:(spss,回归)