20190814SPSS学习心得(三)

一、变量X的重要性划分

变量X的重要性分类

二、选择X的步骤

1、寻找非常重要的变量。从业务着手，一定要熟悉业务，从运营报告学习活动、和业务人员沟通弄清楚业务、从业务准则判断重要变量

2、寻找非常不重要的变量。分析每个X对y进行回归情况，通过相关分析方法获得，大概筛选30%左右的变量

3、判断剩余变量属于另外两种重要类型的哪种。从共线性判断，检测出变量间高相关性，直接看r系数即可，这部分变量属于比较重要的变量，通过合并变量的方式解决共线性

3.1 处理变量间共线的方法

3.1.1 第一种方法是从业务方面着手。

①、情形1：类似客户月末余额有3月的、6月、9月的、12月的等性质相同的，用删除法，删除首尾任意一个

②、情形2：类似商品价格与优惠券，用减法整合方式，即新增一个变量等于商品价格-优惠券

③、情形3：类似代金券1，代金券2，代金券3，...用求和整合方式，即把这些变量相加合并为一个新变量

④、情形4：类似用户信用额与贷款额，用相除整合方式，即信用额除贷款额组成一个新变量

总之，若X1与X2单位不统一，用乘除法整合成新变量，一般用除多些；若X1与X2单位统一，用加减法整合成新变量，一般用减多些

3.1.2 第二种方法是从统计方法着手，使用曲线估算

点击回归→点击曲线估算(筛选方法是首先观测R方最好的，若R方差别不大情况，选择参数最少的)

4、寻找出比较不重要的变量。用剩余变量，通过分组方式，对每组每个X与Y建立回归，并筛选出50%比较不重要的变量。注：SPSS中只有二元回归有高效算法。

SPSS操作方法是：

4.1 方法选择‘向后:LR'

4.2 选项中，在最后一个步骤中打勾；针对复杂分析或大型数据集节省内存(D)打勾

4.3 除去(V):默认值为0.1；这里含义是数字越大，删除数会越少；数字越小，删除数会越多

5、从剩余变量中找出有用的变量。用主成分分析方法，一般地，压缩出2各左右的变量。主要是处理既非重要又非不重要的变量

注：SPSS中，需要用到定义变量集和使用变量集功能。实用程序→定义变量集(把需要分析的变量打包)→使用变量集

5.1 点击分析→降维→因子

5.2 主成分分析又叫聚回归，不用考虑误差，会损失其他信息，有n各变量会有n各主成分

5.3 公式：Z1=β1X1+β2X2，Z2=λ1X1+λ2X2；Z=R方/(1-R方)；总方差解释中特征值就是Z，=n(n是变量数)

5.4 可以提取的变量依据，满足Zi>1外需要满足以下任意一条：

①、方差百分比之和 Z1+Z2 ≥ 70%

②、Z1的方差百分比 > 50%

③、Z1/Z3 > 3

5.5 公因子方差中提取值> 0.7 是可以用主成分分析来解决；变量数至少6个才有必要用主成分分析方法，少于6个的直接根据业务和统计方法判断

三、市场细分算法

1、分成客户画像行为分析(确定X，通过运营报告判断)和客户价值模型(确定Y，由业务专家决定)

2、客户画像行为分析步骤

2.1 判断X的个数

2.2 分组(对行数据分组)：重要算法由系统聚类、K均值聚类、二阶聚类(也叫二步聚类)、神经网络聚类(神经网络中最牛的那个) 。前两个python和SAS擅长，第三个SPSS擅长，第四个必须掌握未来方向

SPSS中，点击分析→点击分类→点击二阶聚类

2.2.1 二阶聚类分析界面解读：

①、离散数据在大数据中视同连续数据，小数据中视同分类数据

②、距离测量算法有欧氏距离(大、小数据均可用，结果可信度低)、城市距离(只有大数据用)、马氏距离(是在欧氏基础上加入相关性，只用于小数据)和对数似然四种

2.2.2 二阶聚类分析图形解读：图形显示区分度不大的可以删除变量

2.3 制作标签并贴标签

由统计软件分析出哪些组该贴什么类型的标签，然后让技术人员写入数据库，供有关部门作运营和决策依据。

非常棒的标签，满足以下条件：

①、通俗如：剁手党、抓机党

②、尽量不要出现数字

③、要隐含统计含义和业务含义如：黑名单

④、要隐含故事如加入最近公司发生的事情、领导讲过的话或习大大的话，《千面英雄》可以提升讲故事能力

2.4 评估，从统计标准(作为前提依据，仅供参考)和业务标准两个方面评估

2.5 应用

3、客户价值模型步骤(3-6个指标足以)

3.1 从三个角度分析：

电商 M：钱(第一位) R：最后一笔订单距离现在的时间差(时间差的单位由商品交易周期决定) F：购买商品的总数

银行信用：第一位 M：钱 R：最后一笔订单距离现在的时间差

3.2 步骤：

①、由业务专家确定y

②、作y还是作估计值y分析，即判断y是否需要通过建模获得

③、分箱，即列分组，对y分组，使用rank方法

部门数据需要通过个案排秩(点击转换→个案排秩)来处理重复数据排序问题(小数据选平均值，大数据选低)

个案排秩中绑定值的选择图示

④、判断细分市场的作用

价值细分分析：与行分组类似

价值评分分析：贴标签

3.1 回头客分析和转化率分析：

按图解析，回头客分析依据：若第1笔订单与第2笔订单间的空白距离很大；转化率分析依据：若第1笔订单与第2笔订单间的空白距离很小，而第2笔订单与第3笔订单间的空白距离很大；

20190814SPSS学习心得(三)

你可能感兴趣的:(20190814SPSS学习心得(三))