20190814SPSS学习心得(三)

0.

一、变量X的重要性划分

变量X的重要性分类

二、选择X的步骤

       1、寻找非常重要的变量。从业务着手,一定要熟悉业务,从运营报告学习活动、和业务人员沟通弄清楚业务、从业务准则判断重要变量

        2、寻找非常不重要的变量。分析每个X对y进行回归情况,通过相关分析方法获得,大概筛选30%左右的变量

        3、判断剩余变量属于另外两种重要类型的哪种。从共线性判断,检测出变量间高相关性,直接看r系数即可,这部分变量属于比较重要的变量,通过合并变量的方式解决共线性

             3.1 处理变量间共线的方法

                   3.1.1 第一种方法是从业务方面着手。

                            ①、情形1:类似客户月末余额有3月的、6月、9月的、12月的等性质相同的,用删除法,删除首尾任意一个

                            ②、情形2:类似商品价格与优惠券,用减法整合方式,即新增一个变量等于商品价格-优惠券

                            ③、情形3:类似代金券1,代金券2,代金券3,...用求和整合方式,即把这些变量相加合并为一个新变量

                            ④、情形4:类似用户信用额与贷款额,用相除整合方式,即信用额除贷款额组成一个新变量

                           总之,若X1与X2单位不统一,用乘除法整合成新变量,一般用除多些;若X1与X2单位统一,用加减法整合成新变量,一般用减多些

                   3.1.2 第二种方法是从统计方法着手,使用曲线估算

                          点击回归→点击曲线估算(筛选方法是首先观测R方最好的,若R方差别不大情况,选择参数最少的)

         4、寻找出比较不重要的变量。用剩余变量,通过分组方式,对每组每个X与Y建立回归,并筛选出50%比较不重要的变量。注:SPSS中只有二元回归有高效算法。

           SPSS操作方法是:

            4.1 方法选择‘向后:LR'

            4.2 选项中,在最后一个步骤中打勾;针对复杂分析或大型数据集节省内存(D)打勾

            4.3 除去(V):默认值为0.1;这里含义是数字越大,删除数会越少;数字越小,删除数会越多

         5、从剩余变量中找出有用的变量。用主成分分析方法,一般地,压缩出2各左右的变量。主要是处理既非重要又非不重要的变量

         注:SPSS中,需要用到定义变量集和使用变量集功能。实用程序→定义变量集(把需要分析的变量打包)→使用变量集

            5.1 点击分析→降维→因子

            5.2 主成分分析又叫聚回归,不用考虑误差,会损失其他信息,有n各变量会有n各主成分

            5.3 公式:Z1=β1X1+β2X2,Z2=λ1X1+λ2X2;Z=R方/(1-R方);总方差解释中特征值就是Z,=n(n是变量数)

            5.4 可以提取的变量依据,满足Zi>1外需要满足以下任意一条:

                   ①、方差百分比之和 Z1+Z2 ≥ 70%

                   ②、Z1的方差百分比 > 50%

                   ③、Z1/Z3 > 3

              5.5 公因子方差中提取值> 0.7 是可以用主成分分析来解决;变量数至少6个才有必要用主成分分析方法,少于6个的直接根据业务和统计方法判断

三、市场细分算法

       1、分成客户画像行为分析(确定X,通过运营报告判断)和客户价值模型(确定Y,由业务专家决定)

       2、客户画像行为分析步骤

             2.1 判断X的个数

             2.2 分组(对行数据分组):重要算法由系统聚类、K均值聚类、二阶聚类(也叫二步聚类)、神经网络聚类(神经网络中最牛的那个) 。前两个python和SAS擅长,第三个SPSS擅长,第四个必须掌握未来方向

                    SPSS中,点击分析→点击分类→点击二阶聚类

                     2.2.1 二阶聚类分析界面解读:

                             ①、离散数据在大数据中视同连续数据,小数据中视同分类数据

                             ②、距离测量算法有欧氏距离(大、小数据均可用,结果可信度低)、城市距离(只有大数据用)、马氏距离(是在欧氏基础上加入相关性,只用于小数据)和对数似然四种

                     2.2.2 二阶聚类分析图形解读:图形显示区分度不大的可以删除变量

             2.3 制作标签并贴标签

                   由统计软件分析出哪些组该贴什么类型的标签,然后让技术人员写入数据库,供有关部门作运营和决策依据。

                  非常棒的标签,满足以下条件:

                          ①、通俗  如:剁手党、抓机党

                          ②、尽量不要出现数字

                          ③、要隐含统计含义和业务含义 如:黑名单

                          ④、要隐含故事 如加入最近公司发生的事情、领导讲过的话或习大大的话,《千面英雄》可以提升讲故事能力

             2.4 评估,从统计标准(作为前提依据,仅供参考)和业务标准两个方面评估

             2.5 应用      

       3、客户价值模型步骤(3-6个指标足以)

             3.1 从三个角度分析:

                   电商 M:钱(第一位) R:最后一笔订单距离现在的时间差(时间差的单位由商品交易周期决定) F:购买商品的总数

                   银行 信用:第一位 M:钱 R:最后一笔订单距离现在的时间差

             3.2 步骤:

                           ①、由业务专家确定y

                           ②、作y还是作估计值y分析,即判断y是否需要通过建模获得

                           ③、分箱,即列分组,对y分组,使用rank方法

                                   部门数据需要通过个案排秩(点击转换→个案排秩)来处理重复数据排序问题(小数据选平均值,大数据选低)

个案排秩中绑定值的选择图示

                           ④、判断细分市场的作用

                                      价值细分分析:与行分组类似

                                       价值评分分析:贴标签

             3.1 回头客分析和转化率分析:

                   按图解析,回头客分析依据:若第1笔订单与第2笔订单间的空白距离很大;转化率分析依据:若第1笔订单与第2笔订单间的空白距离很小,而第2笔订单与第3笔订单间的空白距离很大;

你可能感兴趣的:(20190814SPSS学习心得(三))