主成分分析
●常被用来研究判断某种事物或现象的综合指标。将多个指标综合成几个指标,此时,主成分需要有合理的解释
●主成分只是要达到目的的一个中间结果,而非目的本身。比如解决多重共线性。此时主成分不需要给出解释。
模型入门(以下笔记来自《市场研究定量分析方法与应用 简明》p179-p184)
主要理念是让原始变量指标的线性组合的变异性达到最大(核心1:线性组合。核心2:变异性)。变异性指的是方差。
主成分和原始变量的关系:
▶主成分是原始变量的线性组合(既主成分不是原始变量)
▶主成分的数目少于原始变量的数量
▶主成分保留了原始变量的绝大多数信息
▶各主成分之间相互独立、不相关
主成分是线性组合,多少个x就有多少个y主成分。
y有什么要求?
⒈每一个y都要方差最大化
⒉各个y要正交
分析步骤(背后的统计分析)
⑴对原来的p个指标进行标准化,以消除变量在数量级或量纲上的影响。
⑵根据标准化的数据矩阵求出协方差或相关矩阵
⑶求出协方差矩阵的特征根和特征向量
⑷确定主成分好哪些主成分,然后尝试给予解释
那可能遇到的问题:1为什么会有那么多y。2如何选取y
为什么会有那么多y而不是只有一个,就像线性回归一样(内心不理解的根源就是将其类比理解成线性回归)。原因在于,对一堆数据的解析可能有很多角度,每一个角度都需要各个维度的数据参与。
如何选取,书中给了四个方法
①根据业务,专业
②根据累计方差,通常选取累计方差贡献率大于85%
③根据特征根,>1。特征根表示的主成分能解释多少原始变量信息,小于1说明解释不了一个原始变量的变异信息,也就起不到浓缩多个变量的效果。
④根据碎石图。碎石图画出特征根和主成分个数之间的关系图
统计量的意义;
●特征根:特征根表示的主成分能解释多少个原始变量信息,小于1说明解释不了一个原始变量的变异信息,也就起不到浓缩多个变量的效果。
●主成分Z的方差贡献率:表名主成分Z的方差在总样本方差中的比重。这个值越大,表名主成分z携带的原始变量信息越多。
●累计贡献率:选取主成分的指标之一。通常达到85%已经很高了
tips
☆量纲如何影响主成分:(来自《MOOC大学 应用多元统计》5.2.3)原始变量的方差大小和主成分相关。所以需要标准化变换。
案例:
●通信公司业务发展多个指标,多个区域,寻找差异所在。《市场研究定量分析方法与应用 简明》p188-p192
●各省市经济发展情况综合评价 《spss统计分析高级教程 张文彤》p215
●美国五十州犯罪情况比较 《MOOC大学 应用多元统计》5.1引言 5.4.3案例分析3
●身体特征、跑步项目、中国城镇分析(有一个共同特点,列-特征变量,行-一个有范围的值,比如地区,)
因子分析
资料:
①《市场研究定量分析方法与应用 简明》
②多元统计分析 清华大学出版社
③B站 多元统计分析视频
因子分析不仅有研究变量之间的相关关系,还有研究样品之间的相关关系,前者称之为R型,后者称为Q型。
在进行主成分分析时,原先有几个变量,就有几个主成分。而因子分析是事前确定要找几个成分(因子)
两个学习内容:
因子分析如何在市场研究中应用?
因子分析背后的统计学理论学习
第二个学习内容比较难,进而影响了学习进度,同时也不好了解自己是否真的学会了。
因子分析适用条件
●原始变量要有较强的相关性。所以需要提前做相关系数矩阵检验。两种方法:Bartlett球形检验和KMO抽样
●只能用连续变量和二分类变量。量表问卷也算是数值型变量
●样本量:样本量与变量5:1
用途
众多变量中相对稳定的基本结构
找出变量间的相关关系,压缩变量数量
●找出相关类别:我们会总结很多语句,有些语句也许在所有人看来都不重要,或者说,无法区分出人群间的差异。因子分析的作用就是找出相关的变量,并归类变量
●找出重要:因为评价的指标比较多,所以需要哪些指标更重要(主成分所做的事情)
案例:
●啤酒消费者市场细分:啤酒利益追求进行市场细分,啤酒品牌形象调研 《基础篇 郑宗成》P187
●护肤品牌形象研究:多个护肤品品牌,功能形象 《基础篇 郑宗成》P204
●中国城市细分:很多维度,如何找到分类。《基础篇》P219
●通讯公司发展现状分析:从几个因子找到发展因素 《定量 简明》P203-207
●各省市综合评价指标 《spss统计分析高级教程 张文彤》-视频也有
通过案例了解因子分析应用。因子分析书上说是压缩有高度相关的变量,同时找到那么多因子的结构。但是具体如何做呢?在市场研究中这两种技术方向能应用在哪些方面呢?
从《IBM SPSS挖掘实战案例》中能感受到因子分析是很多分析的一个基础:找到核心变量,比如第11章,找到购买保健品的动机因子,然后在做市场细分,不过这里的市场细分并不是通过聚类做的,而是直接通过因子分析的第二个技术:找到众多因子的结构
统计理论:目前还看不太懂