业务数据分析中可能用到的简单的数据挖掘方法——相关性分析、主成分分析、因子分析

业务数据分析中可能用到的简单的数据挖掘方法——相关性分析、主成分分析、因子分析

相关性分析

相关性分析通过相关系数来描述两个变量之间的相关性程度。
通过相关系数判断两者会不会相互影响,影响是正相关还是负相关。
相关系数包括皮尔森相关系数、斯皮尔曼秩相关系数、肯德尔秩相关系数。皮尔森相关系数只描述线性关系,另外两者不限于线性关系,可以描述非曲线关系,如幂函数,反相关的关系等。

  • 但在现实中也不知道是怎么用的。。。。

相关系数不为0并不以为两者间存在显著的相关性。
要判断两者是否存在显著的相关性,需要对相关系数r进行假设检验。原假设H0 :r=0,备择假设是不为0
使用的统计量t统计量。

主成分分析

主成分分析:通过正交变换将一组可能存在相关性的变量转换为一组不相关的变量,转换后的这组变量叫主成分。
在实际问题中,为了全面分析问题,一般选取的相关变量会很多。对这些变量降维,进行正交变换,重新组合成一组新的互相无关的综合指标来代替原来的变量。

主成分是原始变量的线性组合。

作用:降维,且综合指标线性无关。
主成分分析法得到的变量可以用来构造回归模型,由于得到的综合指表相互正交,所以线性回归中不会出现共线性的问题。

存在的问题:主成分分析得到的指标是原始指表的线性组合,一般很难找到其现实含义,所以很难对它进行命名。

因子分析

因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量 (latent variable, latent factor),这些隐性变量就是想得到的主因子。

比如,如果要测量学生的学习积极性(motivation),课堂中的积极参与,作业完成情况,以及课外阅读时间可以用来反应积极性。而学习成绩可以用期中,期末成绩来反应。
这里,不可观测的学习积极性就是因子分析中想得到的因子,可测量的积极参与,作业完成情况,课外阅读时间就是原始变量。

数理原理:从原始变量向量X的相关矩阵出发,通过方差最大的正交旋转使矩阵可逆,求出矩阵A的各列,通过因子的系数矩阵得到因子表达式,使相应的“贡献”(方差贡献度)有顺序。

原始变量是因子的线性组合,这些因子相互正交,因子的系数平方和就是因子的贡献度,因子在哪些变量上的因子载荷越大,就是对这些变量代表的隐性变量的代表。
因子分析是社会研究的一种有力工具,但不能肯定地说一项研究中含有几个因子,当研究中选择的变量变化时,因子的数量也要变化。此外对每个因子实际含意的解释也不是绝对的。

主成分分析和因子分析的作用都是降维。与主成分分析不同的是,因子分析得到在主因子有现实意义,表示的是那些隐性的无法观测的综合指标

你可能感兴趣的:(数据分析,数据分析,统计学)