数模笔记(六):两变量相关性分析与主成分分析1.0

数模笔记(一):线性规划、整数规划及非线性规划

数模笔记(二):层次分析法

数模笔记(三):灰色系统分析方法

数模笔记(四):插值与拟合

数模笔记(五):变异系数法

一、概述

(一)变量关系强度

        指两个变量相关程度的高低。统计学中是以准实验的思想来分析变量相关的。通常从以下的角度分析:

        1.两变量是否相互独立。

        2.两变量是否有共变趋势。

        3.一变量的变化多大程度上能由另一变量的变化来解释。

(二)四种基本变量

        1.定类变量:根据定性的原则区分总体各个案类别的变量

        2.定序变量:区别同一类别个案中有等级次序的变量

        3.定距变量:区别同一类别个案中等级次序及其距离的变量,无零点概念

        4.定比变量:区别同一类别个案中等级次序及其距离的变量,有零点概念

二、两变量的相关性分析

(一)皮尔逊相关系数(Pearson correlation coefficient)

        1.又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且Y随着X的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。

数模笔记(六):两变量相关性分析与主成分分析1.0_第1张图片

        2.适用于定距、定比类型的变量。 是运用最广的一种相关程度统计量。

        3.两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差(Covariance)和标准差(Standard Deviation)的商,估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母r代表:

数模笔记(六):两变量相关性分析与主成分分析1.0_第2张图片

        4.检验用t统计量(T-Statistic),其中统计量t服从自由度(n-2)的分布。

         其中

        为标准误(Standard Error of Mean)

​​​​

        5.适用条件

        (1)两变量均应由测量得到的连续变量。

        (2)两变量所来自的总体都应是正态分布,或接近正态的单峰对称分布。

        (3)变量必须是成对的数据。

        (4)两变量间为线性关系。

(二)斯皮尔曼等级相关系数(Spearman's rank correlation coefficient)

        1.适用于度量定序变量与定序变量之间的相关。

        2.实际应用中,变量间的连结是无关紧要的,于是可以通过简单的步骤计算ρ。

数模笔记(六):两变量相关性分析与主成分分析1.0_第3张图片

        3.(di)^2为被观测的两个变量的等级的差值,n为样本容量,当n>20时,应进行t检验

(三)双变量关系强度测量的主要指标

数模笔记(六):两变量相关性分析与主成分分析1.0_第4张图片

三、数据降维之主成分分析

(一)概述

        1.主成分分析是考察多个变量间相关性一种多元统计方法。研究如何通过少数几个主成分(principal component)来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。

        2.如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合。F2称为第二主成分(principal  component II)。

        3.为了有效地反映原来信息,F1已有的信息就不再出现在F2中,即cov(F1,F2)=0。依此类推,可以获得p个主成分。因此,这些主成分之间是互不相关的,而且方差依次递减。

        4.各主成分的累积方差贡献率>80%或特征根>1。

(二)步骤

        1.对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响

        2.根据标准化后的数据矩阵求出相关系数矩阵

        3.求出协方差矩阵的特征根和特征向量

        4.确定主成分,并对各主成分所包含的信息给予适当的解释

你可能感兴趣的:(数学建模,算法)