笔者将会尽量用很通俗的语言来描述。
数学建模系列文章——总结篇:《数模美一国一退役选手的经验分享[2021纪念版]》.
灰色关联度分析(Grey Relation Analysis,GRA),是一种多因素统计分析的方法。简单来讲,就是在一个灰色系统中,我们想要了解其中某个我们所关注的某个项目受 其他的因素 影响的相对强弱。
再直白一点,就是说:我们假设已经知道某一个指标可能是与其他的某几个因素相关的。那么我们想知道这个指标与其他哪个因素,相对来说更有关系,而与哪个因素相对关系弱一点。依次类推,把这些因素排个序,得到一个分析结果,我们就可以知道我们关注的这个指标,与因素中的哪些更相关。
补充 : 灰色系统这个概念的提出是相对于白色系统和黑色系统而言的。按照控制论的惯例,颜色一般代表的是对于一个系统我们已知的信息的多少,白色就代表信息充足,比如一个力学系统,因素之间的关系都是能够确定的,这就是一个白色系统;而黑色系统代表我们对于其中的结构并不清楚的系统,通常叫做黑箱或黑盒的就是这类系统。灰色介于两者之间,表示我们只对该系统有部分了解。
举一个简单的栗子,在某一个城市里有个网吧,它的总收入和其他数据如下。
然后问你一个问题,你觉得 这个网吧的总收入 和 那些数据 更具有相关性。(不妨花费5秒看一看)
显然,我们单靠眼睛看还是很难看出。接下来我们可以用灰色关联分析,就能挖掘其主要因素。
注:知道有什么用、怎么用即可。如要了解详细的原理,可以看看文章最后的 参考附录。
在下面的用法中,我也将会简单地、通俗地穿插其原理。
样本数量较少时,使用关联分析最佳。
而当样本数量较多时,一般使用标准化回归。
先上方法~
作用:去量纲的前一步操作
作用:去量纲
补充:那为什么要去量纲呢?
因为在这几列数据中,有些列的单位是不同的(比如 D列 和 E列 )。我们为了消除单位所带来的差异,去掉数据的“外壳”。就将每一列的每个数据除以 该列数据的平均值 ,之后,即可得到一个“相对值”(好好体会吧),一个可以认为是没有了单位的 “相对数值” 。
注:“$”是锁定 编号为 ‘17’ 这一行的意思。 然后拖动数据框,得到如下结果。
为什么要取绝对值?
因为要让 子序列(即 D列、E列、F列、G列) 和 母序列(即C列的 “网吧总收入” ) 进行比较,就要使双方产生 关系 ,只不过在灰色关联分析的方法中,是通过 “取绝对值” 产生的关系。
灰色关联度的公式详见“⑤”。
注:“$”是锁定 编号为 ‘C’ 这一列的意思。ABS()函数是用来取绝对值的。 然后拖动数据框,即可得到结果。
注:为什么我叫它最最小值呢?就是在所有 “行+列” 中的最小值。最最大值同理。
这个是计算灰色关联度的公式:
<1> ρ是分辨系数,一般取0.5。我用 Excel 计算时也用的 0.5。
<2> “ min min | x0(k) - xi(k) | ” 就是 “最最小值” 的意思
<3> “ max max | x0(k) - xi(k) | ” 就是 “最最大值” 的意思
注:“$B$45”中的两个 $ 的意思是,锁定“B”这一列和“45”这一列,也就是锁定“B45”这一个单元格。
注:求关联度也就是,求每一列的平均值。
注:灰色关联度的取值范围为 [0, 1],而值越大的说明灰色关联度越大。比如,从表格中,我们可以看见,“附近居民数量”的灰色关联度为0.862…,值最大,说明它和“网吧总收入”的相关性最强,而与“网吧的环境资金投入”的相对关系最弱。
[1] 《灰色关联度分析(GRA)原理详解》,通过这篇文章,你可以比较系统地学习到:灰色关联分析原理】
链接: 灰色关联度分析(Grey Relation Analysis,GRA)原理详解.
[2] 《灰色关联分析法》:来自百度百科】
链接: 灰色关联分析法.
数学建模系列文章——总结篇:《数模美一国一退役选手的经验分享[2021纪念版]》.