数据预处理 常见的几种方法

数据的预处理又称属性值的规范化。

属性值具有多种类型,包括效益型、成本型、以及区间型等。这三种属性,效益型属性越大越好,成本型属性越小越好,区间型属性是在某个区间最佳。

在进行决策时,一般要进行属性值的规范化,主要有如下三个作用:①属性值有多种类型,上述三种属性放在同一个表中不便于直接从数值大小判断方案的优劣,因此需要对数据进行预处理,使得表中任一属性下性能约优的方案变换后的属性值越大。②非量纲化,多属性决策与评估的困难之一是属性间的不可公度性,即在属性值表中的每一列数具有不同的单位(量纲)。即使对同一属性,采用不同的计量单位,表中的数值也就不同。在用各种多属性决策方法进行分析评价时需要排除量纲的选用对决策或评估结果的影响,这就是非量纲化。③归一化,属性值表中不同指标的属性值的数值大小差别很大,为了直观,更为了便于采用各种多属性决策与评估方法进行评价,需要把属性值表中的数值归一化,即把表中数值均变换到[0,1]区间上。

此外,还可在属性规范时用非线性变换或其他办法,来解决或部分解决某些目标的达到程度与属性值之间的非线性关系,以及目标间的不完全补偿性。常用的属性规范化方法有以下几种。

(1)线性变换。原始的决策矩阵为A = {\left( {{a_{ij}}} \right)_{m \times n}},变换后的决策矩阵记为B = {\left( {{b_{ij}}} \right)_{m \times n}},i = 1, \cdots ,m;j = 1, \cdots ,n,设a_j^{\max }是决策矩阵第 j 列中的最大值,a_j^{\max }是决策矩阵第中的 j 最小值。若为效益型属性,则

                                                                                  {b_{ij}} = {a_{ij}}/a_j^{\max }

采用上式进行属性规范化时,经过变换的最差属性值不一定为0,最优属性值为1。

若为成本型属性,则

                                                                               {b_{ij}} = 1 - {a_{ij}}/a_j^{\max }

 

采用上式进行属性规范化时,经过变换的最优属性值不一定为1,最差属性值为0。

(2)标准0—1变换。为了使每个属性变换后的最优值为1且最差值为0,可以进行标准0—1变换。对效益型属性,令

                                                                              {b_{ij}} = \frac{{{a_{ij}} - a_j^{\min }}}{{a_j^{\max } - a_j^{\min }}}

对成本性属性{x_j},令

                                                                              {b_{ij}} = \frac{{a_j^{\max } - {a_{ij}}}}{{a_j^{\max } - a_j^{\min }}}

 

(3)区间型属性的变换。有些属性既非效益性又非成本型,如师生比。显然这种属性不能采用前面介绍的两种方法处理。

设给定的最优属性 \left[ {a_j^0,a_j^ * } \right], a_j^'为无法容忍下限,a_j^{'{\kern 1pt} '}为无法容忍上限,则

                                                 数据预处理 常见的几种方法_第1张图片

变换后的属性值b_{ij}与原属性值a_{ij}之间的函数图形为一般梯形。当属性值最优区间的上下限相等时,最优区间退化为一个点时,函数图形退化为三角形。

(4)向量规范化

无论成本型属性还是效益型属性,向量规范化均用下式进行变换:

                                                                    {b_{ij}} = {a_{ij}}/\sqrt {\sum\limits_{i = 1}^m {a_{ij}^2} } ,i = 1, \cdots ,m,j = 1, \cdots ,n

它与前面介绍的几种变换不同,从变换后的属性值的大小上无法分辨属性值的优劣。它的最大特点是,规范化后,各方案的同一属性值的平方和为1,因此常用于计算各种方案与某种虚拟方案(如理想点或负理想点)的欧几里得距离的场合。

(5)标准化处理。在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常对数据进行标准化处理,即

                                                                                    

                          式中

                                                     

 

 

 

你可能感兴趣的:(数学建模,算法)