统计数据归一化与标准化

 

归一化:

1)把数据变成(0,1)之间的小数

2)把有量纲表达式变成无量纲表达式

 

归一化算法有:

1.线性转换

       y=(x-MinValue)/(MaxValue-MinValue

.对数函数转换:

      y=log10(x)

.反余切函数转换

      y=atan(x)*2/PI

.线性也与对数函数结合

      (1)将输入值换算为[-1,1]区间的值,

      在输出层用式(2)换算回初始值,其中 和分别表示训练样本集中负荷的最大值和最小值。

 

数据规范化:

1)把数据按比例缩放,使之落入一个小的空间里

 

.最小-最大规范化(线性变换)

      y=( (x-MinValue) / (MaxValue-MinValue) )(new_MaxValue-new_MinValue)+new_minValue

 

2.z-score规范化(或零-均值规范化)

 y=(x-X的平均值)X的标准差

 优点:当X的最大值和最小值未知,或孤立点左右了最大-最小规范化时, 该方法有用

.小数定标规范化:通过移动X的小数位置来进行规范化

 y= x/10j次方  (其中,j使得Max(|y|) <1的最小整数

.对数Logistic模式:

      新数据=1/1+e^(-原数据)

.模糊量化模式:

新数据=1/2+1/2sin[3.1415/(极大值-极小值)*

      X-(极大值-极小值)/2 ]       X为原数据

 

示例 (摘自网上):

1DVD分发问题中满意度的量化

   现有20DVD要分发给100个会员,规定如果要向某人发放DVD,则一次发给3张,问如何对这些DVD进行分配,才能使会员获得最大的满意度?

DVD编号

D001

D002

D003

D004

D005

D006

……

DVD现有数量

8

1

22

10

8

40

……

会员偏好

C0001

0

0

2

0

0

0

……

C0002

1

0

9

0

0

7

……

C0003

0

6

0

0

0

7

……

C0004

0

0

0

0

4

0

……

C0005

5

0

0

0

0

4

……

………

注:表中的数字越小表示会员的偏爱程度越高,数字0表示对应的DVD当前不在会员的订单中。

解:我们考虑三种方法进行变换,然后对它们进行比较。

(1)   利用公式 :

(2)   利用公式:

(3)   利用模糊数学中的隶属函数的概念,选取合适的函数,对满意度进行量化:

统计数据归一化与标准化_第1张图片

 

结论:方法1可行;方法2不太可取;方法3可行。

注意:无论采用哪一种方法,对每一个会员的满度度均需要作归一化处理,

使得每一个会员对选中的DVD的满意度之和等于1

(算出的每人的满意度或综合满意度都应该介于0-1之间)

 

 

 

你可能感兴趣的:(c,算法)