英文全称Technique for Order Preference by Similarity to Ideal Solution,翻译为逼近理想解排序法。使用层次分析法进行评价时,n不能很大,最多就15个,再多就没有随机一致性指标RI的值了。当评价的对象比较多的时候,我们可以利用数据信息进行评价。
基本过程为先将原始数据矩阵统一指标类型(一般正向化处理)得到正向化的矩阵,再对正向化的矩阵进行标准化处理以消除各指标量纲的影响,并找到有限方案中的最优方案和最劣方案,然后分别计算各评价对象与最优方案和最劣方案间的距离,获得各评价对象与最优方案的相对接近程度,以此作为评价优劣的依据。该方法对数据分布及样本含量没有严格限制,数据计算简单易行。
(1)原始矩阵正向化
将矩阵中的极小型,中间型和区间型指标正向化为极大型指标
(2)正向化矩阵标准化
z i j = x i j / ∑ i = 1 n x i j 2 z_{ij} = x_{ij}/\sqrt{\sum_{i=1}^n{x_{ij}^2}} zij=xij/∑i=1nxij2
也就是每一个元素/其所在列的元素平方和开平方
(3)计算得分和归一化排序
使用熵权法确定权重
clear;clc
load data_water_quality.mat
%% 第二步:判断是否需要正向化
[n,m] = size(X);
disp(['共有' num2str(n) '个评价对象, ' num2str(m) '个评价指标'])
Judge = input(['这' num2str(m) '个指标是否需要经过正向化处理,需要请输入1 ,不需要输入0: ']);
if Judge == 1
Position = input('请输入需要正向化处理的指标所在的列,例如第2、3、6三列需要处理,那么你需要输入[2,3,6]: '); %[2,3,4]
disp('请输入需要处理的这些列的指标类型(1:极小型, 2:中间型, 3:区间型) ')
Type = input('例如:第2列是极小型,第3列是区间型,第6列是中间型,就输入[1,3,2]: '); %[2,1,3]
% 注意,Position和Type是两个同维度的行向量
for i = 1 : size(Position,2) %这里需要对这些列分别处理
X(:,Position(i)) = Positivization(X(:,Position(i)),Type(i),Position(i));
end
disp('正向化后的矩阵 X = ')
disp(X)
end
%% 第三步:对正向化后的矩阵进行标准化
Z = X ./ repmat(sum(X.*X) .^ 0.5, n, 1);
disp('标准化矩阵 Z = ')
disp(Z)
%% 让用户判断是否需要增加权重
disp("请输入是否需要增加权重向量,需要输入1,不需要输入0")
Judge = input('请输入是否需要增加权重: ');
if Judge == 1
Judge = input('使用熵权法确定权重请输入1,否则输入0: ');
if Judge == 1
if sum(sum(Z<0)) >0 % 如果之前标准化后的Z矩阵中存在负数,则重新对X进行标准化
disp('原来标准化得到的Z矩阵中存在负数,所以需要对X重新标准化')
for i = 1:n
for j = 1:m
Z(i,j) = [X(i,j) - min(X(:,j))] / [max(X(:,j)) - min(X(:,j))];
end
end
disp('X重新进行标准化得到的标准化矩阵Z为: ')
disp(Z)
end
weight = Entropy_Method(Z);
disp('熵权法确定的权重为:')
disp(weight)
else
disp(['如果你有3个指标,你就需要输入3个权重,例如它们分别为0.25,0.25,0.5, 则你需要输入[0.25,0.25,0.5]']);
weight = input(['你需要输入' num2str(m) '个权数。' '请以行向量的形式输入这' num2str(m) '个权重: ']);
OK = 0; % 用来判断用户的输入格式是否正确
while OK == 0
if abs(sum(weight) -1)<0.000001 && size(weight,1) == 1 && size(weight,2) == m % 注意,Matlab中浮点数的比较要小心
OK =1;
else
weight = input('你输入的有误,请重新输入权重行向量: ');
end
end
end
else
weight = ones(1,m) ./ m ; %如果不需要加权重就默认权重都相同,即都为1/m
end
%% 第四步:计算与最大值的距离和最小值的距离,并算出得分
D_P = sum([(Z - repmat(max(Z),n,1)) .^ 2 ] .* repmat(weight,n,1) ,2) .^ 0.5; % D+ 与最大值的距离向量
D_N = sum([(Z - repmat(min(Z),n,1)) .^ 2 ] .* repmat(weight,n,1) ,2) .^ 0.5; % D- 与最小值的距离向量
S = D_N ./ (D_P+D_N); % 未归一化的得分
disp('最后的得分为:')
stand_S = S / sum(S)
[sorted_S,index] = sort(stand_S ,'descend')
我更改后的Positivization文件代码:
function [change_x] = Positive_Change(src_x, type, index)
if type == 1
disp(['极小型的列:' num2str(index)]);
change_x = max(src_x) - src_x;
disp('----------极小型正向化完成----------')
elseif type == 2
disp(['中间型的列:' num2str(index)]);
best_num = input('请输入该指标最好的值:');
M = max(abs(src_x - best_num)); % 得到距离最远的值
change_x = 1 - abs(src_x - best_num)/M;
disp('----------中间型正向化完成----------')
elseif type == 3
disp(['区间型的列:' num2str(index)]);
L = input('区间上界:');
R = input('区间下界:');
row_x = size(src_x, 1);
M = max([L - min(src_x), max(src_x) - R]);
for i = 1 : row_x
if src_x(i) < L % 距离上界的大小
change_x(i) = 1 - (L - src_x(i)) / M;
elseif src_x(i) > R % 距离下界的大小
change_x(i) = 1 - (src_x(i) - R) / M;
else
change_x(i) = 1;
end
end
disp('----------区间型正向化完成----------')
else
disp('类型输入错误!');
end
end
层次分析法的权重大多是由自己确定的,主观性太强。熵权法是一种客观赋权方法,当数据变异程度越小,可以理解为方差越小,数据所含的信息越小,权重也就越低。常常使用差学生考生清华和好学生考上清华做为例子对比。
但是熵权法也有自己的弊端,对于一些极端情况,有些指标的变异程度虽然非常小,但是可能其权重很大,例如在评选奖学金的时候记档案次数和迟到次数,通过熵权法得到这两个指标的权值与实际常识不符。
当越有可能发生的事情,信息量越小;当越不可能发生的事情,信息量越多。
我们使用概率表示事情发生的可能性大小,也就是概率与信息量呈反比,我们可以使用对数函数前加负号表示它们之间的关系。
设 x x x为事件 X X X发生的一种情况,这种情况发生的概率为 p ( x ) p(x) p(x),那么它的信息量 可以定义为: I ( x ) = − ln ( p ( x ) ) I(x)=-\ln(p(x)) I(x)=−ln(p(x))。如果事件 X X X所有可能发生的情况为: x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn
那么事件 X X X的信息熵可以定义为:
H ( x ) = ∑ i = 1 n [ p ( x i ) I ( x i ) ] = − ∑ i = 1 n [ p ( x i ) ln ( p ( x i ) ) ] H(x) = \sum^{n}_{i=1}{[p(x_i)I(x_i)]}=-\sum^{n}_{i=1}{[p(x_i)\ln(p(x_i))]} H(x)=∑i=1n[p(xi)I(xi)]=−∑i=1n[p(xi)ln(p(xi))]
可以看出信息熵其实是信息量的期望值。
当所有事件发生的情况概率相同时,信息熵最大(了解)
(1)首先对输入的矩阵进行正向化,对构成的正向化矩阵进行标准化得到矩阵 Z Z Z, Z Z Z的元素: Z i j = x i j / ∑ i = 1 n x i j 2 Z_{ij}=x_{ij}/\sqrt{\sum^{n}_{i=1}{x_{ij}^2}} Zij=xij/∑i=1nxij2
如果Z中存在负数,需要对 X X X使用另一种标准化方法得到 Z ~ \tilde{Z} Z~:
z i j ~ = x i j − min { x 1 j , x 2 j , . . . x n j } max { x 1 j , x 2 j , . . . x n j } − min { x 1 j , x 2 j , . . . x n j } \tilde{z_{ij}}=\frac{x_{ij}-\min{\{x_{1j},x_{2j},...x_{nj}\}}}{\max{\{x_{1j},x_{2j},...x_{nj}\}}-\min{\{x_{1j},x_{2j},...x_{nj}\}}} zij~=max{x1j,x2j,...xnj}−min{x1j,x2j,...xnj}xij−min{x1j,x2j,...xnj}
即x减去这一列最小值除去这一列的最大值减最小值
(2)计算第 j j j项指标下第i个样本的比重,将其看作相对熵计算中的概率
p i j = z i j ~ ∑ i = 1 n z i j ~ p_{ij}=\frac{\tilde{z_{ij}}}{\sum^n_{i=1}{\tilde{z_{ij}}}} pij=∑i=1nzij~zij~
(3)计算每个指标的信息熵,并计算信息有效值,归一化得到每个指标的熵权
信息熵的计算公式: e j = − 1 ln n ∑ i = 1 n p i j ln ( p i j ) e_j = -\frac{1}{\ln{n}}\sum^n_{i=1}{p_{ij}\ln(p_{ij})} ej=−lnn1∑i=1npijln(pij)
从得到标准化矩阵 Z Z Z开始
function [W] = Entropy_Method(Z)
% 计算有n个样本,m个指标的样本所对应的的熵权
% 输入
% Z : n*m的矩阵(要经过正向化和标准化处理,且元素中不存在负数)
% 输出
% W:熵权,1*m的行向量
%% 计算熵权
[n,m] = size(Z);
D = zeros(1,m); % 初始化保存信息效用值的行向量
for i = 1:m
x = Z(:,i); % 取出第i列的指标
p = x / sum(x);
% 注意,p有可能为0,此时计算ln(p)*p时,Matlab会返回NaN,所以这里我们自己定义一个函数
e = -sum(p .* mylog(p)) / log(n); % 计算信息熵
D(i) = 1- e; % 计算信息效用值
end
W = D ./ sum(D); % 将信息效用值归一化,得到权重
end