聚类分析用matlab还是spass,利用matlab和spss软件实现聚类分析

41528d3028836879cd698677c3999917.gif利用matlab和spss软件实现聚类分析

《计量地理学》 (徐建华,高等教育出版社,2005)配套实习指导37§8.利用 Matlab 和 SPSS 软件实现聚类分析1. 用 Matlab 编程实现运用 Matlab 中的一些基本矩阵计算方法,通过自己编程实现聚类算法,在此只讨论根据最短距离规则聚类的方法。调用函数:min1.m——求矩阵最小值,返回最小值所在行和列以及值的大小min2.m——比较两数大小,返回较小值std1.m——用极差标准化法标准化矩阵ds1.m——用绝对值距离法求距离矩阵cluster.m——应用最短距离聚类法进行聚类分析print1.m——调用各子函数,显示聚类结果聚类分析算法假设距离矩阵为 vector, a 阶,矩阵中最大值为 max,令矩阵上三角元素等于 max聚类次数=a-1,以下步骤作 a-1 次循环:求改变后矩阵的阶数,计作 c求矩阵最小值,返回最小值所在行 e 和列 f 以及值的大小 g《计量地理学》 (徐建华,高等教育出版社,2005)配套实习指导38for l=1:c,为 vector(c+1,l)赋值,产生新类令第 c+1 列元素,第 e 行和第 f 行所有元素为,第 e 列和第 f 列所有元素为max源程序如下:%std1.m,用极差标准化法标准化矩阵function std=std1(vector)max=max(vector); %对列求最大值min=min(vector);[a,b]=size(vector); %矩阵大小,a 为行数,b 为列数for i=1:afor j=1:bstd(i,j)= (vector(i,j)-min(j))/(max(j)-min(j));endend%ds1.m,用绝对值法求距离function d=ds1(vector);[a,b]=size(vector); d=zeros(a);for i=1:afor j=1:afor k=1:bd(i,j)=d(i,j)+abs(vector(i,k)-vector(j,k));endendendfprintf( 绝对值距离矩阵如下:\n );disp(d)%min1.m,求矩阵中最小值,并返回行列数及其值function [v1,v2,v3]=min1(vector);%v1 为行数,v2 为列数, v3 为其值[v,v2]=min(min(vector ));[v,v1]=min(min(vector));v3=min(min(vector));%min2.m,比较两数大小,返回较小的值function v1=min(v2,v3);if v2>v3《计量地理学》 (徐建华,高等教育出版社,2005)配套实习指导39v1=v3;elsev1=v2;end%cluster.m,最短距离聚类法function result=cluster(vector);[a,b]=size(vector);max=max(max(vector));for i=1:afor j=i:bvector(i,j)=max;endend;for k=1:(b-1)[c,d]=size(vector);fprintf( 第%g 次聚类:\n ,k);[e,f,g]=min1(vector);fprintf( 最小值=%g,将第%g 区和第%g 区并为一类,记作 G%g\n\n ,g,e,f,c+1);for l=1:cif l<=min2(e,f)vector(c+1,l)=min2(vector(e,l),vector(f,l));elsevector(c+1,l)=min2(vector(l,e),vector(l,f)); endend;vector(1:c+1,c+1)=max;vector(1:c+1,e)=max;vector(1:c+1,f)=max;vector(e,1:c+1)=max;vector(f,1:c+1)=max; end%print1,调用各子函数function print=print1(filename,a,b); %a 为地区个数,b 为指标数fid=(filename, r )vector=fscanf(fid, %g ,[a b]);fprintf( 标准化结果如下:\n )v1=std1(vector)v2=ds1(v1);cluster(v2);%输出结果《计量地理学》 (徐建华,高等教育出版社,2005)配套实习指导40print1( fname ,9,7)2.直接调用 Matlab 函数实现2.1 调用函数层次聚类法(Hierarchical Clustering)的计算步骤:①计算 n 个样本两两间的距离 {dij},记 D②构造 n 个类,每个类只包含一个样本;③合并距离最近的两类为一新类;④计算新类与当前各类的距离;若类的个数等于 1,转到 5) ;否则回 3) ;⑤画聚类图;⑥决定类的个数和类;Matlab 软件对系统聚类法的实现(调用函数说明):cluster 从连接输出(linkage)中创建聚类clusterdata 从数据集合(x) 中创建聚类dendrogram 画系统树状图linkage 连接数据集中的目标为二元群的层次树pdist 计算数据集合中两两元素间的距离 (向量)square 将距离的输出向量形式定格为矩阵形式zscore 对数据矩阵 X 进行标准化处理 《计量地理学》 (徐建华,高等教育出版社,2005)配套实习指导41各种命令解释⑴ T = clusterdata(X, cutoff)其中 X 为数据矩阵,cutoff 是创建聚类的临界值。即表示欲分成几类。以上语句等价与以下几句命令:Y=pdist(X,’euclid’)Z=linkage(Y,’single’)T=cluster(Z,cutoff)以上三组命令调用灵活,可以自由选择组合方法!⑵ T = cluster(Z, cutoff)从逐级聚类树中构造聚类,其中 Z 是由语句 likage 产生的(n-1)×3 阶矩阵,cutoff 是创建聚类的临界值。⑶ Z = linkage(Y) Z = linkage(Y, ) 创建逐级聚类树,其中 Y 是由语句 pdist 产生的 n(n-1)/2 阶向量, ’’表示用何方法,默认值是欧氏距离(single)。有’complete’——最长距离法;‘average’——类平均距离;‘centroid’ ——重心法 ; ‘ward‘——递增平方和等。 ⑷ Y = pdist(X) Y = pdist(X, metric ) 计算数据集 X 中两两元素间的距离, ‘metric’表示使用特定的方法,有欧氏距离‘euclid’ 、标准欧氏距离‘SEuclid’ 、马氏

你可能感兴趣的:(聚类分析用matlab还是spass,利用matlab和spss软件实现聚类分析)