在声音样本数目比较多的情况下,直接进行成对比较法,工作量非常大,且评价者容易疲劳,在很大程度上影响评价结果的一致性和准确性。对于这种情况,采用聚类分析,从 30 个声音样本中选择有代表性的样本进行主观评价试验,大大降低了主观评价试验的工作量1。
[1] 孙强. 基于人工神经网络的汽车声品质评价与应用研究[D]. 长春:吉林大学,2010.
聚类分析是一种建立分类的方法,它能够将一批样本按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。这里,同一类中的个体有较大的相似性,不同类中的个体差异较大。
没有先验知识是指没有事先指定分类标准;亲疏程度是指在各变量(特征)取值上的总体差异程度。
SPSS软件中提供了3种聚类方法:
系统聚类法的基本思想是:
系统聚类有两种类型:
同时根据聚类过程不同,又分为分解法和凝聚法(SPSS软件的系统聚类采用的是凝聚法)。
点和点之间的距离和类和类之间的距离。
为了衡量样本间的亲疏程度,常用距离、匹配系数和相似系数作为度量标准。在SPSS中,对不同度量类型的数据采用了不同的测定亲疏程度的统计量。
Measure(度量标准)
Interval(区间)——定距离变量个体间距离的计算公式,适用于R型聚类和Q型聚类。
Euclidean distance(欧氏距离)
d ( x , y ) = ∑ i ( x i − y i ) 2 d(x,y)=\sqrt{\sum_{i}(x_{i}-y_{i} )^{2}} d(x,y)=∑i(xi−yi)2 公式一
Squared Euclidean distance(平方欧氏距离)
d ( x , y ) = ∑ i ( x i − y i ) 2 d(x,y)=\sum_{i}(x_{i}-y_{i} )^{2} d(x,y)=∑i(xi−yi)2 公式二
Cosline(夹角余弦)
C x y ( 1 ) = cos θ x y = ∑ i x i y i ∑ i x i 2 ∑ i y i 2 C_{xy}(1)=\cos \theta _{xy} =\frac{\sum_{i}x_{i}y_{i}}{\sqrt{\sum_{i}x_{i}^{2}\sum_{i}y_{i}^{2}}} Cxy(1)=cosθxy=∑ixi2∑iyi2∑ixiyi 公式三
Pearson conelation(皮尔逊相关系数)
C x y ( 2 ) = γ x y = ∑ i ( x i − x ˉ ) ( y i − y ˉ ) ∑ i ( x i − x ˉ ) 2 ∑ i ( y i − y ˉ ) 2 C_{xy}(2)=\gamma _{xy} =\frac{\sum_{i}(x_{i}-\bar{x})(y_{i}-\bar{y} )}{\sqrt{\sum_{i}(x_{i}-\bar{x})^{2}\sum_{i}(y_{i}-\bar{y} )^{2}}} Cxy(2)=γxy=∑i(xi−xˉ)2∑i(yi−yˉ)2∑i(xi−xˉ)(yi−yˉ) 公式四
Chebychev(切比雪夫距离)
d ( x , y ) = M a x i ∣ x i − y i ∣ d(x,y)=\underset{i}{Max}\left | x_{i}-y_{i} \right | d(x,y)=iMax∣xi−yi∣ 公式五
Block(曼哈顿距离)
d ( x , y ) = ∑ i ∣ x i − y i ∣ d(x,y)=\sum_{i}\left | x_{i}-y_{i} \right | d(x,y)=∑i∣xi−yi∣ 公式六
Minkowski(闵科夫斯基距离)
d ( x , y ) = [ ∑ i ∣ x i − y i ∣ q ] 1 q d(x,y)=\left [ \sum_{i}\left | x_{i}-y_{i} \right | ^{q} \right ] ^{\frac{1}{q} } d(x,y)=[∑i∣xi−yi∣q]q1 公式七
Customized(自定义距离)
如果所涉及的个变量都是计数的非连续变量,对计数变量的不相似性测度方法,是根据被计算的两个观测量或两个变量总额数计算其不相似性。期望值来自观测量或变量的独立模型。
个体间距离定量的方式:
Binary(二值变量)——二值变量个体间距离的计算公式
如果所涉及的定义通常都是二值变量,那么个体间距离的定义通常有简单匹配系数(Simple matching)和雅科比系数(Jaccard)两种方式。
概念:不同类中两个最近的点之间的距离。
特点:对噪声和离群点很敏感。
公式: D p q = min d ( x i , x j ) D_{pq}=\min d\left ( x_{i},x_{j} \right ) Dpq=mind(xi,xj) 公式八
概念:不同类中两个最远的点之间的距离。
特点:对噪声和离群点不是很敏感,倾向于分裂较大的类。
公式: D p q = max d ( x i , x j ) D_{pq}=\max d\left ( x_{i},x_{j} \right ) Dpq=maxd(xi,xj) 公式九
公式: D p q = min d ( x p ˉ , x q ˉ ) D_{pq}=\min d\left ( \bar{x_{p}} ,\bar{x_{q}} \right ) Dpq=mind(xpˉ,xqˉ) 公式十
公式:
D 1 = ∑ x i ∈ G p ( x i − x p ˉ ) ′ ( x i − x p ˉ ) D_{1} =\sum_{x_{i}\in G_{p}}(x_{i}-\bar{x_{p}} )'(x_{i}-\bar{x_{p}} ) D1=∑xi∈Gp(xi−xpˉ)′(xi−xpˉ) 公式十一
D 2 = ∑ x j ∈ G q ( x j − x q ˉ ) ′ ( x j − x q ˉ ) D_{2} =\sum_{x_{j}\in G_{q}}(x_{j}-\bar{x_{q}} )'(x_{j}-\bar{x_{q}} ) D2=∑xj∈Gq(xj−xqˉ)′(xj−xqˉ) 公式十二
D 1 + 2 = ∑ x k ∈ G p ∪ G q ( x k − x ˉ ) ′ ( x i − x ˉ ) ⇒ D p q = D 1 + 2 − D 1 − D 2 D_{1+2} =\sum_{x_{k}\in G_{p}\cup G_{q}}(x_{k}-\bar{x} )'(x_{i}-\bar{x})\Rightarrow D_{pq}=D_{1+2}-D_{1}-D_{2} D1+2=∑xk∈Gp∪Gq(xk−xˉ)′(xi−xˉ)⇒Dpq=D1+2−D1−D2 公式十二
Between-groups linkage (组间联接法)
Within-groups linkage (组内联接法)
Median clustering (中位数聚类法)
一般情况下,用不同的方法聚类的结果是不会完全一致的。在实际应用中,一般采用以下两种处理方法:
Transform Values(转换值)
SPSS软件中,提供了将数据标准化的方法。注意只有等间隔测度的数据(选择Interval)或计数数据(选择Counts)才可以进行标准化。
Transform Measure(转换方法)
Agglomeration schedule(合并进程表):显示聚类过程中每一步合并的类或观测量,反映聚类过 程中每一步样品或类的合并过程(系统默认选项)。
Proximity matrix(相似性矩阵):输出各类之间的距离矩阵。
Cluster Membership(聚类成员):显示每个样本被分派到的类或显示若干步凝聚过程,其中:
Dendrogram(树状图):显示树形图。
Icicle(冰柱):显示冰柱图形,其中:
Orientation(方向):冰柱图的显示方向
系统聚类无需事先确定聚成多少类,但k-均值聚类却要求事先确定聚成多少类:
Method(方法):指定聚类过程是否调整类中心点。
Cluster Centers(类中心)
Number of Clusters(确定聚类数目):应小于样本数。
迭代参数的设置
其他选项输出:
1 ↩︎