层次聚类类型:硬聚类、软聚类;聚合聚类、分裂聚类定义理解
欧氏与闵氏距离的缺陷分析:欧氏距离、闵可夫斯基距离的适用范围
兰氏距离:表达式与数学性质,距离适用范围
马氏距离:表达式与数学性质,距离适用范围
斜交空间距离:表达式与数学性质,距离适用范围
相似系数的算法:两个n维变量间的相似测度,计算公式
夹角余弦:几类特殊的夹角余弦的表达式与区别
层次聚类假设类别之间存在层次结构,将样本聚到层次化的类中。
层次聚类⼜有聚合(agglomerative)或⾃下⽽上(bottom-up)聚类、分裂(divisive)或⾃上⽽下(top-down)聚类两种⽅法。
因为每个样本只属于⼀个类,所以层次聚类属于硬聚类。
1.聚合聚类
开始将每个样本各⾃分到⼀个类,之后将相距最近的两类合并,建⽴⼀个新的类,重复此操作直到满⾜停⽌条件,得到层次化的类别
2.分裂聚类
开始将所有样本分到⼀个类,之后将已有类中相距最远的样本分到两个新的类,重复此操作直到满⾜停⽌条件,得到层次化的类别
这里的停止条件可以是类别数量达到阈值或者类间距达到阈值。
d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ 2 ) 1 2 d_{ij}=\left(\sum_{k=1}^m|x_{ki}-x_{kj}|^2\right)^\cfrac{1}{2} dij=(k=1∑m∣xki−xkj∣2)21
受量纲的影响明显:不同单位之间不能计算欧式距离;
未考虑个变量⽅差的不同,如果某个特征分布差异较大,效果也不好,可以用归一化处理;
容易受到异常值的影响,如果某个特征出现异常值,会把欧氏距离拉大;
没有考虑指标之间的相关性,某些特征如果有较强的相关性,那么把这些特征和其他特征放在一起比较是不公平的,可以考虑对相关较大的特征进行合并。
作为改进,可以考虑讲数据进⾏标准化或者⽅差归⼀化后在计算距离,但是即便如此,欧式距离仍然不能考虑到指标之间的相关性。
闵⽒距离的值与各指标的量纲有关;
闵⽒距离的定义没有考虑各个变量之间的相关性和重要性。
实际上,闵可夫斯基距离与欧式距离⼀样,是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进⾏了综合。
因此,上述⼏种距离计算⽅法均不理想,在多元统计分析中,还有以下两种距离计算公式:兰⽒距离和⻢⽒距离。下面具体来看。
兰思和维廉姆斯(Lance & Williams)定义的⼀种距离,其公式为:
d i j ( L ) = 1 p ∑ k = 1 p ∣ x i k − x j k ∣ x i k + x j k d_{ij}(L)=\cfrac{1}{p}\sum_{k=1}^p\cfrac{|x_{ik}-x_{jk}|}{x_{ik}+x_{jk}} dij(L)=p1k=1∑pxik+xjk∣xik−xjk∣
特点:
对⼤的奇异值不敏感,特别适合于⾼度偏倚的数据;
没有考虑指标之间的相关性;
考虑了变量的个数;
没有单位;
要求变量观测值必须⼤于0,以保证距离总是正值。
印度著名统计学家⻢哈拉诺⽐斯所定义的⼀种距离,其计算公式为:
d i j 2 = ( x i − x j ) ′ ∑ − 1 ( x i − x j ) d^2_{ij}=(x_i-x_j)'\sum^{-1}(x_i-x_j) dij2=(xi−xj)′∑−1(xi−xj)
x i , x j x_i,x_j xi,xj分别表示第 i i i个样品和第 j j j样品的 p p p指标观测值所组成的列向量,即样本数据矩阵中第 i i i个和第 j j j个⾏向量的转置, ∑ \sum ∑表示观测变量之间的协⽅差矩阵。
在实践应⽤中,若总体协⽅差矩阵 ∑ \sum ∑未知,则可⽤样本协⽅差矩阵作为估计代替计算。
通俗的话来说,黄色两个点从坐标上来看位置相对是一样的,但是y轴的点方向由于分布的原因,明显是一个outlier,因此要对这两个轴进行归一化后再进行判断,这个就是马氏距离的思想。
由于各变量之间往往存在着不同的相关关系,⽤正交空间的距离来计算样本间的距离易变形,所以可以采⽤斜交空间距离。
d i j = [ 1 p 2 ∑ h = 1 p ∑ k = 1 p ( x i h − x j x ) ( x i k − x j k ) γ h k ] 1 2 d_{ij}=\left[\cfrac{1}{p^2}\sum_{h=1}^p\sum_{k=1}^p(x_{ih}-x_{jx})(x_{ik}-x_{jk})\gamma_{hk}\right]^{\frac{1}{2}} dij=[p21h=1∑pk=1∑p(xih−xjx)(xik−xjk)γhk]21
其中 γ h k \gamma_{hk} γhk表示两变量标准化处理后⼆者之间的相关系数。
当各变量之间不相关时,斜交空间退化为欧式距离。
设 x i = ( x i 1 , x i 2 , ⋯ , x i p ) x_i=(x_{i1},x_{i2},\cdots,x_{ip}) xi=(xi1,xi2,⋯,xip)和 x j = ( x j 1 , x j 2 , ⋯ , x j p ) x_j=(x_{j1},x_{j2},\cdots,x_{jp}) xj=(xj1,xj2,⋯,xjp)是第 i i i和第 j j j个样品的观测值,则⼆者之间的相似测度为:
γ i j = ∑ k = 1 p ( x i k − x ˉ i ) ( x j k − x ˉ j ) [ ∑ k = 1 p ( x i k − x ˉ i ) 2 ] [ ∑ k = 1 p ( x j k − x ˉ j ) 2 ] , γ i j ≤ 1 \gamma_{ij}=\cfrac{\sum_{k=1}^p(x_{ik}-\bar x_i)(x_{jk}-\bar x_j)}{\sqrt{[\sum_{k=1}^p(x_{ik}-\bar x_i)^2][\sum_{k=1}^p(x_{jk}-\bar x_j)^2]}},\gamma_{ij}\le 1 γij=[∑k=1p(xik−xˉi)2][∑k=1p(xjk−xˉj)2]∑k=1p(xik−xˉi)(xjk−xˉj),γij≤1
夹⻆余弦时从向量集合的⻆度所定义的⼀种测度变量之间亲疏程度的相似系数。设在 n n n维空间的向量为:
x i = ( x 1 i , x 2 i , ⋯ , x n i ) ′ , x j = ( x 1 j , x 2 j , ⋯ , x n j ) ′ , x_i=(x_{1i},x_{2i},\cdots,x_{ni})',x_j=(x_{1j},x_{2j},\cdots,x_{nj})', xi=(x1i,x2i,⋯,xni)′,xj=(x1j,x2j,⋯,xnj)′,
夹⻆余弦可以表示为:
c i j = cos α i j = ∑ k = 1 n x k i x k j ∑ k = 1 n x k i 2 ∑ k = 1 n x k j 2 d i j 2 = 1 − c i j 2 c_{ij}=\cos\alpha_{ij}=\cfrac{\sum_{k=1}^nx_{ki}x_{kj}}{\sqrt{\sum_{k=1}^nx_{ki}^2\sum_{k=1}^nx_{kj}^2}}\\ d_{ij^2}=1-c_{ij}^2 cij=cosαij=∑k=1nxki2∑k=1nxkj2∑k=1nxkixkjdij2=1−cij2
两个向量正交的时候夹角为π/2