1.聚类性能的度量(内部指标): 当没有一个参考模型做对比的时候,可以采用如下内部指标衡量聚类结果。
2.量化模型(系统)稳定性: 例如当某一系统两个时段收集的样本集分别为X和Y,假设两个时段里X和Y各自服从某一种分布,可以通过如下相似度度量方法分析两个分布的相似度,从而判断系统关于时间的稳定性。
PS:距离度量要满足:非负性、同一性( d i s t ( x , y ) = 0 dist(x,y)=0 dist(x,y)=0,当且仅当x=y)、对称性、三角不等式;相似度度量则不做要求。
计算公式:
d i s t ( X , Y ) = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p dist(X,Y)=\big(\sum_{i=1}^{n}|x_i-y_i|^p\big)^\frac{1}{p} dist(X,Y)=(i=1∑n∣xi−yi∣p)p1
描述: p=2,即欧式距离;p=1,即曼哈顿距离;p= ∞ \infty ∞,即切比雪夫距离。
计算公式:
J ( A , B ) = ∣ A ⋂ B ∣ ∣ A ⋃ B ∣ J(A,B)=\frac{ |{A} \bigcap {B}| } {{ |{A} \bigcup {B}| }} J(A,B)=∣A⋃B∣∣A⋂B∣
描述: 该距离满足三角不等式,是对称,非负距离。
计算公式:
cos ( θ ) = x T y ∣ x ∣ ⋅ ∣ y ∣ = ∑ i = 1 n x i y i ∑ i = 1 n x i 2 ∑ i = 1 n y i 2 \cos(\theta) = \frac{x^Ty}{|x|\cdot|y|}= \frac{ \sum\limits_{i=1}^n x_iy_i }{ \sqrt{ \sum\limits_{i=1}^n x_i^{2} } \sqrt{ \sum\limits_{i=1}^n y_i^{2} } } cos(θ)=∣x∣⋅∣y∣xTy=i=1∑nxi2i=1∑nyi2i=1∑nxiyi
描述: θ \theta θ是n维向量x,y的夹角,根据余弦定理推出余弦值,作为余弦相似度。考虑为什么余弦值可以作为相似度度量?
对比余弦相似度公式,相关系数即当 μ X = 0 , μ Y = 0 \mu_{_X}=0,\mu_{_Y}=0 μX=0,μY=0。
计算公式:
ρ X Y = c o v ( X , Y ) σ X σ Y = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y = ∑ i = 1 n ( X i − μ X ) ( Y i − μ Y ) ∑ i = 1 n ( X i − μ X ) 2 ∑ i = 1 n ( Y i − μ Y ) 2 \rho_{_{XY}} = \frac{cov(X,Y)} {\sigma_{_X}\sigma_{_Y}} = \frac{ E[(X-\mu_{_X}) (Y-\mu_{_Y}) ] } {\sigma_{_X}\sigma_{_Y}} = \frac{ \sum\limits_{i=1}^n (X_i-\mu_{_X}) (Y_i-\mu_{_Y}) }{ \sqrt{ \sum\limits_{i=1}^n (X_i-\mu_{_X}) ^{2} } \sqrt{ \sum\limits_{i=1}^n (Y_i-\mu_{_Y}) ^{2} } } ρXY=σXσYcov(X,Y)=σXσYE[(X−μX)(Y−μY)]=i=1∑n(Xi−μX)2i=1∑n(Yi−μY)2i=1∑n(Xi−μX)(Yi−μY)
对比余弦相似度公式,: 当 μ X = 0 , μ Y = 0 \mu_{_X}=0,\mu_{_Y}=0 μX=0,μY=0,相关系数即为将X,Y坐标向量各自平移到原点后的余弦夹角。所以应用夹角余弦作为距离度量(文档间相似度),表征的就是去均值化的随机向量间的相关系数。
计算公式:
D ( p ∣ ∣ q ) = ∑ x P ( x ) log p ( x ) q ( x ) = E p ( x ) log p ( x ) q ( x ) D(p||q) = \sum_{x}P(x)\log{ \frac{p(x)}{q(x)} } = E_{p(x)}\log{ \frac{p(x)}{q(x)} } D(p∣∣q)=x∑P(x)logq(x)p(x)=Ep(x)logq(x)p(x)
描述:
自信息:一个事件 X = x X=x X=x 的自信息为 I ( x ) = − log p ( x ) I(x) = -\log{p(x)} I(x)=−logp(x) 。
单位奈特(无所谓),要知道一个单位代表的物理含义:以 1 e \frac{1}{e} e1的概率观测到一件事时获得的信息量。
自信息只处理单个的输出。下面熵出现,直接把整个分布X中的不确定性总量进行量化。
熵(entropy): H ( p ) = − ∑ i n p ( X = x i ) log ( p ( X = x i ) ) H(p)=-\sum\limits_{i}^n{ p(X=x_i) \log{ \big( p(X=x_i)} \big) } H(p)=−i∑np(X=xi)log(p(X=xi))
实际上,熵是针对一个分布而言的,即求解分布 X X X~ P ( x ) P(x) P(x)中所有可能事件 x x x的自信息的期望和:
H ( X ) = E X − P [ I ( x ) ] = − E X − P [ log P ( x ) ] H(X) = E_{_{X-P}} [I(x)] = -E_{_{X-P}}[\log{P(x)}] H(X)=EX−P[I(x)]=−EX−P[logP(x)]
解释:
熵的计算公式: H ( p ) = − ∑ i n p i log p i H(p)=- \sum\limits_{i}^n{ p_i \log p_i } H(p)=−i∑npilogpi 包含3个元素:
到这里打住…经验熵=基于极大似然估计的熵、熵-条件熵=互信息(决策树中的信息增益)、熵+KL散度=交叉熵 ⋯ \cdots ⋯
计算公式:
D α ( p ∣ ∣ q ) = 2 1 − α 2 ( 1 − ∫ p ( x ) 1 + α 2 q ( x ) 1 − α 2 d x ) D_\alpha(p||q) =\frac {2}{1-\alpha^2} \bigg( 1- \int{ p(x) ^{ \frac {1+\alpha}{2} } q(x) ^{ \frac {1 - \alpha}{2} } } dx \bigg) Dα(p∣∣q)=1−α22(1−∫p(x)21+αq(x)21−αdx)
描述: 该距离满足三角不等式,是对称,非负距离。