数据的距离度量 三、Jaccard距离,卡方相似度,相关系数,Dice系数

数据的距离度量 三、Jaccard距离,卡方相似度,相关系数,Dice系数

  • Jaccard距离
  • 卡方相似度
  • 相关系数
  • Dice系数

Jaccard距离

用于衡量两个集合A,B的样本相似度,距离越接近1的两个集合相似度越小:
J a c c a r d ( A , B ) = 1 − A ∩ B A ∪ B Jaccard(A,B)=1 - \frac{A \cap B}{A \cup B} Jaccard(A,B)=1ABAB

卡方相似度

用于衡量两个向量(样本)之间的相似性:
C h i − S q u a r e ( u , v ) = ∑ i 2 u i v i u i + v i , ∑ i u i = ∑ i v i = 1 Chi-Square(u,v)=\sum_i\frac{2u_iv_i}{u_i+v_i},\quad \sum_iu_i=\sum_iv_i=1 ChiSquare(u,v)=iui+vi2uivi,iui=ivi=1

相关系数

用于衡量两个样本之间的相关性:
ρ ( X , Y ) = C o v ( X , Y ) σ ( X ) σ ( Y ) \rho(X,Y)=\frac{Cov(X,Y)}{\sigma(X)\sigma(Y)} ρ(X,Y)=σ(X)σ(Y)Cov(X,Y)

Dice系数

常用于语义分割,用于度量两个集合的相似性:
D i c e ( A , B ) = 2 ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ Dice(A,B)=\frac{2|A\cap B|}{|A|+|B|} Dice(A,B)=A+B2AB

你可能感兴趣的:(概率论与机器学习,python,算法)