几个距离概念及其应用举例

几个距离概念及其应用举例_第1张图片

作者:金良([email protected]) csdn博客:http://blog.csdn.net/u012176591


几个距离概念及其应用举例_第2张图片




几个距离概念及其应用举例_第3张图片


几个距离概念及其应用举例_第4张图片


几个距离概念及其应用举例_第5张图片几个距离概念及其应用举例_第6张图片

Pearson's correlation

参考文献及推荐阅读

    • 距离计算方法总结
      http://www.cnblogs.com/xbinworld/archive/2012/09/24/2700572.html 
    • 余弦距离、欧氏距离和杰卡德相似性度量的对比分析
      http://www.cnblogs.com/chaosimple/p/3160839.html
    • 相关系数计算例子
      http://www.360doc.com/content/10/0607/20/1616528_31825638.shtml
    • 杰卡德距离的完善的例子
      http://people.revoledu.com/kardi/tutorial/Similarity/Jaccard.html
    • 马氏距离(注意参与运算的向量和矩阵的维)
      http://zh.wikipedia.org/wiki/%E9%A9%AC%E6%B0%8F%E8%B7%9D%E7%A6%BB
    • 马氏距离的例子
      http://www.jennessent.com/arcview/mahalanobis_description.htm
      这里有两个例子,第一个例子的均值和方差来自要计算距离的数据集,所以最终画出的图示椭圆;第二个例子就不是这样的,所以做出的图不是椭圆。
    • 特征选择(四)-分散度,讲了巴氏(Bhattacharyya)距离等以及它们之间的演化关系
      http://blog.csdn.net/ycheng_sjtu/article/details/25568011
    • 讲了范数的概念
      http://zh.wikipedia.org/wiki/Lp%E7%A9%BA%E9%97%B4
    • 漫谈:机器学习中距离和相似性度量方法
      http://www.cnblogs.com/daniel-D/p/3244718.html
    • 距离和相似度度量
      http://www.cnblogs.com/bluepoint2009/archive/2012/09/16/2687343.html

相关代码:

\documentclass[11pt]{ctexart}
\usepackage{mathtools}
\usepackage{cases}
\usepackage{bm}
\usepackage{url}
\usepackage{draftwatermark}
\SetWatermarkText{金良山庄}
\SetWatermarkScale{0.7}%设置水印的显示大小
\usepackage{fancyhdr}
\usepackage{graphicx}
\usepackage{subfigure}
\usepackage{algorithm}
\usepackage{algorithmic}
\usepackage[top=2cm,bottom=2cm,left=1cm,right=1cm]{geometry}  
\begin{document}
熵是一种特殊的泛函,是函数的函数。对于函数分布p(x),H(p)是关于p(x)的函数。

自信息量$I(x)=-log(p(x))$,其他依次类推。

离散变量x的熵$H(x)=E(I(x))=-\sum\limits_{x}{p(x)lnp(x)} $

连续变量x的微分熵$H(x)=E(I(x))=-\int{p(x)lnp(x)dx} $

条件熵$H(y|x)=-\int\int{p(x,y)lnp(y|x)dydx}$

两个变量X和 Y 的联合熵定义为:

$H(X,Y)=-\int\int{p(x,y)lnp(x,y)dxdy}$
$H(x,y)=H(y|x)+H(x)$
若$x,y$独立,$H(x,y)=H(x)+H(y)$,此时对x的了解不能增进对y的了解。


交叉熵Cross Entropy

$H(p;q)=-\int{p(x)lnq(x)dx}$

很少见,通常使用KL距离

Kullback-Leibler divergence:$KL(p||q)$=-$\int{p(x)lnq(x)dx}-(-\int{p(x)lnp(x)dx})$=$H(p)+H(p;q)$=-$\int{p(x)ln{\frac{q(x)}{p(x)}}dx}$

p=q时,$KL(p||q)=0,H(p;q)=H(p)$

交叉熵与kl距离相差一个H(p)

当p未知而q已知时,通过改变KL中的p、q的位置,可以减少未知量,便于计算相似度。

 交叉熵是一种万能的Monte-Carlo技术,常用于稀有事件的仿真建模、多峰函数的最优化问题。交叉熵技术已用于解决经典的旅行商问题、背包问题、最短路问题、最大割问题等。这里给一个文章链接:A Tutorial on the Cross-Entropy Method

交叉熵算法的推导过程中又牵扯出来一个问题:如何求一个数学期望?常用的方法有这么几种:

概率方法,比如Crude Monte-Carlo
测度变换法change of measure
偏微分方程的变量代换法
Green函数法
Fourier变换法
在实际中变量X服从的概率分布h往往是不知道的,我们会用g来近似地代替h----这本质上是一种函数估计。有一种度量g和h相近程度的方法叫 Kullback-Leibler距离,又叫交叉熵,通常选取g和h具有相同的概率分布类型(比如已知h是指数分布,那么就选g也是指数分布)----参数估计,只是pdf参数不一样(实际上h中的参数根本就是未知的)。

基于期望交叉熵的特征项选择

$CE(w)=\sum\limits_{i}p(c_{i}|w)log\frac{p(c_{i}|w}{p(c_{i}}$

$p(ci|w)$表示在出现词条w时文档属于类别ci的概率。

交叉熵反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。

互信息Mutual Informantion

 yj对xi的互信息定义为后验概率与先验概率比值的对数。
 
$I(x,y)=log\frac{p(x|y)}{p(x)}=I(x)-I(x|y)$

互信息越大,表明y对于确定x的取值的贡献度越大。

系统的平均互信息

$I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)$

 可见平均互信息就是信息增益!

$I(X,Y)=KL(p(x,y)||p(x)p(y))=-\int\int{p(x,y)ln(\frac{p(x)p(y)}{p(x,y)})dxdy}$

互信息在特征选择中的应用

词条w与类别ci的互信息为

$MI(w,c)=log\frac{p(w|c)}{p(w)}$

p(w)表示出现w的文档点总文档数目的比例,p(w|ci)表示在类别ci中出现w的文档点总文档数目的比例。

对整个系统来说,词条w的互信息为

$MI_{avg}(w,c)=\sum\limits_{i}p(c)log\frac{p(w|c)}{p(w)}$

最后选互信息最大的前K个词条作为特征项。
\end{document}



你可能感兴趣的:(几个距离概念及其应用举例)