Bregman divergence

Bregman divergence


Bregman 散度(Bregman divergence or divergence distance)是一种类似于距离度量的方式,用于衡量两者之间的差异大小。

定义

可以认为,Bregman散度是损失或者失真函数。考虑如下情况:设点 p 是点 q 的失真或者近似的点,也就是说可能 p 是由 q 添加了一些噪声形成的,损失函数的目的是度量 p 近似 q 导致的失真或者损失,因而Bregman散度可以用作相异性函数

更为形式化地,定义函数 F:ΩR 。其中 Ω 是一个凸集 F 是一个严格凸二次可微函数
由该函数 F 生成的Bregman散度通过下面的公式给出:

DF(p.q)=F(p)F(q)F(q),(pq)

其中 F(q) 表示函数 F q 处的 梯度 (pq) 表示两个向量的差, F(q),(pq) F(q) (pq) 内积
以上公式的后半部分 L(p,q)=F(q)+F(q),(pq) 表示了函数F在 q 点附近的线性部分,而Bregman散度是一个函数与该函数的线性近似(一阶Taylor展开)之间的差,选取不同的函数F可以得到不同的Bregman散度。

性质

1. 不满足三角不等式,即对任意的x、y、z,以下不等式不一定成立:

DF(x,z)DF(x,)DF(,z)

2. 不满足对称性,即对任意x和y,下式不一定成立:
DF(x,y)=DF(y,x)

3. 非负性:对于所有的p和q,满足 DF(p,q)0 ,这一点是由函数F的凸性决定的;
4. 凸性: DF(p,q) 在第一个参数上是凸的,但是在第二个参数上不一定是;
5. 线性:如果我们将Bregman散度考虑为函 F 的操作符,那么它对于非负的系数是线性的。即对于严格凸且可微的函数 F1 F2 ,以及系数 λ0 ,满足:
DF1+λF2(p,q)=DF1(p,q)+λDF2(p,q)

6. 对偶性:函数 F 具有凸的共轭 F ,则 F 的Bregman散度与 DF(p,q) 存在着如下的联系:
DF(p,q)=DF(q,p)

其中, p=F(p) q=F(q) 是p和q的对偶点。

举例

选择不同的函数 F ,就可以得到不同的Bregman散度形式:

  • 欧式距离平方

    DF(x,y)=||xy||2

    是令 F(x)=||x||2 得到的。

  • 马氏距离平方

    DF(x,y)=12(xy)TQ(xy)

    是令 F(x)=12xTQx 得到的,这可以看作是以上欧式距离平方的推广。

  • KL散度

    DF(p,q)=p(i)logp(i)q(i)p(i)+q(i)

    是令 F(p)=p(i)logp(i)p(i) 得到的。

  • IS距离

    DF(p,q)=i(p(i)q(i)logp(i)q(i)1)

    是令 F(p)=p(i) 得到的。

你可能感兴趣的:(机器学习&数据挖掘)