最大均值差异 Maximum Mean Discrepancy(MMD)

最大均值差异MMD用于衡量两个分布之间的相似性,迁移学习中经常用其来衡量源领域和目标领域的差异性。它的基本假设是:如果对于所有以分布生成的样本空间为输入的函数f,两个分布生成的样本足够多,且其对于函数f所有对应值的均值都相等,那么可以认为这两个分布是同一个分布。

如何用MMD来衡量两个分布的相似性?
简单来说,就是找一个在样本空间的连续函数f,将两个分布的样本在f上的均值相减,要求函数f使这个差值最大。

s u p f E x ( f ( x ) ) − E y ( f ( y ) ) {sup_f E_x(f(x)) - E_y(f(y))} supfEx(f(x))Ey(f(y))

A kernel two sample test这篇文章表明对于再生核希尔伯特空间(RKHS)的MMD,符合要求的函数F在RKHS中是一个单位球。总而言之就是,高斯或者拉普拉斯函数。

代码可以参考这里

你可能感兴趣的:(迁移学习,MMD)