迹,最大平均差异,核函数等基本概念理解

1)trace(x),x为一方阵。 求二维方阵的迹,即该方阵对角线上元素之和(特征值之和)。同一个线性变换,在不同基底下的矩阵虽然不同,但其这些矩阵的迹相同。我们生活的世界是变化的,研究问题就要抓住这些变化中的不变量进行研究。

2)读一些文章时会碰到tied weights 或者weights are tied等说法,意思是比如在autoencoder中, 隐藏层的W 和输出的W’。可以选择让 W  =W T   这时我们称tied weights。

3)域适应中经常用到的术语,maximum mean discrepancy:最大平均差异。在双样本检车中,用于判断两个分布P和q是否相同,以不同的分布生成的样本空降作为函数f的分布,如果由这两个分布生成的足够多的样本在f上对应的输出的均值都相等,那么可以认为这些分布属于同一分布,因此可以用来度量两个分布之间的相似性。(一般会提到最小化最大平均差异)。
具体而言,基于MMD(maximize mean discrepancy)的统计检验方法是指下面的方式:基于两个分布的样本,通过寻找在样本空间上的连续函数f,求不同分布的样本在f上的函数值的均值,通过把两个均值作差可以得到两个分布对应于f的mean discrepancy。寻找一个f使得这个mean discrepancy有最大值,就得到了MMD。最后取MMD作为检验统计量(test statistic),从而判断两个分布是否相同。如果这个值足够小,就认为两个分布相同,否则就认为它们不相同。同时这个值也用来判断两个分布之间的相似程度。

4)核函数:在一些方法中需要假设训练样本是线性可分的,即存在一个划分超平面能将训练样本正确分类。然而在现实任务中,原始样本空间也许并不存在一个能正确划分两类的超平面。
对于这种问题可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。(且若原始空间是有限维的,即属性数有限,那么必然可以找到一个高维特征空间使样本可分。)
由于在求解高维特征空间时需要求解两个特征空间的内积。由于特征空间位数可能会很高,甚至可能是无穷维,因此直接计算其内积非常困难,因此就可以通过核函数的方式求解两个特征空间的内积。此时所用到的函数就称为核函数。

而模型的最优解可通过训练样本的很函数展开,这一展式被称为“支持向量展式”(support vector expansion).

从数学的角度理解,只要一个对称函数所对应的核矩阵半正定,它就可以作为核函数使用。对于一个半正定核矩阵,总能找到一个与之对应的映射。换言之,对于一个核函数都隐式的定义了一个称为“再生核希尔伯特空间”(reproducing kernel Hilbert Space)的特征空间。

常见的核函数有:
线性核,多项式核,高斯核(也成为RBF核),拉布拉斯核,sigmoid核。
(具体解释可见周志华老师机器学习一书。)

5)正定:一个 矩阵 对应一个 二次型函数,记为 f(x) .其中, f(x)=X  AX,X=(x1,x2,...,xn)   
如果不论 x 取什么值,f(x) 都大于0,即 f(x) 恒大于 0.则 二次型正定,矩阵A是正定矩阵.
如果是 大于等于 0,就是 半正定.

6)正则化:在周老师的书中是这么解释的,正则化可以理解为一种惩罚函数法,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望的目标。从贝叶斯估计的角度看,正则化项可认为是提供了模型的先验概率。

reference:
1)http://blog.csdn.net/a1154761720/article/details/51516273

你可能感兴趣的:(概念理解)