对核函数的理解


核函数和映射没有关系。核函数只是用来计算映射到高维空间之后的内积的一种简便方法。

一般英文文献对Kernel有两种提法,一是Kernel Function,二是Kernel Trick。从Trick一词中就可以看出,这只是一种运算技巧而已,不涉及什么高深莫测的东西。

具体巧在哪里呢?我们如果想进行原本就线性不可分的数据集进行分割,那么选项一是容忍错误分类,即引入Soft Margin;选项二是我们可以对Input Space做Feature Expansion,把数据集映射到高维中去,形成了Feature Space。我们几乎可以认为(引用Caltech的课堂用语“We are safe but not certain”)原本在低维中线性不可分的数据集在足够高的维度中存在线性可分的超平面。

围绕选项二,那么我们所做的就是要在Feature Space套用原本在线性可分情况下的Input Space中使用过的优化方法,来找到那个Maximaizing Margin的超平面。原理机制一模一样,是二次规划,唯一不同是代入数据的不同,我们需要代入而不是。这时(在假设我们已知了如何选取mapping之后)才有了核函数的概念。

具体Trick的意义,就是简化计算二次规划中间的一步内积计算。也即中间步骤有一步必须求得,而我们可以定义核函数,使得我们在不需要显式计算每一个、甚至不需要知道长什么样的情况下,直接求出的值来。

也就是说,核函数、内积、相似度这三个词是等价的。因为inner product其实就是一种similarity的度量。核函数和映射是无关的。

但为什么这么多的认知中核函数是一种映射呢。一来这两件事一般先后进行,所以常常被混为一谈。二来就像前面所述,核函数让人们不需要知道 长什么样,不需要知道怎么选取映射,就能够算出内积。因此这常常被认作是一种implicit mapping。这是由Mercer Theorem保证的,即只要核函数满足一定条件,那么映射空间一定存在。


        核方法本身是应对高维投影的一种运算技巧。从理论思想上来说,确实是投影到高维空间后就有很大的可能性线性可分,也确实可以用这种思路找一种投影方式。而在求解类似SVM问题中,我们发现求解“高维”空间的分割超平面与求解原空间的分割超平面的区别只在于一个内积的差异而已。因此大家就都只用核方法来求解低维线性不可分问题啦,也不用真正求解这个投影是什么样啦

        核函数本身就是巧妙的跳过了如何从低维空间映射到高维空间这个过程,而直接求出了低维空间的两个向量在高维空间的内积,也就是说只要两个低维空间的向量输入到一个核函数之后,这个函数值就可以表示为:把这两个向量映射到某高维空间后的内积。 换个方法理解,即如果一个函数满足一定的条件( 具体什么条件不记得了)那么它就可以被当做核函数,并且这种函数的函数值一定 对应着这两个低维空间向量映射到某高维空间向量后的内积

注意一点:既然是技巧,那肯定是有条件的,核函数并不是随便拉一个函数就可以充当的,那么这个条件就是括号里面的红色的条件,具体可以自己查一下,忘记了。而且只要满足这个条件, 必然有这种 对应关系,从而可以直接求核函数的值即可,还有一个潜意识是:因为我们并不关心原来的低维向量映射到什么样的高维空间中去,所以只要有一个高维空间就行了,而且这个“有一个” 恰好对应着上一句的“ 必然

你可能感兴趣的:(算法)