小知识汇总

谱聚类可以完成图形分割,它的基本想法是在空间中找到几个连通图(几类)同时保证各个连通图中类内的关系最为紧密,而类间的关系最为疏远(体现在连接的边上),这就相当于是做了一个图分割。
怎么通过谱这样一个矩阵的方式来实现分割的呢?
首先,计算各个点之间的连接边的权重构成矩阵表示,这个可以用很多方法来定义这个权重,也会导致不同的结果。有了权重之后,计算这些点的拉普拉斯矩阵。这个矩阵的求法很简单,把权重矩阵表示中每个点和自己的边的权重(肯定是0)换成自己和另外点的边的权重之和,同时将自己和另外点的权重变为负值就行。这样的拉普拉斯矩阵有很好的性质,它是半正定的矩阵,同时计算上的表现力非常强。然后我们对拉普拉斯矩阵作特征值分解,按从小到大排序后,取前K个(聚成K类)特征值。然后再用k-means的方法对这N个(样本点数)K维(K个特征值)向量进行聚类就完成了。

流形正则化挖掘了数据分布的几何形状,然后将其作为一个增加的正则化项,可以先有一个这样的概念,原来我们的分类器一般是有一个控制分类器复杂度的正则化项,现在按照这个方法我们增加了一个正则化项,这个正则化项就是用来控制样本分布的几何形状的。
这个方法的精髓就是用了有监督和无监督样本共同来挖掘这一个数据分布的几何结构。

如果只用有监督学习的话,在拿到较少样本的时候,只是在几类数据点间找到了一个分类面,但是这个分类面不一定是包含了数据真实的分布信息的。也就是说这样的一个分类面只是在就事论事,精度是不高的。可以看看下图,在这个图中我们只是在两个样本点中,找到了一个分类面,让你们再找一个测试样本来检验一下,这个正确率估计就和掷硬币差不多了。
但是如果加入了数据分布的信息,也就是说我们只要让电脑知道我们的样本是一个什么样子的分布,而不一定要把每一个分布的点都打上标签,这样得到的分类面就比较精确了。
在流形正则化中,用到的是谱方法来表示几何信息的。这儿有个前提假设,就是我们的数据是分布于嵌入在高位空间中的低维流形之上。有了这个假设,我们就可以根据谱得到一个平滑的正则化项了。

比较全面的L1和L2正则化的解释
https://baijiahao.baidu.com/s?id=1621054167310242353

你可能感兴趣的:(知识科普)