每个读者的大脑就是一套独立的无监督学习系统,根据各自的识别模型/方式来把实例进行分类.
K-means做聚类,需要先人为确定要聚类成多少类。K代表多少类。K自己定,
数据集X,里面N个unlabel的data
初始化每一个聚类的中心(随机从data里挑一些出来即可)
遍历所有data,计算每一个data和这些中心的距离。如果距离近的话则属于此中心所代表的类别。
更新中心,把所有属于 i 类的data加起来,取平均。
重复3、4步。
由下往上看。
计算5个data两两之间的相似性,将比较像的data做平均,得到它们之间的上一层节点。重复这个过程。
人为地选择要切在哪里。比如切在红线,则代表前三个data和后两个data分为两类。如果且在蓝色则代表前两个data、第三个data、后两个data,总共分为三类。
刚才做聚类时,是强制性的把某一个data归类于某一个class。这样时不准确的。因为一个data可能同时拥有多个class的特性,所以应该把它写成如图中vector一样。
这种从高维的vector(比如图像)转化成低维的vector,就叫做Dimension Reduction 。有function可以转,
此方法适用场合有限。如果data point的某一维都不变,就没有存在意义,可以去掉。
通过这种方式能够将样品从属性表示,到特征表示这个比较低维的空间中。方法有特征选择和PCA。
4.1做Dimension Reduction的好处
左边是data以螺旋状分布在3维空间里。但其实如右边的样子,以2维的空间就可以描述这些信息,这样就把简化了问题。
(1)首先要让样本在所投影到的维度上的方差尽量大
(2)PCA多维合并的优化函数,w的转置乘以协方差矩阵再乘以w,如图所示,找到一个w使得整个目标函数最大化。
(3)求解该优化函数,可以用neural network的方式,梯度递减;也可以用传统经典方法对这个函数进行求解,其中函数的解为协方差的最大特征值所对应的特征向量。
1是协方差矩阵S对应最大特征值f1的特征向量
(4)求解下一个维度,其中下一个维度的解为协方差矩阵所对应的第二大的特征值所对应的特征向量,因为协方差矩阵的特征向量依次正交。
PCA decorrelation:投影后数据在新的坐标的Cov各个维度之间是不相关的,也就是矩阵对角线外都为0,这样在做实现模型的时候可以减少参数,比如高斯假设的时候,各轴之间相关为0,那么减少了很多参数。