标记数据(labelled data)与未标记数据(unlabelled data)
无监督学习(unsupervised techniques):和寻找未标记数据中的隐藏结构的问题相关。
例子:聚类(clustering), 密度估计(density estimation), 降维(dimensionality reduction)
给定m个对象的集合,每个对象拥有n个可衡量的属性。每个对象都是n维空间中的一个点。
对于选定的k值 (即聚类的数量),根据对象与第k组质心的临近度(proximity)来确定k个对象簇。
簇质心为每个簇中对象的n维向量的算术平均值。
通常作为分类(classification)的引导。
一旦识别出簇类,则可以将标签应用于每个簇类以进行分类。
使用内平方和(Within Sum of Sqaure, WSS)的启发式(heuristic)算法。WSS是所有数据点与其最近质心之间距离的平方和。如果这些点相对靠近它们各自的质心,那么WSS将相对较小。因此,如果k+1聚类没有显著降低k聚类中的WSS值,那么增加一个簇意义可能不大。
在结果生成之后,应该考虑以下问题:
如果多的簇数量并没有形成簇之间更好的区分,那么更少的簇应该是更好的选择。
必须做出以下决定:
对象属性:
在选择对象属性的时候,需要知道新对象的哪些属性在其被分配簇时是已知的。(比如当前的客户拥有满意度或购买频率属性,但是潜在客户可能没有这些信息)
尽量减少属性的数量:
度量单位(unit of measure)可能会影响聚类结果。
重新缩放属性(rescaling attributes)会影响聚类结果。(将每个属性除以其标准差 standard deviation)
K-mean聚类算法对初始质心(initial centroids)的开始位置是敏感的。因此,针对一个特定的k值运行多次k-mean分析是非常重要的,以确保聚类结果具有整体上最小的WSS。
除了欧几里得距离,还可以用曼哈顿距离(Mantattan distance)来分析聚类,此时,使用中位数(median)作为质心会比使用均值作为质心更好。
K-mean聚类算法适用于可以通过具有测量意义的数值属性来描述的对象。(区间和比率属性也是适用的)
但是,k-mean并不能很好地处理分类变量(categorical variable)。
此时,k-mode算法便可以作为针对分类变量地聚类方法使用了。比如,(a, b, c, d) 到 (d, d, d, d)之间距离是3,k-mode能感知得到。
有时候将分类变量转化为数值变量会更好。比如,{hot, warm, cold} -> {1, 0, -1}
k-mean 在以下情况表现不佳:
基于密度的聚类 定位 高密度区域(regions of high density)。这些区域彼此之间由低密度区域(regions of low density)分隔开。
换句话说,簇是数据中间中的密集区域,由较低对象密度的区域分割。
主要功能:
通过对数据集特定点的密度进行计数,方法是对该点的指定半径Eps内的点进行计数,这包括了当前点本身。
如图所示,在点A的Eps半径范围内,包括点A本身,点的数量是7。因此,A的密度就是7了。
给定密度阈值 density threshold(MinPts)和半径 radius(Eps), 数据集中的点分为三种类型:核心点(core point),边界点(boarder point)和噪声点(noise point)。
分层聚集聚类 (Hierarchical agglomerative clustering)
分层分裂聚类 (Hierarchical divisive clustering)