聚类属于 无监督学习方法 ,其是想要寻求数据内在的分布结构,也可以用作分类等用途。例如商业应用中对新用户的类型进行判别,但是直接判别不是很同意,通常是先对用户数据进行聚类,形成簇以后再对这些类别进行分类器的训练,用来判定新用户的类型。
这里主要就是我们所熟知的闵可夫斯基距离度量公式:
d i s t ( x i , x j ) = ( ∑ u = 1 n ∣ x i u − x j u ∣ p ) 1 p dist\left ( x_i,x_j \right )=\left ( \sum_{u=1}^{n}\left | x_{iu}-x{ju} \right |^p \right )^\frac{1}{p} dist(xi,xj)=(u=1∑n∣xiu−xju∣p)p1
这里主要需要提一点就是,当某些属性不可直接用作距离计算时,例如 {飞机,火车,轮船}
这种离散属性,称为 无序属性,相应的可直接用于距离度量的属性称为 有序属性。
对于无序属性,可以用 VDM (Value Difference Metric),即 m u , a , i m_{u,a,i} mu,a,i 表示第 i 个样本簇中属性 u u u 上取值为 a a a 的样本数, m u , a m_{u,a} mu,a 表示属性 u u u 上取值为 a a a 的样本数, k k k 为簇的数量。
V D M p ( a , b ) = ∑ i = 1 k ∣ m u , a , i m u , a − m u , b , i m u , b ∣ p VDM_{p}\left ( a,b\right ) = \sum_{i=1}^{k} \left | \frac{m_{u,a,i}}{m_{u,a}} - \frac{m_{u,b,i}}{m_{u,b}}\right |^p VDMp(a,b)=i=1∑k∣∣∣∣mu,amu,a,i−mu,bmu,b,i∣∣∣∣p
如果样本属性为混合属性,既有有序属性也有无序属性,则将上述两种距离度量结合即可。
思路:
这种方法时采用概率模型的方法,假设数据分布是由 k 个混合高斯分布组成的。
主要提到的是 DBSCAN 算法,首先需要明确几个概念,再理解起来这个聚类算法就不是很难了。
一般是指以 AGNES 为代表的聚合算法,以自底而上的的聚合层次算法,,根据合并的距离计算不同分为,最小距离,最大距离,平均距离,相应的算法称为 单链接,全链接,均链接算法。先将数据中的每一个样本都看作一个初始聚类簇,然后算法每一步找距离最近的两个聚类簇进行合并,不断重复,直到达到预设的聚类簇个数。
降维算法主要有: PCA,核PCA,流行学习(Isomap算法,局部线性嵌入(LLE),拉普拉斯特征映射(LE)等),度量学习(马氏距离,得到权重矩阵,可以进行特征值分解成低秩的矩阵,达到降维效果)
还有就是聚类,编码器等。
主要是根据给定的样本属性,直接计算出相应的后验概率,根据假设条件的不同,假设样本间相互独立的强假设就是朴素贝叶斯分类器,而假设条件只考虑其中一部分属性间的互相依赖信息则为半朴素贝叶斯分类器。