无监督学习——聚类之DBSCAN密度聚类

一、介绍:

聚类的时候不需要预先指定簇的个数

最终的簇的个数不定

二、三种点:

核心点:在半径Eps内含有超过MinPts数目的点

边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内

噪音点:既不是核心点也不是边界点的点

三、算法流程:

1.将所有点标记为核心点、边界点或噪声点;

2.删除噪声点;

3.为距离在Eps之内的所有核心点之间赋予一条边;

4.每组连通的核心点形成一个簇;

5.将每个边界点指派到一个与之关联的核心点的簇中(哪一个核心点的半径范围之内)。

四、应用:

通过DBSCAN聚类,分析学生上网时间和上网时长的模式。

五、sklearn中DBSCAN的参数说明:

eps: 两个样本被看作邻居节点的最大距离

min_samples: 簇的样本数

metric:距离计算方式

github地址:

https://github.com/hanleirx/sklearn/tree/master/DBScan

发现很多语法都不会,看来还需要多看看文档啊

你可能感兴趣的:(无监督学习——聚类之DBSCAN密度聚类)