机器学习课程笔记---聚类

应用
机器学习课程笔记---聚类_第1张图片
评价指标
机器学习课程笔记---聚类_第2张图片
机器学习课程笔记---聚类_第3张图片
距离
机器学习课程笔记---聚类_第4张图片

k-means算法

前提要选取k个点
机器学习课程笔记---聚类_第5张图片
重心点不变了就可以。

存在的问题

1、初始点
2、k,从1开始试,慢慢增加,看趋势
机器学习课程笔记---聚类_第6张图片

聚类之前需要做的事
!!!一定要归一化,不同维度的值统一到一个范围中。
机器学习课程笔记---聚类_第7张图片
以及均值中心化。

2、k-means++

机器学习课程笔记---聚类_第8张图片
这里的概率就是用轮盘赌算法

机器学习课程笔记---聚类_第9张图片

对于数值型的,可以算距离;对于离散的属性,怎么算距离?

K-prototype

机器学习课程笔记---聚类_第10张图片
为了防止分类距离对整体距离的影响
机器学习课程笔记---聚类_第11张图片
还与分类属性的取值频度也有关系,比如某个属性上样本之间取值都一样,但是并不代表没有距离。

快速峰值密度搜索聚类

假设
机器学习课程笔记---聚类_第12张图片

每个点画个圈,数点表示密度;
离另一个密度大的点的距离
B图是决策图
聚类中心点自动剔除,以及删除异常点。

快,体现在只算一次。
机器学习课程笔记---聚类_第13张图片

你可能感兴趣的:(#,课堂笔记,机器学习)