均值,中位数,正态分布和Kmeans

均值:

就是最普通的算术平均值,我们在使用该统计量对分布进行描述的时候是需要数据分布满足正态性的,因为只有满足正态性的时候均值才有意义,辅助理解这个原因,可以想一下为啥mean+/-3std 的区域包含99%以上的样本点就好了。

中位数:

即中间位置的数,当我们的分布中有少部分极端值会拉大整体的均值的值的时候,我们可以尝试使用中位数来表示整个数据的分布状态。

Kmeans:

聚类算法,具体过程如下(CS229-leture-note7a):

均值,中位数,正态分布和Kmeans_第1张图片


第一步是找寻最靠近当前聚类中心的所有样本点,计算方式欧式距离衡量。

第二步是求取属于当前簇的样本点的新的聚类中心,计算方法是当前簇的样本的均值就是新的聚类中心。

注意这里是均值,那么这说明了什么呢?这说明属于某个簇的样本点的集合我们是假设这个集合是服从正态分布的。

那么该集合所对应的各个属性也是需要符合正态分布的,这意味着什么呢?这意味着用Kmeans聚类的特征需要满足正态分布。

不满足的时候,我们需要将其正态化。常用的正态化方法有cox-box方法:

推荐两篇介绍正态化的文章:

http://mp.weixin.qq.com/s?__biz=MzAxMDA4NjU3OA==&mid=2652548058&idx=1&sn=35f73ef5a627b20c1fd29e3eb3ed8b33&scene=21#wechat_redirect

http://health.sohu.com/20160423/n445811944.shtml

你可能感兴趣的:(均值,中位数,正态分布和Kmeans)