聚类分析

一、聚类分析介绍

  • 基本概念:cluster analysis 是研究物以类聚的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析作分类研究。
  • 分析方法:系统聚类法(hclust)和快速聚类法(kmeans).
  • 聚类分析的类型:Q型聚类:对样品的聚类;R型聚类:对变量的聚类 
  • 聚类统计量:

                                  聚类分析_第1张图片

二、系统聚类法

  • 基本思想:先将各样品分成类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止,并把这个过程做成一张系统聚类图。
  • 类间距离计算方法:

                     聚类分析_第2张图片

                      聚类分析_第3张图片

  • 系统聚类法过程

           聚类分析_第4张图片

  • 系统聚类法R语言步骤

                  聚类分析_第5张图片

R代码:

data1=read.table('clipboard',header =T )
dist(data1)
dist(data1,method = 'manhattan')

hc=hclust(dist(data1),'single')

names(hc)

data.frame(hc$merge,hc$height)

plot(hc)

rect.hclust(hc,3) #加分类框

cutree(hc,9:1)#显示分类结果

三、快速聚类法

  • 概念:kmeans 法是一种快速聚类法,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中。
  • 原理:kmeans算法以k为参数,把n个对象分为k个类,事类内具有较高的相似度,类间的相似度最低。
  • 相似度:

                 

四、聚类分析特点

  • 系统聚类分析特点:综合性、形象性、客观性
  • kmeans算法:只有在类的均值被定义的情况下才能使用,对于噪声和孤立点是敏感的,这种数据对均值影响极大。
  • 关于变量变换:平移变换、极差变换、标准差变换、主成分变换、对数变换

你可能感兴趣的:(统计)