UPGMA法聚类分析——NTsys2.10e

NTsys是一款强大的统计分析软件,具有多个统计模型组件,在植物多样性分析中经常会用到。其中最主要的模块是聚类分析,常用的方法有UPGMA、CL等。简而言之,是一款稳定的、用于多变量统计的软件。

官网:http://www.appliedbiostat.com/ntsyspc/ntsyspc.html

NTSYSpc 2.10e的特点包括:

  • 强大的统计分析应用;
  • 多变量统计测试;
  • 不同的分析功能:主成分分析、相关性分析、对应分析、聚类分析等;
  • 绘制基因型分解树;
  • UPGMA、CL等不同的聚类方法;
  • 使用各种距离系数;
  • 完全可编辑的图表和导出功能;
  • 多维距离系数;
  • 适合分组和基因型的Ni-Lee系数;
  • 多变量分析和测试能力;
  • 距离因子与基因型检测的多样性;
  • 编辑绘制图标
    ……

1.数据格式

首先统计标记数据,将琼脂糖凝胶电泳图中清晰、无拖带、易分辨的条带记为“1”,反之则记为“0”。根据人工读带结果,在 Excel 表格中,行名为条带名称,列名为样本名称,建立矩阵,具体格式如下:


格式说明

其中最上面一行为注释信息:
*A1-1:表示数据为矩形数据矩阵;
*B1-175:表示共有175条条带;
*C1-100:表示共有100个样本;
*D1-0:没有缺失值,若有缺失,则用1表示。

2.数据格式转化

将EXCEL数据另存为97版Excel。在ntedit.exe中,将.xls格式转化为.nts格式:


ntedit.exe

File——open file in grid,导入.xls:



文件类型中选择Excel files,这里注意要关闭Excel文件,否则会报错,导入失败:

导入成功:



另存为.nts格式,file——save file as:

3.计算相似性矩阵

在ntsys.exe中进行后续计算:


ntsys.exe

在Similarity模块中选择Qualitative data,导入.nts数据,计算方法的矩阵系数coefficient选择DICE,指定输出文件位置及名称,随后进行运算compute:



运算结束:

4.聚类分析

在得到相似性矩阵后,在clustering模块中选择SAHN进行聚类分析,输入相似性矩阵结果,in case of ties选择FIND:


5.绘制聚类结果:

在Graphics模块中选择Tree plot,输入聚类分析结果,运算得到聚类图:



横坐标为相关系数,纵坐标为样本名称,根据自己的数据在合适的位置画一条竖线,进行类别划分:



图形的颜色、字体字号、横坐标范围等,都可以在option中的plot—option中进行调整,如当上图相关系数比较大时,可以设置x轴范围为0.75-1.0,设置方式如下:

每页中显示的样本数目,以及输出的分页数,在option中的plot—option下的phenogram中进行调整:


图形导出:file—print,在属性—布局中,可以选择页面大小,以及方向:


6.检验聚类结果:

对聚类结果的质量进行检验,在clustering模块中选择cophenetic values,输入文件为步骤4中聚类分析得到的结果文件:


随后,在Graphics模块中选择Matrix comparison plot,输入文件1为步骤3中得到的相似性矩阵,输入文件2为上面得到的check文件:

得到两组数据之间的相关性点图,可以查看相关性系数,相关性系数越高,证明聚类分析越准确。

引用转载请注明出处,如有错误敬请指出。

你可能感兴趣的:(UPGMA法聚类分析——NTsys2.10e)