在线作图丨数据降维方法①——主成分分析PCA

Q:PCA是什么?
主成分分析算法(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度,同时保留住较多的原数据点的特性。PCA降维的目的,就是为了在尽量保证“信息量不丢失”的情况下,对原始特征进行降维,也就是尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到这些维度上,使降维后信息量损失最小。


image.png

Q:PCA和PCoA的区别
PCoA(Principal Co-ordinates Analysis)分析即主坐标分析,可呈现研究数据相似性或差异性的可视化坐标,是一种非约束性的数据降维分析方法,可用来研究样本群落组成的相似性或相异性。它与PCA类似,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样本点之间的相互位置关系,只是改变了坐标系统。两者的区别为PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分,而PCoA是基于距离矩阵(欧式距离以外的其他距离)来寻找主坐标。

Q:如何不使用R语言在线生成一个PCA图?
云图图(www.cloudtutu.com)可以画,操作步骤如下:
①登录网址:www.cloudtutu.com(推荐使用360或者谷歌浏览器)
②输入用户名和密码(小编已经为大家填好了,如果不显示可添加文末二维码添加小编获取),输入验证码后即可登录;
③登录后在工具一栏(高级分析)里找到微生物曼哈顿图,点击进入;
④请按照界面右侧的说明书或者下文进行操作,即可在2分钟内获得一张精美的PCA图喽~
话不多说,我们开始行动吧~

Step 1 上传文件
※目前平台仅支持.txt(制表符分隔)文本文件或者.csv文件的文件上传;平台可对不规范的数据格式进行部分处理,但还是请您尽量按照示例数据的格式调整数据,以便机器可以识别。数据形式见示例数据:
a) 准备一个数据矩阵(如微生物物种丰度表、基因表达量矩阵、代谢物含量表,也可以是测量数据,例如身高、体重、表型等);
b) 表格需要带表头和列名,每一列为样本名,每一行为各种指标名,例如OTU,基因ID、身高、代谢物名称等。


image.png

Step 2 设置参数
2.1方法选择:
a) hellinger,hellinger转化,就是总和标准化数据的平方根(default MARGIN=1),hellinger转化后的数据使用欧氏距离函数计算将得到hellinger距离矩阵。
b) normalize,模标准化,将数据除以每行或者每列的平方和的平方根(default MARGIN=1),模标准化后每行、列的平方和为1(向量的模为1),也即在笛卡尔坐标系中到原点的欧氏距离为1,样品分布在一个圆弧上,彼此之间的距离为弦长,因此也称为弦转化。在基于欧氏距离的PCA、RDA中分析群落数据可以将每个样方弦转化可以弥补欧氏距离的缺陷。弦转化后的数据使用欧氏距离函数计算将得到弦距离矩阵。
c) standardize,z-score标准化,最常用的标准化方法之一,将数据减去均值比上标准差(default MARGIN=2),z-score标准化后数据均值为0,方差为1,服从正态总体的数据标准化后服从标准正态分布。z-score标准化可以去除不同环境因子量纲的影响。
d) total,总和标准化,将数据除以该行或者列的总和,也即求相对丰度(default MARGIN=1),总和标准化后数据全部位于0到1之间。
e) max,最大值标准化,将数据除以该行或者列的最大值(defaultMARGIN=2)。若数据非负,最大值标准化后数据全部位于0到1之间。
f) freq,数据矩阵除以行或列的最大值,并乘以非零值的个数
g) range,Min-max标准化,将数据减去该行或者列的最小值,并比上最大值与最小值之差(defaultMARGIN=2),Min-max标准化后的数据全部位于0到1之间。
h) pa, 将数据转换为有-无(1-0)类型,若分析不加权的情况群结构下可以使用。
i) chi.square",卡方转化,在默认(defaultMARGIN=1)的情况下是数据除以行的和再除以列的和的平方根,卡方转化后的数据使用欧氏距离函数计算将得到卡方距离矩阵。
j) log, 将数据(样本观察值)取自然对数(或者其他数为底的对数),可以使用log()函数来实现(log1p()可以将数据加1后取自然对数)。若是数据中有0或负值,可以全部数据加上一个数转换为正数。一般来说自然对数转换可以使0~1范围内的数据范围变大,可以使>1范围内数据范围变紧凑。
2.2 横/纵坐标字体大小:根据需求酌情选择。
2.3 元素大小:图中代表样品的图表的大小。
2.4 是否添加椭圆:
椭圆一:按照正常计算方式得到分组椭圆(有些数据可能加不上分组椭圆)
椭圆二:对无法添加正常椭圆的数据强行添加分组椭圆。
否:不添加分组椭圆
2.5 椭圆的粗细:调节椭圆边界线条的宽度,选择“0”则没有椭圆边框。
2.6 是否显示标签:是否在元素旁边显示样品名称。
2.7 分组信息:整个页面的右下角(图片的下方)
需要对所有样品进行分组,本网站支持在线修改分组名称和样品名称的功能。
2.8 筛选显示种类:根据自己的需要,可以选择需要用的样品进行作图。

Step 3 下载文件
根据个人需求进行参数调整后点击运行后等待5-10秒即可下载结果,平台提供PDF格式的矢量图下载。


image.png

Step 4 作图后处理
TUTU云平台提供的是PDF格式的矢量图,可通过矢量图处理软件(Inkscape或AI)进行编辑和调整(如:文字字体,文字大小,图片分辨率等)。

Step 5 写作建议
PCA analysis was performed on Tutools platform (http://www.cloudtutu.com), a free online data analysis website.
Principal component analysis (PCA) of the profiling data from the intestinal metabolome. C57BL/6 mice from three breeders were divided into two groups: untreated mice (Clea, Charles river (Cr), and Slc) and antibiotic-treated mice (CleaA, CrA, and SlcA). CE-TOFMS-based metabolomics was performed.

你可能感兴趣的:(在线作图丨数据降维方法①——主成分分析PCA)