生信相关图表介绍

注:读懂图片的主要方法是看懂横轴和纵轴。

1.1 热图

输入数据是数值型矩阵、数据框
颜色的深浅表示数值的大小,上方/左侧有聚类
分类:
①相关性热图:数值大小即为相关性高低;
②差异基因热图:有分组,一行是一个基因在n个样本中的表达量,一列是一个样本中所有基因的表达量;
一个基因在不同样本间的表达量差异才是重点(横着比较)

相关性热图 Vs 差异基因热图.png
看热图.png

1.2 散点图&箱线图

散点图的横坐标index(数值下标),没有任何意义;每个点表示数据中某个列的某个值

箱线图:横坐标是分组(重复值),纵坐标是数值型向量。

箱线图示例.png

单个基因在两组之间的表达量差异 —— 箱线图

多基因的差异分析:主要根据logFC和P.value;
log2(FC) = log(x)-log(y);(logFC取值无特定值,可以设为mean+2sd)
log(x) —— 处理组表达量的log值的平均值;
log(y) —— 对照组表达量的log值的平均值;
logFC>0,treat > control,基因表达量上升;
logFC<0,treat < control,基因表达量上升;
而上调基因和下调基因时指表达量显著上升/下降的基因:P值
P.value :P值越小,-log10(P.value)越大差异越显著
P.value值的范围:p <0.01

1.3 PCA主成分分析

主成分分析也称主分量分析,旨在利用降维的思想, 把多指标转化为少数几个综合指标(即主成分) 。

根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大

每个小点为一个样本,每个颜色为一个分组,大点为整组的中心点。小点与小点之间的距离表示相似性。
最完美的分组:各自分组无重叠,组内样本比较集中,组间距离大。

image.png

【补】横纵的Dim:主成分的占比。一般在别的统计分析中横纵坐标总共得占90%之上的才算有统计学意义的数据。但此处只需要观察两个分组间的差异即可。

1.4 火山图

主要用于展示基因表达水平差异。
输入数据: "logFC", "P.Value","change"
① change是定义颜色的,也可以不加;
② "logFC"(横轴), "P.Value"(纵轴)是差异基因分析产生的列。

横轴logFC:log2 fold change差异表达倍数,正负代表基因表达量的上下调,差异越大越靠近X轴边缘。
纵轴是P.Value经“-log10( )”处理的结果,理论上P值越小表示越显著,即y轴值越大就表示差异越显著。

有标记的火山图

你可能感兴趣的:(生信相关图表介绍)