生信相关图表介绍

注：读懂图片的主要方法是看懂横轴和纵轴。

1.1 热图

输入数据是数值型矩阵、数据框
颜色的深浅表示数值的大小，上方/左侧有聚类
分类：
①相关性热图：数值大小即为相关性高低；
②差异基因热图：有分组，一行是一个基因在n个样本中的表达量，一列是一个样本中所有基因的表达量；
一个基因在不同样本间的表达量差异才是重点（横着比较）

相关性热图 Vs 差异基因热图.png

看热图.png

1.2 散点图&箱线图

散点图的横坐标index（数值下标），没有任何意义；每个点表示数据中某个列的某个值

箱线图：横坐标是分组（重复值），纵坐标是数值型向量。

箱线图示例.png

单个基因在两组之间的表达量差异 —— 箱线图

多基因的差异分析：主要根据logFC和P.value；
log2(FC) = log(x)-log(y)；（logFC取值无特定值，可以设为mean+2sd）
log(x) —— 处理组表达量的log值的平均值；
log(y) —— 对照组表达量的log值的平均值；
☞ logFC>0，treat > control，基因表达量上升；
☞ logFC<0，treat < control，基因表达量上升；
而上调基因和下调基因时指表达量显著上升/下降的基因：P值
P.value ：P值越小，-log10(P.value)越大，差异越显著；
P.value值的范围：p <0.01

1.3 PCA主成分分析

主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标（即主成分）。

根据这些主成分对样本进行聚类，代表样本的点在坐标轴上距离越远，说明样本差异越大

每个小点为一个样本，每个颜色为一个分组，大点为整组的中心点。小点与小点之间的距离表示相似性。
最完美的分组：各自分组无重叠，组内样本比较集中，组间距离大。

image.png

【补】横纵的Dim：主成分的占比。一般在别的统计分析中横纵坐标总共得占90％之上的才算有统计学意义的数据。但此处只需要观察两个分组间的差异即可。

1.4 火山图

主要用于展示基因表达水平差异。
输入数据： "logFC", "P.Value","change"
① change是定义颜色的，也可以不加；
② "logFC"（横轴）, "P.Value"（纵轴）是差异基因分析产生的列。

横轴logFC：log2 fold change差异表达倍数，正负代表基因表达量的上下调，差异越大越靠近X轴边缘。
纵轴是P.Value经“-log10( )”处理的结果，理论上P值越小表示越显著，即y轴值越大就表示差异越显著。

有标记的火山图