学习:StatQuest-分位数与百分位,Q-Q图,分位数标准化

分位数/百分位数

举个例子,我们将某样本的基因表达量按表达量降序排列在坐标轴上:


image.png

我们取中位数,该中位数即50%分位数,表示比它大的数占总体的50%,比它小的数占总体的50%
按照这个标准,可取25%分位数,75%分位数


image.png

Q-Q图

接着上个例子,


image.png

我们做出15给基因的表达量


image.png

根据每个基因的表达情况求出相应的分位数,然后画出任意做出个正态曲线,因为有15个数据点,所以在正态曲线上可以分为16个面积相等的group,即每个group是等可能的,结合分位数的概念不难理解,每块“面积”代表含百分之多少的数据点
image.png

接下来以正态分布的横坐标为横坐标,以分位数为纵坐标,将分位数横线与正态曲线的交点画上去,


image.png

若数据符合正态分布,那么应该是拟合成一条直线

分位数标准化

标准化最大的意义是能够更正技术产生的影响,却不改变生物学重复之间的差异。
如何进行分位数标准化,假设我有三个样本,4个基因的表达情况:

  1. 首先计算每个样品表达量最高的基因的均值,然后将该均值画到新的坐标中


    image.png
  2. 依次计算第二高的,第三高的,第四高的........
  3. 对应画到新坐标上


    image.png

    这个过程就称为分位数标准化

你可能感兴趣的:(学习:StatQuest-分位数与百分位,Q-Q图,分位数标准化)