由生物学重复引发出来的思考

太长不看系列

技术重复:一个样本重复多次

生物学重复:同一批次每个生物重复一次(多次)

当生物学重复之间存在相关性,需要考虑有效样本数(effective sample size)

effective genome size和effective sample size不一样,不要混为一谈

废话超多系列

首先我们区分一下生物学重复和技术重复,有的人可能不屑一顾,和我的反应一样。但是别着急,答应我先区分下面两种情况属于什么重复,答对了再嘲讽我好么?

现在有一只小鼠A,我们对它的肌肉组织取样,连续三次检测其基因表达水平

现在有一只小鼠A,我们连续三次对它的肌肉组织取样,然后分别对该样品进行测序

文字不方便理解的话,可以看下面的图示:

由生物学重复引发出来的思考_第1张图片

事实上,这两种重复都是属于技术重复,因为它们都是针对的一只小鼠做的实验(一个生物)。但是这两种技术重复的侧重点有些许不同。

第一种技术重复,重点是RNA-seq检测方法的准确度。比如当你发现了一个新的检测基因表达量的方法,就需要用这种重复来验证该方法的准确度

第二种技术重复,重点是检测这个小鼠本身的基因表达水平,而非检测方法。

那么,什么是生物学重复呢?比如我有一群小鼠,我挑选其中三只,做相同处理,然后分别取样检测基因表达水平:

由生物学重复引发出来的思考_第2张图片

这是因为,我们的每一次测量都来自于不同的小鼠(生物)。除此之外,我们还可以知道,生物学重复研究的重点从个体转移到了这类群体。

既然有了重复(有了不同的样本),我们接下来需要考虑的就是样本数的问题:

如果我们对检测基因表达水平的方法感兴趣,那我们的样本数与技术重复相关:

下面的情况,样本数为3(三个技术重复):

由生物学重复引发出来的思考_第3张图片

假如我们对于蓝色小鼠这一族群感兴趣:

下面的情况,样本数为3:

由生物学重复引发出来的思考_第4张图片

下面的情况,样本数依然为3,这是因为技术重复不影响我们关注的重点(技术重复关注的是个体或者是方法的准确度)

由生物学重复引发出来的思考_第5张图片

假如我们对小鼠的某一族群感兴趣,我们对三种颜色的小鼠都检测一下基因表达:

由生物学重复引发出来的思考_第6张图片

但是,如果蓝色小鼠有一个双胞胎弟弟,那么此时的样本数是多少呢?是3还是4呢?

由生物学重复引发出来的思考_第7张图片

事实上,样本数介于3和4之间。这个时候,样本数不再是简单的加和,而是要考虑有效样本数(effective sample size)。计算公式如下:

此时我们需要关注这两只蓝色小鼠的相关性,若相关系数为0.7,则这俩双胞胎所代表的样本数为2/(1+(2-1)*0.7)=2/(1+0.7)=1.18

若相关系数为0.1,则这俩双胞胎所代表的样本数为2/(1+(2-1)*0.1)=2/(1+0.1)=1.82

由此可知,两个双胞胎小鼠的相关性越低,所代表的样本数越大。相关性越大,则所代表的样本数越小。甚至若二者完全相同,我们可以把他们看作是一个(把他们看作是技术重复,不影响样本数)

写在后面的话

需要注意的是,很多人使用过deeptools,里面涉及到一个effectiv genome size的定义。该定义与effective sample size完全不同,千万不要混淆。

effective genome size 相当于是去除了基因组中为N的那些碱基之后的长度。

你可能感兴趣的:(由生物学重复引发出来的思考)