2021-09-08 批次TCGA(1)

样本过滤完后,质控

先:样本过滤

 基因过滤

过滤完后,做质控,有下面三个图

箱线图,密度图

PCA图

层次聚类分析

现在做完后,究竟是先标准化还是先去去除批次差异

需要做批次矫正

因为在不同样本中,有一些基因的表达量是恒定的,可以以此为参照物来去除批次

标准化:limma-voom,deseq2,edger

差异分析可使用多个R包分析同一个数据,获得更稳定结果。

一般推荐至少3个生物学重复

批次效应去处的方法:可使用线性模型拟合,Combat等方法。

批次效应:TCGA,geo

批次校正有的时候差异并没有那么大,但是做一下显得更标准。

标准化用vst而尽量少用log2(counts+1)


Q:为什么要标准化?A:为了做下游分析(可视化或者聚类等)

Q:vst方差齐性转换和rlog的选择?A:对于大样本数据选择vst,小样本数据选择rlog,因为对于大样本数据,rlog运行时间长

Q:blind选择TRUE还是FALSE呢?A:如果期望许多或大多数基因(行)的计数有很大差异(通过实验设计可以解释),并且希望转换数据以进行下游分析,最好用FALSE


https://www.bioconductor.org/packages/devel/bioc/vignettes/DESeq2/inst/doc/DESeq2.html#contrasts

在GEO差异分析中,只是两组的差异比较,如果有截距,在后面的contrast.fit就不需要了

DEseq2的处理流程

grep的使用

来源:生信宝典

https://mp.weixin.qq.com/s/Vmhx_TGxNkQzkekf93Xl4w

不同样品的测序量会有差异,最简单的标准化方式是计算

counts per million (CPM),即原始reads count除以总reads数乘以1,000,000。

这种计算方式的缺点是容易受到极高表达且在不同样品中存在差异表达的基因的影响;这些基因的打开或关闭会影响到细胞中总的分子数目,可能导致这些基因标准化之后就不存在表达差异了,而原本没有差异的基因标准化之后却有差异了。

量化因子 (size factor, SF)是由DESeq提出的。其方法是首先计算每个基因在所有样品中表达的几何平均值。每个细胞的量化因子(size

factor)是所有基因与其在所有样品中的表达值的几何平均值的比值的中位数。由于几何平均值的使用,只有在所有样品中表达都不为0的基因才能用来计算。这一方法又被称为 RLE (relative log expression)

几何平均数

至少知道在程序内部发生了什么?

VST函数也是标准化


现在的问题有批次校正和logFC标准化


生信中都是方法,都有适用的范围

你可能感兴趣的:(2021-09-08 批次TCGA(1))