温故而知新,刚入门的时候没有好好记笔记,现在补上
公众号:猪猪的乌托邦
覆盖度(Coverage):测序获得的序列占整个基因组的比例。即基因组上至少被检测到一次的区域,占整个基因组的比例。一般为「百分比」
深度(Depth):一般用1× 、2×、3×……表示。测序的得到的总碱基数与待测基因组大小的比值,即基因组中每个碱基被测到的平均次数,简而言之,测序的数据量比上参考基因组或者转录组的值。
PS:这两个概念在很多文章中的表述都不一样,具体要根据描述,是哪种概念
如图所示,两个概念在两个“维度”,描述了测序的情况(横向:覆盖度Coverage;纵向:深度Depth)
二者一定程度上决定了特定碱基位置发现的变异是否具有某种水平的可信度,如果有较高的深度和覆盖度,每个碱基被较多的Reads覆盖,因此碱基也有着较高的可信度。
对二者的要求因事而异:
测序方法 | 推荐深度 |
---|---|
全基因组测序(WGS) | 人类全基因组测序为30×~50×(具体取决于应用和统计模型) |
全外显子组测序 | 100 × |
RNA测序 | 检测罕见表达基因时,需要更高覆盖度和深度。 |
ChIP-Seq | 100 × |
更多NGS的Depth和Coverage建议参考:https://genohub.com/recommended-sequencing-coverage-by-application/
假设基因组大小为N,每次测序都可以在基因组的任意位置随即检测一个碱基,那么对于基因组上的一个固定位置的碱基,在一次测序中,该碱基被测到的概率是P(P=1/N),其他部分的概率为1-P,该碱基对于深度的分布,就是检测到n次的概率,服从泊松分布,由于概率极低,检测次数极大,该分布又接近于正态分布。
一般使用直方图呈现整个数据集测序情况。直方图通过显示不同深度下Mapped Reads所覆盖的参考碱基数量来表明整体覆盖度分布.
理想情况下,该图形状应类似泊松分布并且标准偏差较小,如左图所示。该分布有效的前提是:Reads随机分布于整个基因组,并且整个测序运行期间对Reads间真实重叠的检测能力不变。但出于各种原因,实际覆盖度直方图可能会很宽(即深度区间宽)或呈非泊松分布,如欠佳测序覆盖度直方图示例(右图)所示。
评估NGS测序的常用指标:
测序公司使用Illumina PE150的测序平台,双端测序技术,生成150 bp的reads,单端Reads数目为3300000,测序的基因组大小为760 Mb,那么:(1G=1024Mb;1Mb=1024kb;1kb=1000bp)
如果测1G的数据量,那么:
cd ~/tools && git clone https://github.com/shiquan/bamdst.git && cd bamdst
make
./bamdst -h
#需要一个bed文件
cat test.bed
# chr01 2983 10815
mkdir ~/t
./bamdst -p test.bed -o ~/t test.bam
#输出:
ls ~/t
#chromosomes.report depth_distribution.plot insertsize.plot uncover.bed
#coverage.report depth.tsv.gz region.tsv.gz
cat ~/t/chromosomes.report
#Chromosome DATA(%) Avg depth Median Coverage% Cov 4x % Cov 10x % Cov 30x % Cov 100x %
# chr01 100.00 4.23 3.0 95.77 44.34 6.83 0.00 0.00