基因组生物信息学实验(三):基因组模拟测序(1)

基因组模拟测序(1):主线的内容

step1:方法
通过 NCBI 的子库 Genome 获得 YJM1386 菌株的基因组测序数据。
使用 art 系列软件中的 art_illumina 程序,对下载基因组序列进行
测序平台为 Hiseq2000 的全基因组测序模拟 5 次,
参数设置见下表。统计模拟结果,计算理论覆盖度(m)、丢失率和覆盖率。

-l -f -m -s
第一次 100 2 150 10
第二次 100 4 150 10
第三次 100 6 150 10
第四次 100 8 150 10
第五次 100 10 150 10

step2:涉及的脚本

#其它参数保持一致,修改 f 值做 5 次测序模拟,f=2,4,6,8,10
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 2 -m 150 -s 10 -o ./result/Sc_paired_dat_a
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 4 -m 150 -s 10 -o ./result/Sc_paired_dat_b
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 6 -m 150 -s 10 -o ./result/Sc_paired_dat_c
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 8 -m 150 -s 10 -o ./result/Sc_paired_dat_d
art_illumina -ss HS20 -sam -i ./GCA_000977445.2_Sc_YJM1386_v1_genomic.fna -p -l 100
-f 10 -m 150 -s 10 -o ./result/Sc_paired_dat_e
#查看每个测序结果对应的 sam 文件的行数(在 sam 文件的文件夹下)
wc -l Sc_paired_dat_a.sam
wc -l Sc_paired_dat_b.sam
wc -l Sc_paired_dat_c.sam
wc -l Sc_paired_dat_d.sam
wc -l Sc_paired_dat_e.sam

step3:结果
假设,基因组大小为(total length): 12.1571 Mb,测序碱基总长度为1.7G。
由此可知:
覆盖度(m值)= 1.7G/ 12.1571 Mb = 1.71000/12.1571 ≈140
丢失率(e-m) = 1.58
10-61 ≈ 0%
覆盖率(1-e-m)≈ 100%

n 碱基总长度(Mb) 理论覆盖度 基因组大小(Mb) 实际覆盖度 丢失率 覆盖率
2518312 25.1832 2 12.6155 1.996 1.36*e^-1 86.41%
503762 50.3762 4 12.6155 3.993 1.84*e^-2 98.16%
755600 75.5600 6 12.6155 5.989 2.51*e^-3 99.75%
1259364 100.7472 8 12.6155 7.986 3.40*e^-4 99.97%
第五次 125.9364 10 12.6155 9.983 4.54*e^-5 99.99%

注释:n 代表 sam 文件中去掉注释行的行数。理论覆盖度(m)=碱基总长度
/基因组大小;碱基总长度=双端数据大小(l)*(sam 文件行数-注释行数)

step4:结论
随着 f 值的增大,覆盖率也随之增大。

你可能感兴趣的:(基因组)