生物信息_Call_snp_by_soapsnp_全基因组

生物信息_Call_snp_by_soapsnp_全基因组

 

数据:
人全基因组(100多G,两个gz文件,已去接头,pe测序,90读长)
方法:call_snp_by_soapsnp
每步估计需要投多大(仅作参考):

Bwa(13G):
从两个clean.fq.gz到两个.sai再到一个.sam
注:在生成完sam之后检查有没有报错,没有就可以把.sai删掉
Get_uniq_map_reads(0.5G):
从.sam到.filter_sam
注:留意.filter_sam.stat中的过滤率(记下来,评估的时候用着),这次均为90多,确认正常。
Samtools_process(0.5G):
从.filter_sam到.bam,并对bam进行排序生成.sort.bam,对.sort.bam去重复得.rmdup.bam,最后建.rmdup.bam索引。
注:.bam生成之后可以删掉.filter_sam。在去重复之后统计一下去重复率分别用samtools打开去重复前的.sort.bam和.rmdup.bam文件,并统计行数,行数比即是
Split_bam_by_chr(0.5G):
得到按染色体分的bam文件。
注:最好建一个文件夹放这堆bam。其实不分染色体直接callsnp也行,但是慢。
Call_snp_by_soapsnp(4G):
得到snp
注:最好建一个文件夹放。
统计filter_sam.stat里面的reads数目和率、rmdup之后的率、结果的平均覆盖度(ref非N且深度不为0的行数/ref非N的行数)及深度(ref非N的行的深度的和/ref非N的行数)、深度分布图(每一个深度的行数和的统计表,并画图)。

 

 

数据:

CR猴子全基因组(4个文库,分别两个约14G的gz文件,未去接头,pe测序,90读长)

Call_snp_by_soapsnp_全基因组

方法:call_snp_by_soapsnp
每步估计需要投多大(仅作参考):

每个文库分别跑:
Rmadpter(设多大忘了):
去接头生成两个clean.gz

Bwa(13G?):
从两个clean.fq.gz到两个.sai再到一个.sam
注:在生成完sam之后检查有没有报错,没有就可以把.sai删掉
得到4个.sam文件
先把其中一个.sam文件的@开头的头文件(因为同一个样品头文件都一样)cat到一个总的.sam(自己建一个)里面,接着把4个.sam文件除去@开头的行cat到这个sam文件中,这样就得到一个总的sam文件,后面步骤说到的sam文件也就是指这个。后面的步骤就和单个文库的一样。
Get_uniq_map_reads
(0.5G):
从.sam到.filter_sam
注:留意.filter_sam.stat中的过滤率(记下来,评估的时候用着),这次均为80多,确认正常。
Samtools_process(0.5G):
从.filter_sam到.bam,并对bam进行排序生成.sort.bam,对.sort.bam去重复得.rmdup.bam,最后建.rmdup.bam索引。
注:.bam生成之后可以删掉.filter_sam。在去重复之后统计一下去重复率(分别用samtools打开去重复前的.sort.bam和.rmdup.bam文件,并统计行数,行数比即是)
Split_bam_by_chr(0.5G):
得到按染色体分的bam文件。
注:最好建一个文件夹放这堆bam。其实不分染色体直接callsnp也行,但是慢。
Call_snp_by_soapsnp(4G):
得到snp
注:最好建一个文件夹放结果。
统计:filter_sam.stat里面的reads数目和率、rmdup之后的率、结果的平均覆盖度(ref非N且深度不为0的行数/ref非N的行数)及深度(ref非N的行的深度的和/ref非N的行数)、深度分布图(每一个深度的行数和的统计表,并画图)。

你可能感兴趣的:(生物信息)