重测序分析(5)使用lumpy进行结构变异检测

结构变异

结构变异是指在物种中遗传和多态性的基因组DNA中的大规模结构差异。它们是染色体重排的结果 (缺失,复制,插入,倒置)。如果这些多态性在细胞遗传学上可见,则称为异态。

lumpy

lumpy是一款基于概率框架检测结构变异(structure variants)的软件, 它根据read-pair, split-read, read-depth和其他先验知识寻找基因组上可能的结构变异。


lumpy基于paired-end reads比对后得到的三类信息推断SV,局部异常的测序深度,不一致的联配和断裂的联配(split-read alignment)。局部异常的测序深度比较容易理解,平均20X测序的地方,如果深度大于50X,意味着存在着拷贝数变异,如果深度程度非常低,可能意味着这里存在 大片段缺失。不一致的联配和断裂的联配能够提供的信息更多,如果基因组一个区域齐刷刷的截断,就意味着这个区域可能存在插入/缺失。当然也有其他可能,当两个read在不同链或者不同染色体时,可能是易位或倒置。

数据和软件准备

基因组文件:genome.fasta
比对结果文件:S1.sort.rmdup.bam
软件:lumpy、svtyper、svtools(基于python2.7)

参考脚本

##提取不正常比对的reads
samtools view -b -F 1294 -@ 2 ./S1.sort.rmdup.bam > S1.discordants.bam

-F 1294 的含义可以到这个网址去查看Explain SAM Flags (broadinstitute.github.io)


这一步需要去掉正常比对的reads,留下不正常比对的reads

##提取分裂比对的reads
samtools view -h ./S1.sort.rmdup.bam  | /home/data/t0202008/software/lumpy-sv/lumpy-sv/scripts/extractSplitReads_BwaMem \ #你的软件安装位置
-i stdin |samtools  sort -   > S1.splitters.bam

##SV鉴定
/home/data/t0202008/software/lumpy-sv/lumpy-sv/bin/lumpyexpress  \ #软件路径
-B ./S1.sort.rmdup.bam  \ #指定S1输入文件,可以多个样品
-S S1.splitters.bam   \#指定S1分裂比对的文件,可以多个样品
-D S1.discordants.bam \#指定S1不正常比对文件,可以多个样品
-o all.sv.lumpy.vcf  

##对每个个体SV进行分型
vcftools --vcf all.sv.lumpy.vcf \ #指定提取样品名称
--indv S1 --recode --recode-INFO-all  \ #指定输出原始VCF格式文件
--out S1  #输出文件前缀
#多个样品可以并行命令,也可以写个循环

svtyper 
-i S1.recode.vcf #上一步的输出文件
-B ./S1.sort.rmdup.bam  
-o S1.genotype.vcf

#多个样品可以并行命令,也可以写个循环

所有样品的vcf合并成群体SV

将所有的样品id,列到一个文件里(vcf.list)

svtools vcfpaste -f  vcf.list  > all.genotype.vcf

结构变异检测的基础分析就做完了,流程不是固定的,有时候会根据项目的需求来修改流程。

欢迎关注Bioinfor 生信云微信公众号!

你可能感兴趣的:(重测序分析(5)使用lumpy进行结构变异检测)