bayestyper群体结构变异SV的鉴定

bayesTyper的官网文档推荐使用三种方法鉴定变异(GATK、Platypus和manta),然后利用bayesTyper Tools对变异文件进行合并,然后利用bayesTyper的cluster进行cluster,最后利用bayesTyper的genotype进行基因分型。
1.bayesTyper安装
2.Platypus的安装
3.manta的安装

  1. bayesTyper的使用
    在官方文档中,鉴定变异的主要流程分为2大部分:
    4.1 Generation of variant candidates(候选变异的生成)
    以比对完的bam文件(推荐以bwa的mem)为起始,分为一下几个步骤:
    4.1.1 用GATK的HaplotypeCaller模块鉴定候选位点。
    4.1.2 用Platypus鉴定小的以及中等的变异
    4.1.3 用manta鉴定大的结构变异
    4.1.4 利用bayesTyperTools的combine功能对以上三种方法的结果进行合并,合并命令为:
$ bayesTyperTools combine -v GATK:.vcf,GATK:.vcf,PLATYPUS:.vcf,PLATYPUS:.vcf,MANTA:.vcf,...,prior:.vcf -o  -z

注意这里-v参数后面接的是字符串,为gatk:sample.vcf格式,各个样品间用“,”分隔,参数-z 表示以压缩格式gz输出。
bayesTyper的combine格式需要一个参数文件–contigs.txt,里面包含基因组的所有contig信息。格式为##contig=.
4.2 Genotyping based on variant candidates(基于候选变异的基因分型)
4.2.1 计算测序数据的 k-mers
这里主要用的KMC3来对比对后的bam文件进行kmer的统计,参数为(-k55 -ci1 -fbam)
计算完kmer后,用bayesTyperTools makeBloom -k -p 生成bayesTyper需要的前提文件。
kmc生成的为.kmc_pre和.kmc_suf两个文件,bayesTyperTools makeBloom生成的为.bloomMeta和.bloomData两个文件,这里一定要在同一文件下运行,且前缀名一致。
4.2.2 鉴定变异的cluster
运行命令:

$ bayesTyper cluster -v .vcf.gz -s .tsv -g _canon.fa -d _decoy.fa -p 

所有的结果都会按cluster分成很多个unit,存在独立的文件
文件.tsv包含的信息为.
cluster的结果输出在bayestyper_cluster_data目录
4.2.3 对cluster进行genotype

bayesTyper genotype -v bayestyper_unit_/variant_clusters.bin -c bayestyper_cluster_data -s .tsv -g _canon.fa -d _decoy.fa -o bayestyper_unit_/bayestyper -z -p 

4.2.4 利用bcftools对结果进行合并

bcftools concat -O z -o .vcf.gz bayestyper_unit_1/bayestyper.vcf.gz bayestyper_unit_2/bayestyper.vcf.gz ...

你可能感兴趣的:(bayestyper群体结构变异SV的鉴定)