GATK4.0的更新

从去年开始,就一直在使用GATK(GenomeAnalysisToolkit)进行人类基因组的SNV Calling工作。后来从官网上得知即将有4.0的版本更新,众所周知,这种3.x --> 4.0的变化应该是十分巨大的,所以说其中变化的东西也是十分的多很繁杂。

所以用这篇日志简要总结一下。当然不是其更新日志的翻译版。。。那也没有什么意义。
这篇文章的主旨是在总结现有的GATK4.0的功能,能做什么,需要怎么做,因为很多工具包虽然有提供一定的Best Practices,但其实其中还有许多的有用的功能,所以在这里简要总结一下。

Best Practices的变化

GATK3.X Germline Best Practices

GATK4.0 Germline
GATK3.X Somatic Best Practices

GATK4.0 Somatic

流程上的变化也已经可以看出一部分软件内部的变化,但是细节由于gatk的组织还没有发表新的文章对其进行评定,而且我这边也还没有对两个版本的进行比较,所以还没有更好的解决办法。

所以best practice的介绍也就到这里。
官方推荐的best pratice也有对应的github连接,但是是以WDL的语言写的,所以个人觉得还不是很好理解,已经提了一个issue询问是否有命令行版的,只能等回复了。这里贴上连接。
gatk workflows including gatk4 version

枚举有用的gatk 工具

工具列表以此处为准

  1. CountBases 统计一个sam或者bam的总碱基数,可以指定区域,便于计算平均深度。
  2. CountReads :(鸡肋)可用samtools代替
  3. metagenomic (整个部分的流程都鸡肋)metagenome用的是基于比对的想法,很难做,旧。
  4. DownsampleSam,可以从一个sam/bam里节选一部分出来,随机性高且考虑了分层。
  5. FastqtoSam : 将一个fastq转成一个伪比对好的sam
  6. FilterSamReads:与4的区别在于,这里用的是filter后的,例如unmapped之类的。
  7. GatherBamFiles :合并多个bam,用于多线程后的合并或者多次测序多次分析后的合并。

你可能感兴趣的:(GATK4.0的更新)