初识GATK

1.什么是GATK

初识GATK_第1张图片

GATK是Genome Analysis Toolkit的缩写,是用来处理高通量测序数据的一套软件。最初,GATK被设计用来分析人类基因组和外显子,主要用来寻找SNP和indel。后开,GATK的功能越来越丰富,增加了short variant calling、计算copy number(CNV)和结构变异(SV)等新功能。同时,GATK也越来越广泛地应用于其他物种的数据分析中。现在,GATK已经成为了基因组和RNA-seq分析过程中,寻找变异的行业标准。

2. GATK分析的pepline

初识GATK_第2张图片

用GATK寻找SNP和Indel,有一个标准的分析流程叫做GATK Best Practise主要包括以下几个步骤:

数据预处理:对从测序仪下机后的数据进行质控,去除低质量的reads,将过滤后的reads比对到参考基因组上,产生BAM格式的比对文件。

寻找变异:进行variant calling,寻找SNP和Indel,将比对数据存储在VCF格式的文件中。

使用寻找出的变异位点进行后续的分析。

3.计算机平台和运行环境

初识GATK_第3张图片

GATK支持Linux和MacOS X,不支持Windows系统。GATK是用java语言写的,所以需要系统安装Java 1.8,其中的一些工具还依赖R和Python。

4.GATK4中的工具

初识GATK_第4张图片

GATK中提供了丰富的工具,供我们对数据进行操作和处理,主要涵盖以下方面:

Copy Number Variant Discovery

Coverage Analysis

Diagnostics and Quality Control

Intervals Manipulation

Metagenomics

Other

Read Data Manipulation

Reference

Short Variant Discovery

Structural Variant Discovery

Variant Evaluation and Refinement

Variant Filtering

Variant Manipulation

Base Calling

Read Filters

Variant Annotations

具体的工具和使用方法可参考官网。

另外,在GATK4中新增加了Picard Toolkit,用来对测序数据进行质控。所有的Picard工具都可以使用GATK命令行调用。

你可能感兴趣的:(初识GATK)