NGS分析手把手教学:全基因组分析GATK4管道教程详解(有完整代码)

⚠️不想充值付费的小伙伴可以点赞,会随机挑选幸运观众赠送全文。

目录

前言
1.分析环境的配置
2.数据准备
3.QC处理
4.Index和Mapping
5.Variant Calling
-- 5.1 去重复
-- 5.2 read可视化(可选)
-- 5.3 BQSR处理
--- 5.3.1 Variant已知的情况
--- 5.3.2 Variant未知的情况
-- 5.4 对比BQSR的效果(可选)
-- 5.5 最终Variant Calling
全剧终

前言

GATK历史悠久,2020年更新到了版本4,所有代码都变成了完全开源,童叟无欺。想写教程已经很久了,拖延癌一直到了现在。所有管道流程已经设置好,只需要复制黏贴代码。从此SNPs, Indels分析再也不需要花钱找平台了,本地硬盘够大的话自己的电脑也可以操作,没有服务器也不是问题。省下来的经费可以买排骨吃。
平台是linux或者Mac最好,windows学生党用户的话也没有问题。可以参考Windows10下挂Linux子系统做生信分析。
本文参考了纽约大学的GATK4 Best Practices Workflows 官方指南,但是官方指南只能一个样本一个样本的操作,生产力低下。所以特此加以改编,可以把所有的样本都最后归纳到一个VCF文件里。至于后续对VCF文件的分析可以参考我的专题vcf数据分析,有花篇幅介绍过。

1.分析环境的配置

整个分析流程可以细分成很多步骤,比方说下机序列数据fastq的质量检验,Mapping, 最后的Variant Calling。途中会生成很多文件,为了不造成混乱,可以提前为每一步设置好文件夹。

PROJECT_PATH=/home/Jason/gatk4

mkdir -p ${PROJECT_PATH}
cd ${PROJECT_PATH}

pwd
## /home/Jason/gatk4

mkdir genome
mkdir fastq
mkdir cleaned_fastq
mkdir bam
mkdir bqsr
mkdir vcf
  • genome:参照序列
  • fastq:下机序列
  • cleaned_fastq:QC处理以后的数据
  • bam: mapping以后的bam文件
  • bqsr: 经过bqsr校准过以后的bam文件
  • vcf:最后的vcf格式的结果

2.数据准备

你可能感兴趣的:(NGS分析手把手教学:全基因组分析GATK4管道教程详解(有完整代码))