【文献阅读笔记】(2):使用IMPUTES2和minimac软件完成群体特异性的基因型填充(Imputation)

Population-specific genotype imputations using minimac or IMPUTE2

    • 摘要
    • 1. 介绍-Introduction
        • 1.1 基本知识
        • 1.2 GoNL参考数据集简介
        • 1.3 进行基因型填充(Imputaion)的工具
        • 1.4 对待填充的目标数据集进行质量控制

摘要

文章来源于Nature Protocol

  • 本篇文章提供了一份guideline来使用minimac和IMPUTE2完成基因型填充。
  • 文章用于基因型填充的群体特异性数据来源于GoNL(Genome of the Netherlands)组织
  • 除了软件的使用指南之外,本文也阐述了影响基因型填充(Imputation)质量的多个因素

1. 介绍-Introduction

1.1 基本知识

  • 很多GWAS数据虽然产生于不同的平台,这些来自不同平台和不同队列的GWAS数据可以组合在一起进行Meta分析。通过基因型填充,可以制作出用于Meta分析的同源数据集。
  • 基因型填充的基本原理是,基于一个或多个参考SNP集(例如1000genome的数据),来利用算法推理填补目标数据集中的缺失部分。
  • 基因分型和基因型填充如果做的不好,将引起GWAS分析的偏差并且影响后续meta分析的质量
  • 作为本篇文章的补充,建议阅读以下一系列文章来提高imputation和meta分析的质量
    • Anderson, C.A. et al. Data quality control in genetic case-control association studies. Nat. Protoc. 5, 1564–1573 (2010).
    • Verma, S.S. et al. Imputation and quality control steps for combining multiple genome-wide datasets. Front. Genet. 5, 370 (2014
    • Winkler, T.W. et al. Quality control and conduct of genome-wide association meta-analyses. Nat. Protoc. 9, 1192–1212 (2014)

1.2 GoNL参考数据集简介

  • 构建一个用于基因型填充的新的参考数据集,是一件较为复杂的事情。它需要有(1)高密度的基因分型数据和(2)从特定人群的样本的基因型数据(称为定相)准确估计单倍型。
  • 常见的用于基因型填充的参考数据集来源于HapMap计划和1000 Genomes计划。这两个计划都包含了来自多个群体的样本,因此参考数据集中可能无法展现 某个低频突变的给定基因型
  • 此外,当属于不同地理人口的样本百分比超过一定比例时,基因型填充的质量不会提高。

GoNL的低频突变数据集简介
GoNL创建了一个低频突变数据集,用于识别各种低频突变与表型之间的变异关联。
此数据集的基本信息是:

  • 人群均为荷兰血统,包含231份父母及其子女(三人家系)的数据,和19份父母及其子女(四人家系)的全基因组测序数据。
  • 每份数据的测序深度均达到12x以上

数据集的优点有:
(1):三人家系的设计,提高了单倍体型的质量
(2):本数据集的覆盖度大大高于1000基因组计划中数据的覆盖度
(3):测序的样本来源于同源的群体。

单倍体型的数据质量将大大提升单个样本中的基因型填充准确度(特别是低频变异)。
数据集的获取方式:
打开网址,http://www.nlgenome.nl/ ,菜单中点击Request data即可。参考数据集可以以VCF的格式下载。
本篇文章使用了GoNL中的第四版本的参考数据集,其中包含499个荷兰血统的人和19,562,004个常染色体的SNP

1.3 进行基因型填充(Imputaion)的工具

最常见的用于基因型填充的工具有:minimacIMPUTE2Beagle
选择软件工具的因素取决于我们目标数据集的性质,以及可用的计算资源。
【文献阅读笔记】(2):使用IMPUTES2和minimac软件完成群体特异性的基因型填充(Imputation)_第1张图片
minimac

  • minimac可以从网上免费下载,并且可获取开源代码
  • minimac不提供phasing功能,所以若使用minimac,Phasing需要由MaCHSHAPEIT2来执行

IMPUTE2

  • IMPUTES2可以从网上下载,但只能用于学术使用,且不提供源代码
  • IMPUTES2可以同时提供phasing和imputation的功能(但是IMPUTES2的作者还是推荐大家使用SHAPEIT2来完成phasing)
  • IMPUTES2可以合并两个参考数据集来进行Imputation(即,它可以将1000 Genome中的参考数据和GoNL中的参考数据结合在一起,对目标数据集进行基因型推断),从而大大提高基因型填充的质量。

输入数据
不同的软件,所需输入的参考数据(reference set)格式也不同。GoNL,1000Genome计划,HapMap计划的数据格式均为VCF格式。

  • IMPUTES2需要转换数据格式 使用软件 VCFtools 可以将VCF格式的文件转化为IMPUTE2所需的参考单倍型数据格式。IMPUTE2的作者也提供了一个perl语言的脚本,帮助用户完成数据格式的转换。
  • minima则不需要进行数据格式转换,它可以直接用原始的VCF数据进行操作。

输出数据
软件们都会有多个输出文件。

  • 第一个 是“信息”文件,info 文件包含这些信息: SNP name(SNP的名字),the base-pair positions(配对碱基的位置),等位基因频率,以及R^2值 。(R^2值越大,意味着基因型填充的准确性越高)
  • 第二个 是概率文件。IMPUTE2将输出三种基因型(AA,AB,BB)各自的概率;minimac输出的是等位基因1纯合子的概率和杂合子的概率。其中minimac可以输出最佳预测的基因型,并且直接输出Dosage文件。可以使用工具 fcGENE 将IMPUTE2的结果转换为dosage文件

Tips

  • R^2值
  • dosage文件

1.4 对待填充的目标数据集进行质量控制

影响基因型填充的因素有多个:

  • (1)数据集的质量
    为了获取高质量的基因型填充结果,我们需要对目标数据集提前执行质量控制(过滤去除低质量的数据和标记),如果可能的话,也有必要对参考数据集进行质量控制。Anderson和Verma提供了详尽的文字来说明如何对每个标记和个人进行质量控制(见上文的推荐阅读)
  • (2)测序所使用的芯片平台的情况。
    • 高密度的芯片,拥有更高的数据质量,低密度的芯片在GWAS领域的应用效果则不是很好。因此检查用于基因型检测的芯片平台,是提升基因型填充的很重要的因素之一。
  • (3)链
  • 每个基因型都会被mapping到特异链上,因此需要仔细检查链比对(strand alignment)是否有错误。Deelen等人发表过方法来解决无义链的问题。对于基因型填充来说,基因型需要比对到正链上,很多基因型填充的工具也是默认目标数据集和参考数据集在同一条正链上。
  • (4)目标数据集和参考数据集需要在同样的基因组坐标上。
  • 不同的基因组坐标中,同一个snp可能会有多种名称,因此,目标数据集和参考基因组需要是同样的坐标体系。(例如都是hg19,或者hg38)
  • 如果参考数据集和目标数据集使用了不同的基因组坐标系统,建议把目标数据集进行重新比对。或者使用软件 liftOver 转换基因组的坐标体系

在进行Imputaion的时候,还需要特别注意两点:

  • (1)种群不同带来的差异。

待完善

你可能感兴趣的:(生信数据分析相关文献阅读笔记)