一款计算亲缘关系和祖先分析的软件-AKT

作者:童蒙
编辑:angelica

俗话说:磨刀不误砍柴工。对大样本的WGS和WES分析,亲缘关系和祖先分析是一个非常重要的质控点,可以用来保证实验的稳定性。做好了数据质控,对下一步分析大有裨益,接下来的分享不可以错过喔~

一般来讲,亲缘关系的计算有以下几方面作用:

  • 检测关联样品
  • 确定样品祖先
  • 计算突变之间的相关性
  • 检查孟德尔遗传一致性
  • 进行样品聚类

在2017年,illumina开发的一款名为AKT的工具,可以很快速地进行这方面的分析,是一个很方便使用的软件。下面我们来看看吧。

软件安装

从github上下载安装

git clone https://github.com/Illumina/akt.git
cd akt/
make

使用说明

./akt COMMAND 

总共有五个命令分别为:

  • pca :对样品进行主成分分析
  • kin :计算两两间的亲缘关系相关性
  • relative:给出有家系关系的个体
  • unrelated:给出无关的个体
  • pedphase:孟德尔遗传的phasing结果

PCA

  • 普通用法
./akt pca multisample.bcf -R data/wgs.grch37.vcf.gz -O b -o pca.bcf > pca.txt

其中-R :区域文件,其他参数见网页说明。
结果也很易懂,pca.txt为:

SAMPLE_ID0 P0 P1 P2 P3 P4
SAMPLE_ID1 P0 P1 P2 P3 P4
...
  • 添加另一个家系的用法
    直接利用方法1中获得的pca.bcf进行后续的分析。
./akt pca new_multisample.bcf -W pca.bcf > projections
  • 绘制PCA的图
    使用提供的脚本进行绘图。
Rscript scripts/pca.R pca.txt

计算亲缘系数

./akt kin -R data/wgs.grch37.vcf.gz -M 1 input.bcf > kinship.txt

-M为选择计算亲缘关系的方法,结果为:

ID1 ID2 IBD0 IBD1 IBD2 KINSHIP NSNP

选择亲缘关系样品

akt relatives kinship.txt -p pedigree

选择无关样品

akt unrelated kinship.txt > unrelated.ids

性能和效果

整体而言,该软件运行速度是非常快的。使用1000GP的数据:

  • 1000GP的2504个无关个体,总共84M的变异,代表了常见的散发样品使用场景
  • 433个高覆盖度样品,包括129个trio和9个双胞胎家系,34.4M变异。代表了家系分析的场景。
一款计算亲缘关系和祖先分析的软件-AKT_第1张图片

参考文献

  1. https://illumina.github.io/akt/
  2. https://github.com/Illumina/akt
  3. Arthur R , Schulz-Trieglaff O , Cox A J , et al. AKT: Ancestry and Kinship Toolkit[J]. Bioinformatics, 2016, 33(1):btw576.

你可能感兴趣的:(一款计算亲缘关系和祖先分析的软件-AKT)