GWAS流程知多少-Hail

官网hail.is

Hail是一个用于可扩展数据探索和分析的开源库,特别是基因组学,为各种规模的基因组分析提供强劲支持,云原生的基因组数据框架和批处理计算。Hail需要Python 3和Java 8 JRE, GNU/Linux 还需要 C 和 C++标准库(如果尚未安装)。
有关库的高级用法,请参阅概述,有关全基因组关联研究的简单示例,请参阅GWAS 教程,以及安装页面以开始使用 Hail。

使用Hail进行GWAS分析的结果

最新版本0.2.80发布于 2021-12-15,实时更新中呀,未来可期!

Hail的特点

简化的分析

Hail Query 提供功能强大、易于使用的数据科学工具。查询各种规模的数据:从笔记本电脑上的小型数据集到云中的生物样本库规模数据集(例如UK Biobank,gnomAD,TopMed,FinnGen和Biobank Japan)。

基因组数据帧

现代数据科学由数字矩阵(参见Numpy)和表(参见R数据帧和pandas)驱动。虽然对于许多任务来说已经足够了,但这些工具都不能充分捕获遗传数据的结构。遗传数据将基质的多个轴(例如变体和样本)与表格的结构化数据(例如基因型)相结合。为了支持基因组分析,Hail引入了一种功能强大的分布式数据结构,结合了矩阵和数据帧的特征,称为MatrixTable。

输入统一

Hail MatrixTable统一了多种输入格式(例如.vcf、bgen、plink、tsv、gtf、bed 文件),并支持可扩展的查询,即使在 PB 大小的数据集上也是如此。Hail的MatrixTable抽象为科学提供了一个集成且可扩展的分析平台。

GWAS流程

Hail | GWAS Tutorial
提供Hail功能的广泛概述,重点是操作和查询遗传数据集的功能。我们进行了全基因组SNP关联测试,并证明了需要控制由群体分层引起的混杂。
详细流程,基本是Python代码,是不是对Python党非常友好,学起来呀!

你可能感兴趣的:(GWAS流程知多少-Hail)