Predixcan

转自生信草堂
GWAS找到大量的SNP,可是可以解释生物学功能的SNP位点却是很有限的。其结果让人看得眼花缭乱,但是单个SNP功能做不出怎么破?别担心,本文给你新思路。

从GWAS的结果中找到具有潜在功能性的基因一直的遗传学研究的重点。以往的经验告诉人们,离最显著SNP最近的基因的易感性最大,但越来越多的证据表明这种经验并不十分可靠。随着越来越多的SNP在非编码区被发现,并且通过远端或近端调控机制影响特定基因的表达,人们有理由相信那些由SNP调控的基因表达改变是影响性状的一个重要机制。因此,来自芝加哥大学的研究者们就开发了一个gene-based关联分析软件——PredicXcan

一、PrediXcan工作原理

作者认为基因表达水平受到三个因素的调控,其中主要的两个是遗传因素和疾病状态(图1)。 PrediXcan的目的是建立起受遗传调控的基因表达与性状之间的关系。

整个工作流程分为两步:(1)估算SNP调控的基因表达水平;(2)建立基因表达水平与性状之间的关联。

第一步中,作者借助类似于机器学习的思想,利用GTEx Project, GEUVADIS 和 DGN数据库中基因型数据和基因表达数据做训练集,然后估算用户导入的基因型数据中缺失的表达数据。一旦得到表达数据,就可建立起基因表达与性状之间的关系。(图2)

image.png

image.png

二、如何使用PrediXcan

2.1:文件准备

运行PrediXcan需要输入三个文件:转录组预测模型文件基因型文件样本信息文件。下面一一介绍。

转录组预测模型文件:该文件不用自己制作,去PredictDB网站下载即可http://predictdb.org/。大家可以根据自己的需要选择不同的组织数据。

基因型文件:该文件每一行表示一个SNP,包含的信息分别为:chromosome rsid position allele1 allele2 MAF,后面的每一列的内容是每一个样本在该SNP allele2的dosage,最好是每一条染色体分开制作文件。

样本信息文件:直接将PLINK的fam文件导入即可。

2.2:基因表达预测

该步骤需要用到PrediXcan 的“predict”功能,代码如下:

$./PrediXcan.py --predict --dosages genotype/ --dosages_prefix chr --samples samples.txt --weights model/DGN-HapMap-2015/DGN-WB_0.5.db --output_prefix results/DGN-HapMap

这一步中,我们在PrediXcan.py脚本存放的目录运行程序,假设我们的基因型文件的名称前缀是“chr”,样本信息文件的名称为“samples.txt”且存放在基因型文件同一目录下。该步骤会生成一个后缀为“predicted_expression.txt”的文件,存放估算的基因表达水平,可直接用于下一步。

2.3:基因表达与性状的关联分析

该步骤需要制作一个额外的表型文件,前两列分别是FID和IID。从第三列起可以存放表型,数据类型可以是分类变量也可以是连续变量,如果是分类变量,0表示unaffected,1表示affected。默认缺失值是NA。如果有多个表型列,可以用参数—mpheno指定要分析的表型位于那一列,如—mpheno 1则表示将文件中第三列作为要分析的表型。
代码如下:

$./PrediXcan.py --assoc --pheno My_pheno.txt --mpheno 1 --pred_exp results/TW_Brain_Frontal_predicted_expression.txt --logistic --output_prefix results/DGN-HapMap

最后奉上PrediXcan在GitHub上的下载地址https://github.com/hakyimlab/PrediXcan。小伙伴们有没有get新技能?快用不同的分析方法,丰富大家的文章内容吧。赶快拿起自己的GWAS数据操练起来~

你可能感兴趣的:(Predixcan)