生信小工具:Plink之下载安装与其基本格式(1)

谈起Plink相信熟悉的人更定都会知道,这是一个全面的基因组分析工具集,具有很多的小功能,在SNP数据统计,过滤,GWAS分析中都可以用得上,而且速度非常的快,堪称是生物信息分析软件中神器之一。但是在网上逛了一圈发现,好像关于该工具的比较系统的中文教程暂时还找不到。那没办法了,只能自己来总结了。首先,咱们从简单入手先谈谈其下载安装和对应的基本格式。

Plink介绍

PLINK是一个免费的开源全基因组关联分析工具集,旨在以计算有效的方式执行一系列基本的大规模分析,由Shaun Purcell在马萨诸塞州综合医院(MGH)的人类基因研究中心(CHGR)和哈佛大学和麻省理工学院的Broad研究所共同开发的。它最初是为人类数据,但新的PLINK 1.9以上的版本也可用于非模式生物的基因组数据。

其功能非常强大,简单列举一下相对应的功能:

  1. 数据管理: SNP数据格式的转换,合并两个或多个文件,提取SNP子集,以二进制文件格式压缩数据等。
  2. 质量控制的SNP数据统计: 计算丢失基因型率,等位基因,基因型频率,HWE测试,个体和个体对的近亲繁殖,IBS和IBD统计,LD区域计算等。
  3. GWAS关联分析
  4. Meta分析

Plink下载与安装

PLink最新版是2.0,由于我个人觉得1.9比较稳定好用,下面教程分析都是基于1.9版本的。

Plink的下载安装非常方便,由于已经编码的版本是可以直接下载的,所以只要找到相应的系统的版本就可以进行下载了,下载链接地址为:http://www.cog-genomics.org/plink2/

Linux 64-bit下载地址:

http://s3.amazonaws.com/plink1-assets/plink_linux_x86_64_20190617.zip

苹果OS X 系统下载地址:

http://s3.amazonaws.com/plink1-assets/plink_mac_20190617.zip

Windows 64-bit 系统下载地址:

http://s3.amazonaws.com/plink1-assets/plink_win64_20190617.zip

下载完解压就能直接使用了:

Plink输入格式介绍

Plink常见格式包括:ped,map,bed,fam,bim
PLINK接受VCF文件作为输入,但在PLINK中使用的首选格式是带有结尾.ped(和.map)的文件,以及带有结尾.bed(+ .bim + .fam)的较小二进制PLINK文件。这样处理起来速度会更加快。一般我们call完SNP给出的文件都是vcf文件,这里需要使用vcftool或者Plink先进行格式的转换:

使用vcftools来转换:

#vcf转ped和map
vcftools --vcf my.vcf --plink --out plink

使用plink来转换:

# vcf转ped和map
plink --vcf file.vcf --recode --out file

ped格式文件

ped文件包含每列有一个等位基因的变体信息(意味着一个变体的两个等位基因需要2列)。

看看其中一个例子:

less -S data.noIND04.miss0.5.noMT.thin10.ped 

IND01 IND01 0 0 0 0 CC 0 0 
IND02 IND02 0 0 0 0 0 0 0 0 
IND03 IND03 0 0 0 0 0 0 AG 
IND05 IND05 0 0 0 0 CCAA 
AFR01 AFR01 0 0 0 0 CTAG 
AFR02 AFR02 0 0 0 0 CCAG 
AFR03 AFR03 0 0 0 0 0 0 AG 
AFR04 AFR04 0 0 0 0 0 0 0 
AFR05 AFR05 0 0 0 0 CCAG ...

每个样本有一行,前六列为:

  1. 第一列: Family ID表示家族,同一个家族用同一个family ID表示
  2. 第二列: Individual ID用来表示个体,family ID和Individual ID连起来唯一表示一个样本。
  3. 第三列: Paternal ID表示父本ID(如果缺少该信息则为'0')
  4. 第四列: Maternal ID表示父本ID(如果缺少该信息则为'0')
  5. 第五列: 性别代码('1'=男性,'2'=女性,'0'=未知)
  6. 第六列: Phenotype(表型),Plink会自己判断表型的类型,如果缺少该表型数据,可以使用-9/0/非数字来表示。
  7. 第七列第八列: 分别为第一个变体,第二个变体等的等位基因。缺失的数据被编码为0(或-9)。
    对于上面的例子,由于都没有关于父本,母本,性别或表型的信息,因此这些列都设置为缺失数据(0或-9)。

map格式文件

map格式文件包含变体位置,用来记录每个maker(一般为SNP)的位置信息。每行一个maker。它有4列:

less data.noIND04.miss0.5.noMT.thin10.map 

scf7180003948298 scf7180003948298:263 0 263 
scf7180003948298 scf7180003948298:313 0 313 
scf7180003948298 scf7180003948298:1268 0 1268 
  1. 第一列: 染色体名称
  2. 第二列: SNP的表示符/ID
  3. 第三列:基因摩尔根距离,不知道就写0
  4. 第四列:marker在染色体上的坐标位置

常染色体应编码为1至22。以下其他染色体用于指定其他染色体类型。右边的数字代表PLINK对这些染色体的内部数字编码:这些将出现在所有输出而不是原始染色体编码中。

bed格式,fam格式和bim格式文件

map文件可以进一步转换成二进制文件(* .bed)。将家族信息,表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)

文件转化方法:

plink --file mydata --make-bed

bed格式

该格式的文件主要包含了基因型的双等位基因变异。必须附带.bim和.fam文件。用--bfile加载;可以使用--make-bed命令生成。注意的是该格式和我们平时接触含有基因组位置的bed格式文件不同。在基因型信息中,每一行是一个个体,每一列就是一个变异。其中0、1、2分别对应了aa、Aa或aA和AA。不考虑碱基型,因为我们不关注ATGC的变化。

fam格式

该格式文件是bed格式文件附属的基因型的样本信息文件,每一行就是一个样本。

bim格式

该格式文件是bed格式文件附属的基因型扩展信息的文件,每一行是一个变异,及其注释信息。

参考资料:

  1. https://www.jianshu.com/p/1cb89afe8ac2
  2. https://www.cnblogs.com/leezx/p/9013615.html

你可能感兴趣的:(生信小工具:Plink之下载安装与其基本格式(1))