PLINK的简单应用和一些常用命令

近些年全基因组关联分析得到广泛的应用,即GWAS。在对复杂疾病的研究和动物经济性状的研究上都有了长足的进步。尽管gwas方法很好用也很实用,但是运用GWAS方法需要的数据也是很庞大的,如何对这个大数据进行处理和运算又成了难题,今天就简单讲一下解决GWAS运算难题的方法,就是运用plink软件。plink用处有很多比如数据处理,质量控制的基本统计,群体分层分析,单位点的基本关联分析,家系数据的传递不平衡检验,多点连锁分析,单倍体关联分析,拷贝数变异分析,Meta分析等等。所以plink软件是一个很好用的运算软件。操作起来也很方便实用。好了废话不多说上干货。

首先来了解一下plink,PLINK 是由哈佛大学的Shaun Purcell开发的一个免费,开源的全基因组关联分析软件,直接去百度上搜索plink就可以很容易就找到plink官网(http://www.cog-genomics.org/plink2)之后选择下载安装就可以了。还有一点需要注意的就是PLINK软件运行是在DOS系统下安装运行的。DOS系统的进入也很简单,按住home键+R然后在搜索栏内输入“cmd”就可以了。出现如下界面。

然后不要慌,接下来进入我们刚刚下载好的plink软件的路径。比如我的放在电脑的E盘就输入e:如下:

然后在进入E盘中存放plink软件的文件夹,比如我的文件夹叫做plink,输入cd plink,如下

然后检测一下plink软件是否安装好,直接输入plink,如下,如果出现类似下图的内容,plink就用该可以用了。

好,plink软件的安装和调用就介绍完了。在用plink软件之前,首先要搞清楚plink能够读懂的文件格式,将文件格式调整好,后面会免去很多不必要的麻烦。plink的输入数据包括两个文件,.ped文件和与之匹配的.map文件。那么这两个文件都是怎么样的呢,我简单来介绍一下。

首先ped格式文件,文件以空格或者tab分隔,前六列是固定的格式,依次是

Family id(家系ID,可以用1,2,3,4......表示)

individual id(个体ID,可以用入库编号表示)

paternal id(父系ID,可以用0表示)

maternal id(母系ID,可以用0表示)

sex(1 男 2 女 性别缺失可以用0或者其他数字表示)

phenotype(表型,control设定为1,case设定为2)

genotype(如A T,中间空一格,缺失用0补平)

第七列及以后是基因型


然后map文件格式,文件以空格或者tab分隔,文件只有4列,依次为

chromosome (染色体号)

rs#or snp identifier(snp号,一般以rs开头)

Genetic distance (morgans)(遗传距离也就是摩尔根距离,可以用0表示)

Base-pairposition (bp units)(BP,snp在染色体上的物理位置)

OK,plink的输入文件格式就设置好了,然后介绍一些简单的命令。以1.ped,1.map文件为例。

--noweb 不连接网络

--file 指定输入文件

--ped 指定ped文件

--map 指定MAP文件

--make-bed 数据转换为二进制格式

--out 指定输出文件名

数据量太大,节省时间和存储空将数据转换为二进制格式储存

plink --file 1 --make-bed --out 2  ####这条命令就是可以将文件1转成二进制文件,2即为二进制文件。

在数据分析之前,要对snp数据进行质控,这个步骤很关键,可以直接影响数据结果的有效性和准确性

plink --bfile 2 --maf 0.01 --geno 0.05 --mind 0.05 --hwe 0.001 --make-bed --out 3   ###这命令是对数据过滤在此就不详细介绍。

利用质控后的数据进行以后的分析。

可以做亲缘关系检测分析

plink --noweb --file 3 --genome --out 4   ### 3表示质控后的PED和MAP文件

输出:4.genome

可以算近交系数分析

plink --noweb --file 3 --het --out 5

输出文件 :5.het

如果结果出现负值,并且值越小时,说明观察到的杂合子较多,可能出现样品污染或者异族通婚等。

还可以用plink计算连锁不平衡(LD)值,单倍型分析等等。在此就不一一解释,后面我会继续更新文章,对SNP的质控,LD分析等做详细的介绍。

你可能感兴趣的:(PLINK的简单应用和一些常用命令)