2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式

学会了基本的plink之后,就要开始学习了解输入文件的格式了。
详细的格式建议看官网
因为之前以及接触过几次,这里来个详细的归总
主要认识 ped map bed fam bim 这五种格式
其中 :

ped 和 map 是一组的
bed fam bim 是一组的

ped

2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第1张图片
ped.png

1.ped 包含样本的谱系信息和基因型信息
2.ped 必须与fam 文件一起,前6个字段与fam文件对应
3.使用recode 产生ped文件

ped-eg.png

举个例子
每一行是一个个体,前六列是固定的,从第七列开始后面就是每个snp位点的基因型情况,第七列第八列就是第一个snp位点,第九列第十列就是第二个snp位点,依次类推。。。 其中 0 代表 no calling, 从图中可以看出 第一个个体第一个snp 就是 00 第二个个体第二个snp 就是 AG 。
我们再回过头来看前六列:
第一列 Family ID
第二列 Individual ID
第三列 Paternal ID
第四列 Maternal ID
第五列 Sex (1=male; 2=female; other=unknown)
第六列 Phenotype

这里要主要的是,对于表型


2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第2张图片
注意.png

map

2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第3张图片
map

1.map文件和ped文件是一起的,表示每个SNP的信息
2.总共有4列

2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第4张图片
详细解释

2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第5张图片
举个例子

第一列代表染色体
第二列代表snp的名称
第三列代表摩尔距离,一般用不上
第四列代表物理距离,这个有用的

第二组开始

bed

bed.png

1.首先这里强调的是bed文件与UCSC Genome Browser's BED format 是完全不一样的。
2.bed 文件与bim fam 文件一起的
3.bed文件是一个二进制文件,所以你是看不来的


2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第6张图片
一定要和其他两个文件一起

采用二进制的方式保存文件,代表的数据意义和其他两个文件对应

bim

2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第7张图片
bim

1.从这个说明我们可以看出bim文件是对map文件的拓展
2.总共有六行,包含了snp(variants)的具体信息、
3.这个文件也是要和bed fam 文件结合来使用


2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第8张图片
eg

我们来看个例子:
1.第一列是染色体信息
2.第二列是snp的名字
3.第三列是摩尔距离,文件中说可以用0,没关系
4.第四列是物理距离
5.第五列是次要等位基因
6.第六列是主要等位基因

这里的信息要和bed文件对应起来

fam

2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第9张图片
fam

1.fam文件记录了每个样本家系的信息
2.fam文件也是必须和bed bim文件一起使用
3.主要有6 列

2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第10张图片
fam-eg

1.第一列是Family ID ('FID')
2.第二列是Within-family ID ('IID'; cannot be '0')
3.第三列是Within-family ID of father ('0' if father isn't in dataset)
4.第四列是Within-family ID of mother ('0' if mother isn't in dataset)
5.第五列是性别 ('1' = male, '2' = female, '0' = unknown)
6.第六列是表型 ('1' = control, '2' = case, '-9'/'0'/non-numeric = missing data if case/control)

看到这里我发现其实这个和ped文件格式太像了,是代表信息的提取,这样的格式更加利于观察

以上就会5中常用格式的介绍,中间还有很多的细节,需要去理解。

这两组格式的数据可以相互转化,还可以使用--recode(eg. recodeA recodeAD)来进行编码,这个使用数据更加灵活

最简单的就是入下

ped map 转 bed bim fam

plink --file toy --out toy
2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第11张图片
ped:map转bed:bim:fam

当然有些时候转要加 --make-bed

现在我再倒过来转回去

bed bim fam 转 ped map

plink --bfile toy --recode --out toy1
2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式_第12张图片
反转

OK了

PS:一定要多看官方的网站

你可能感兴趣的:(2018-10-31 GWAS实战(三)plink 进阶之认识常用文件格式)