【plink系列】第2篇-如何修改plink里的样本信息

接着上次写了plink的第1篇基本格式后,小Q今天开始写第2篇-如何修改plink里的样本信息啦!

  • 第1篇-数据格式:https://www.jianshu.com/p/ebaa8311b318

首先我们假设数据是这个样子的,2个样本,2个SNP,这里采用ped & map

plink.ped & plink.map
ped: 家庭ID 样本ID 父亲ID 母亲ID 性别 疾病状态 SNP1的基因型 SNP2的基因型
ind1FID ind1IID F1 M1 1 0 A G G T
ind2FID ind2IID F2 M2 2 0 G G T T
map: 染色体号 SNPID 遗传距离 物理距离
1 snp1 0 100
2 snp2 0 1000
这些信息怎么表示请见《第1篇-数据格式:https://www.jianshu.com/p/ebaa8311b318》

plink里记录的样本信息主要包括以下几种:

  1. family ID:家庭ID
  2. 个体ID
  3. 父亲ID
  4. 母亲ID
  5. 性别
  6. 患病状态

所以更新样本信息主要是更新以下几类:

  1. 样本自己的ID
  • --update-ids expects input with the following four fields:
    Old family ID
    Old within-family ID
    New family ID
    New within-family ID
  • inputfile内容如下
    ind1FID ind1IID ind1FID2 ind1IID2
  • 命令行
    plink --file plink --update-ids inputfile --recode --out newplink
  1. 父母的ID
  • --update-parents expects the following four fields:
    Family ID
    Within-family ID
    New paternal within-family ID
    New maternal within-family ID
  • inputfile内容如下
    ind1FID ind1IID F1new M1new
  • 命令行
    plink --file plink --update-parents inputfile --recode --out newplink
  1. 性别
  • --update-sex
    Family ID
    Within-family ID
    sex information (1 or M = male, 2 or F = female, 0 = missing)
  • inputfile内容如下
    ind1FID ind1IID 2
  • 命令行
    plink --file plink --update-sex inputfile --recode --out newplink

下期预告:

  • 第3篇-如何利用plink提取部分数据
  • 第4篇-如何利用plink合并不同来源的数据
    ......

喜欢的小伙伴,点个喜欢或赞赏下吧!

转载请标明出处和作者 ^+^

撰文 & 编辑:VickieQ
校对:HCLO4 & 花毛

你可能感兴趣的:(【plink系列】第2篇-如何修改plink里的样本信息)