重复一篇文献的GWAS（一）：基因型数据整理

文献：A new regulator of seed size control in Arabidopsis identified by a genome-wide association study

数据来源：1001 Genomes Project website
http://1001genomes.org/data/GMI-MPI/releases/v3.1/

1. 下载原始vcf文件

因为不确定这篇文献用的哪一个群体vcf文件，所以两个都下载了，想查看vcf的维度，查看多少列好说，但是用命令行提取第一列想看看有多少个SNP时，遇到了很大困难，太慢了。

18G Sep 25  2015 1001genomes_snp-short-indel_only_ACGTN.vcf.gz
133G Sep 26  2015 1001genomes_snp-short-indel_with_tair10_only_ACGTN.vcf.gz

这两个vcf文件的列是一样的，都是1135个样本。行的话，第2个文件包含基因组的每一个位置（包括没有测到以及没有多态性的点），所以文件很大。据此应该可以确定，第一个才是需要用到的vcf文件。只保留snp的记录，并根据这篇文献用到的样本提取列就可以了。

认识一种新格式：hdf5
除了上面两个群体vcf文件，还能找到下面这个snp矩阵文件，采用一种hdf5的格式存储，这种格式专门用来存储大数据，在Python中有专门的工具来读取，速度挺快。里面存储的snp都是过滤掉triallelic的。

877M Dec  5  2014 imputed_snps_binary.hdf5

$ ~/miniconda3/bin/python3.6
>>> import h5py
>>> import os
>>> import numpy as np
>>> file_name = 'imputed_snps_binary.hdf5'
>>> f = h5py.File(file_name, 'r')
>>> f.keys()

>>> a=f['accessions'][:]
>>> b=f['positions'][:]
>>> c=f['snps'][:]
>>> a
array([b'88', b'108', b'139', ..., b'19949', b'19950', b'19951'],
      dtype='|S5')
>>> len(a)
1135
>>> b
array([      55,       56,       63, ..., 26975445, 26975448, 26975450],
      dtype=int32)
>>> len(b)
10709949
>>> c
array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int8)
>>> c.shape
(10709949, 1135)

根据最后一行可知：10.7M的snp。

2. 根据样本提取vcf

根据文献补充材料提供的样本编号提取，用到的是vcftools，之前总结过vcftools过滤的用法。

从整理的结果来看，在191个样本中19个样本是没有GWAS ID的，这部分是怎么回事呢？在1001 Genomes Project项目官网提供的1135个accessions的详细信息中，也没有找到这19个accession的记录。难道这19个是作者自己测的重测序数据吗？
只能先用172个样本的了，这是我的过滤命令

nohup vcftools --gzvcf 1001genomes_snp-short-indel_only_ACGTN.vcf.gz \
--remove-indels --min-alleles 2 --max-alleles 2 \
--recode --keep sample.list --out 172sample &

After filtering, kept 172 out of 1135 Individuals
Outputting VCF file...
After filtering, kept 10707430 out of a possible 12883854 Sites
Run Time = 6859.00 seconds

10.7M的snp，注意：在提取172样本之后，这10.7M记录里面可能还有些是在172个样本中没有出现的，要过滤掉。

是这样吗？统计一下就知道了。

nohup vcftools --vcf 172sample.recode.vcf --freq --out freq &

$ lsx freq.frq | head -n 5
CHROM   POS N_ALLELES   N_CHR   {ALLELE:FREQ}
1   55  2   158 C:1 T:0
1   56  2   166 T:1 A:0
1   63  2   138 T:0.971014  C:0.0289855
1   73  2   146 C:0.945205  A:0.0547945

#看看第四列出现了多少个0，此时5,6列变为-nan，共8943行
#（这里我试了一下nohup vcftools --vcf 172sample.recode.vcf --maf 0 --max-maf 1 --recode --out 172sample.1 看能不能过滤掉-nan的情况，结论是不能）

第五列、第六列出现了基因频率是1、0的情况，是说群体中该位点全部都是ALT，这可能是参考基因组组装错了，也可能是被选来做组装的那个样本在该位点存在SNP，这也要过滤掉。这两处的过滤可以放在MAF那一步过滤，现在先放着。

3. 填充

现在看一下文献是怎么做的。

nohup java -Xss5m -Xmn25G -Xms100G -Xmx100G -jar \
~/mysoft/beagle/beagle.12Jul19.0df.jar nthreads=2 \
gt=172sample.recode.vcf out=172sample_out ne=172 &
#可能会遇到内存溢出的报错

这一步用时很长，14.5小时，没有过滤，全部填充了，10707430个SNP。

4. 根据MAF过滤

再来根据MAF过滤。

nohup vcftools --gzvcf 172sample_out.vcf.gz --maf 0.05 \
--recode --out 172sample_maf_filter &

提出一个疑问，在查看vcf文件时，看到了0|0,1|1这两种基因型，但是没有看到0|1这种基因型。我在想是不是1001 Genomes Project这个项目只区分有/无这个变异，而不区分纯合/杂合变异，或者是这些样本足够纯合。

$ lsx 172sample_maf_filter.recode.vcf | grep "^#" -v | wc -l
1656967

1.66M的SNP。和文献中有差异，应该是那19个样本没有参与进来导致的。

剧透：下文两个文件要用到SNP的ID，因为最原始的vcf文件第三列没有ID，我只能自己加了。

$ lsx 172sample_maf_filter.recode.vcf | head -n 10 > header
$ lsx 172sample_maf_filter.recode.vcf | grep "^#" -v | awk '{$3=$1"_"$2;print $0}' | sed 's/ /\t/g' > body &
$ cat header body > 172sample_maf_filter_snpID.vcf &

5. 接下来是基于连锁不平衡/LD的过滤

Linkage disequilibrium based SNP pruning

在这一步之后，剩下的SNP彼此之间可以看作是连锁平衡的，这样就能减少曼哈顿图中“冒出”一串点的情况。

参考：
https://www.jianshu.com/p/57c2dbda8a86
http://zzz.bwh.harvard.edu/plink/summary.shtml#prune

第1步：将vcf转成ped

老版本的PLINK不能将vcf格式转为ped（plink 2009, vcf 2010），这一步就用PLINK 1.9吧

nohup plink --vcf 172sample_maf_filter_snpID.vcf --recode --out 172sample &

# 生成
# 172sample.log  172sample.map  172sample.ped  172sample.nosex
# map和ped是主要结果，这两种格式比较重要，可以了解一下

第2步：生成list

nohup ~/mysoft/plink-1.07-x86_64/plink --file 172sample --indep 50 5 2 &

# 生成
# plink.prune.in plink.prune.out
# Each is a simlpe list of SNP IDs; both these files can subsequently be specified as the argument for a --extract or --exclude command.

vcf文件里面如果没有SNP ID，得到的这两个文件里面每一行都只有一个点“.”。

第3步：根据list提取SNP

$ head -n 4 plink.prune.in
1_63
1_92
1_138
1_266
$ lsx plink.prune.in | wc -l
335565

$ nohup ~/mysoft/plink-1.07-x86_64/plink --file 172sample \
--extract plink.prune.in --recode --out 172sample_maf_filter_snpID_LD_filter &

335.6K的SNP，和原文献很接近了，
到这一步基因型数据算是整理完了。