UKBB数据集下载流程(第二节)

很久没有更新,被老板抓走做别的去了。


主要数据集下载

阅读使用手册上,会有一些field,bulk, individuals这样的词,比较难以对应网站上的标签。下面我来讲解一下网站标签的对应。进去点击“Catalogues”(https://biobank.ndph.ox.ac.uk/showcase/catalogs.cgi?tk=Sg3qJFY27r3WRu6KR4GdRTqN6W3KEW5T130717)会有上述的类别。Fields指个体数据,Categories指对应表型特征,Returns表述研究反馈结果,Resources是数据采集时一些资料,Schema是biobank数据内部结构。

例如,找到blood biochemistry 中的数据对应项:https://biobank.ndph.ox.ac.uk/showcase/label.cgi?tk=Sg3qJFY27r3WRu6KR4GdRTqN6W3KEW5T130717&id=17518,接着推荐UKBB关联的几个软件,用来读入UKBB数据,进行下载和格式转换。

1.根据手册首先需要获取以下文件

UKB data download

wget  -nd  biobank.ndph.ox.ac.uk/showcase/util/ukbmd5

chmod 755 ukbmd5

wget  -nd  biobank.ndph.ox.ac.uk/showcase/util/ukbconv

chmod 755 ukbconv

wget  -nd  biobank.ndph.ox.ac.uk/showcase/util/ukbunpack

chmod 755 ukbunpack

wget  -nd  biobank.ndph.ox.ac.uk/showcase/util/ukbfetch

chomd 755 ukbfetch

wget  -nd  biobank.ndph.ox.ac.uk/showcase/util/ukblink

chmod 755 ukblink

wget  -nd  biobank.ndph.ox.ac.uk/showcase/util/ukbgene

chmod 755 ukbgene

2.基因型数据获取

#!/bin/sh

#SBATCH --account=nn9769k  --job-name=imp

#SBATCH --partition=bigmem

#SBATCH --time=7-0:0:0

#SBATCH --ntasks=2 --cpus-per-task=4

#SBATCH --mem-per-cpu=32G

if [[ $1 != "cal" && $1 != "con" && $1 != "int" && $1 != "baf"

        && $1 != "l2r" && $1 != "imp" && $1 != "hap" ]]

then

  echo "First param must be one of cal,con,int,baf,l2r,imp,hap"

  exit

fi

#

# Loop through chromosomes

#

for CHR in {1..26}

do

  ukbgene $1 -c$CHR -a.ukbkey

done

3.获取R文件

+++++++++++++++++++++Converting to a R file(tab)++++++++++++++++++++++

../ukbunpack ukbXXXXX.enc ../kxxxxx.key

home/UKBiobank/ukbconv ukbxxxxx.enc_ukb txt

4.表型文件获取

这里推荐ukbhelper

python3 ./ukb_helper.py pheno --input "../ukbxxxx.csv" --fields 31 21003 34 52 54 53 21000 189 --out home/UKBiobank/phenotype_data/primary_demographics/primary_demographics

5.其实在UKBB赋予权限后,掌握上述基因型表型获取方式,基本就可以完全拿到UKBB原始数据




我目前手边工作忙完,可能会接入UKBB原始数据质控等项目,我会继续更新。

你可能感兴趣的:(UKBB数据集下载流程(第二节))