很久没有更新,被老板抓走做别的去了。
主要数据集下载
阅读使用手册上,会有一些field,bulk, individuals这样的词,比较难以对应网站上的标签。下面我来讲解一下网站标签的对应。进去点击“Catalogues”(https://biobank.ndph.ox.ac.uk/showcase/catalogs.cgi?tk=Sg3qJFY27r3WRu6KR4GdRTqN6W3KEW5T130717)会有上述的类别。Fields指个体数据,Categories指对应表型特征,Returns表述研究反馈结果,Resources是数据采集时一些资料,Schema是biobank数据内部结构。
例如,找到blood biochemistry 中的数据对应项:https://biobank.ndph.ox.ac.uk/showcase/label.cgi?tk=Sg3qJFY27r3WRu6KR4GdRTqN6W3KEW5T130717&id=17518,接着推荐UKBB关联的几个软件,用来读入UKBB数据,进行下载和格式转换。
1.根据手册首先需要获取以下文件
UKB data download
wget -nd biobank.ndph.ox.ac.uk/showcase/util/ukbmd5
chmod 755 ukbmd5
wget -nd biobank.ndph.ox.ac.uk/showcase/util/ukbconv
chmod 755 ukbconv
wget -nd biobank.ndph.ox.ac.uk/showcase/util/ukbunpack
chmod 755 ukbunpack
wget -nd biobank.ndph.ox.ac.uk/showcase/util/ukbfetch
chomd 755 ukbfetch
wget -nd biobank.ndph.ox.ac.uk/showcase/util/ukblink
chmod 755 ukblink
wget -nd biobank.ndph.ox.ac.uk/showcase/util/ukbgene
chmod 755 ukbgene
2.基因型数据获取
#!/bin/sh
#SBATCH --account=nn9769k --job-name=imp
#SBATCH --partition=bigmem
#SBATCH --time=7-0:0:0
#SBATCH --ntasks=2 --cpus-per-task=4
#SBATCH --mem-per-cpu=32G
if [[ $1 != "cal" && $1 != "con" && $1 != "int" && $1 != "baf"
&& $1 != "l2r" && $1 != "imp" && $1 != "hap" ]]
then
echo "First param must be one of cal,con,int,baf,l2r,imp,hap"
exit
fi
#
# Loop through chromosomes
#
for CHR in {1..26}
do
ukbgene $1 -c$CHR -a.ukbkey
done
3.获取R文件
+++++++++++++++++++++Converting to a R file(tab)++++++++++++++++++++++
../ukbunpack ukbXXXXX.enc ../kxxxxx.key
home/UKBiobank/ukbconv ukbxxxxx.enc_ukb txt
4.表型文件获取
这里推荐ukbhelper
python3 ./ukb_helper.py pheno --input "../ukbxxxx.csv" --fields 31 21003 34 52 54 53 21000 189 --out home/UKBiobank/phenotype_data/primary_demographics/primary_demographics
5.其实在UKBB赋予权限后,掌握上述基因型表型获取方式,基本就可以完全拿到UKBB原始数据
我目前手边工作忙完,可能会接入UKBB原始数据质控等项目,我会继续更新。