笔记:CMDB-大规模中国人群体变异频率数据库

CMDB:大规模中国人群体变异频率数据库

  • 简介
  • 安装
    • 1、命令行直接安装
    • 2、git安装
    • 3、查看帮助信息
  • 使用
    • 1、API使用许可
    • 1.2 使用
      • 1.2.1 登录
      • 1.2.2 查询
        • 1.2.2.1 位点信息查询
        • 1.2.2.2 注释到vcf
      • 1.2.3 登出

简介

CMDB(全称是Chinese Millionome Database),大约包含了9M个高质量的变异位点(约占人类基因组总长的0.003)。

数据库网站的第一版是参考ExAC做的,使用的底层框架是常见的Nginx+Flask+MongoDB。可通过Genome API访问,不过CMDB中的数据不能够被下载。

CMBD官网地址:
开发者知乎介绍:https://zhuanlan.zhihu.com/p/52238870
作者解读CMDB:https://mp.weixin.qq.com/s?__biz=MzAxOTUxOTM0Nw==&mid=2649798742&idx=1&sn=3b27cafe9ecd8ecd3c35bc1b1dbad947&chksm=83c1da4ab4b6535cd6265f600375f524ec071b8155462e5e042bfa013a42b98300b74efa740b&scene=21#wechat_redirect
Git 软件说明:https://github.com/ShujiaHuang/cmdbtools

安装

1、命令行直接安装

pip install cmdbtools

2、git安装

地址:https://github.com/ShujiaHuang/cmdbtools

pip install git+git://github.com/ShujiaHuang/cmdbtools.git#egg=cmdbtools

3、查看帮助信息

cmdbtools --help
usage: cmdbtools [-h]
                {login,logout,print-access-token,annotate,query-variant} ...

Manage authentication for CMDB API and do querying from command line.

optional arguments:
 -h, --help            show this help message and exit

Commands:
 {login,logout,print-access-token,annotate,query-variant}
   login               Authorize access to CMDB API.
   logout              Logout CMDB.
   print-access-token  Display access token for CMDB API.
   annotate            Annotate input VCF.
   query-variant       Query variant by variant identifier or by chromosome
                       name and chromosomal position.

使用

1、API使用许可

申请API AK, 提交申请:
笔记:CMDB-大规模中国人群体变异频率数据库_第1张图片

官方批准后获得:
笔记:CMDB-大规模中国人群体变异频率数据库_第2张图片

1.2 使用

1.2.1 登录

your-genomics-api-key为获批的API AK

cmdbtools login -k your-genomics-api-key

1.2.2 查询

1.2.2.1 位点信息查询

以 chr17-41223094-T-C 为例:

cmdbtools query-variant -c chr17 -p 41223094 > ch17_41223094.vcf

或者 以输入文件(positions.list )的形式导入要查询的位点信息

cmdbtools query-variant -l positions.list > result.vcf

positions.list如下:

#CHROM  POS
chr22	17662378
chr22	17662408
22	17662442
22	17662444
22	17662699
22	17662729
22	17662766
22	17662767
22	17662793
22	17662794
22	17662853
22	17662883
chr22	17662917
22	17663530
22	17663561
22	17663586
22	17669232
22	17669238
22	17669239
22	17669241
22	17669245
22	17669265
22	17669339
22	17670869
22	17670877
22	17672663
22	17684454
22	17684466
22	17684477
22	17684546
22	17684627
22	17684643
22	17687954
22	17687992
22	17687997
22	17688069
22	17688144
22	17688167
22	17688177
22	17690290
22	17690374
22	17690382
22	17690409
22	17690423
22	17690424
22	17690425
22	17690428
22	17690428
22	17690429
22	17690429
22	17690468
22	17690485
22	17690496
22	17662353    17663671
22	17669209    17669357

1.2.2.2 注释到vcf

直接对vcf.gz文件进行注释:

cmdbtools annotate -i multiple_samples.vcf.gz > multiple_samples_CMDB.vcf

你可以的到如下的结果:

##fileformat=VCFv4.2
##ALT=
##FILTER=
##INFO=
##INFO=
##INFO=
##INFO=
##reference=file:///home/tools/hg19_reference/ucsc.hg19.fasta
##INFO=
##INFO=
##INFO=
##INFO=
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
chr21   9413612 .       C       T       6906.62 .       AC=25;AF=0.313;AN=80;BaseQRankSum=0.425;CMDB_AC=2459;CMDB_AF=0.207525;CMDB_AN=11834;CMDB_FILTER=PASS
chr21   9413629 .       C       T       8028.88 .       AC=30;AF=0.375;AN=80;BaseQRankSum=-1.200e+00;CMDB_AC=6906;CMDB_AF=0.305445;CMDB_AN=22406;CMDB_FILTER=PASS
chr21   9413700 .       G       A       7723.82 .       AC=30;AF=0.375;AN=80;BaseQRankSum=-9.000e-02
chr21   9413735 .       C       A       10121.72        .       AC=35;AF=0.438;AN=80;BaseQRankSum=0.977;CMDB_AC=2385;CMDB_AF=0.283965;CMDB_AN=8382;CMDB_FILTER=PASS
chr21   9413839 .       C       T       8192.08 .       AC=28;AF=0.350;AN=80;BaseQRankSum=-5.200e-02
chr21   9413840 .       C       A       11514.35        .       AC=38;AF=0.475;AN=80;BaseQRankSum=0.253
chr21   9413870 .       T       C       7390.60 .       AC=26;AF=0.325;AN=80;BaseQRankSum=-4.270e-01
chr21   9413880 .       T       A       146.96  .       AC=1;AF=0.013;AN=80;BaseQRankSum=2.12;ClippingRankSum=0.00
chr21   9413909 .       G       A       1131.78 .       AC=10;AF=0.125;AN=80;BaseQRankSum=0.549;CMDB_AC=209;CMDB_AF=0.01507;CMDB_AN=13683;CMDB_FILTER=PASS
chr21   9413913 .       C       T       8120.65 .       AC=28;AF=0.350;AN=80;BaseQRankSum=-4.390e-01;CMDB_AC=2870;CMDB_AF=0.205597;CMDB_AN=13955;CMDB_FILTER=PASS
chr21   9413945 .       T       C       43787.68        .       AC=71;AF=0.888;AN=80;BaseQRankSum=0.089
chr21   9413995 .       C       T       9632.44 .       AC=29;AF=0.363;AN=80;BaseQRankSum=0.747
chr21   9413996 .       A       G       41996.48        .       AC=71;AF=0.888;AN=80;BaseQRankSum=-1.242e+00;CMDB_AC=3308;CMDB_AF=0.688533;CMDB_AN=4790;CMDB_FILTER=PASS
chr21   9414003 .       T       C       4256.54 .       AC=19;AF=0.238;AN=80;BaseQRankSum=-6.030e-01

结果说明:
CMDB_AF: CMDB数据库中的突变频率信息;
CMDB_AN: 该位点在CMDB数据库中总的群体覆盖深度;
CMDB_AC: 该位点在CMDB数据库中支持该变异的群体覆盖深度;
CMDB_FILTER:质控标记,一般是PASS

1.2.3 登出

cmdbtool logout

你可能感兴趣的:(生物信息软件,数据库,python,数据库,生物学,git,github)