CADD数据库简介

欢迎关注"生信修炼手册"!

衡量一个变异位点的影响时,通常都是给定一个变异类型,比如synonymous SNV 等,来表明其影响。CADD独创了一种打分算法,来衡量变异位点的有害程度。

对于一组变异位点,CADD 结合等位基因的多态性,变异的致病性等多个因素,构建了一套模型,对每个变异位点进行评估,并给出一个具体的得分,简称C-Scores。 统计模型直接给出的打分叫做RawScore, 这个值越高,代表该变异位点是一个有害突变的概率越高。

对于不同组的变异位点,比如对于1000G和ESP两批变异位点而言,由于各因素的差异,其模型是不同的,RawScore在不同模型间是无法直接比较的。所以提出了scaled C-scores的概念。对RawScores进行从大到小排序,采用-10*log10(rank/total)的公式计算出scaled C-scores。由于这个公式和phread的定义方式类似,所以scaled C-scores也叫做PHREAD

在分析潜在的致病变异位点时,通常会对PHREAD进行过滤。官方推荐阈值为10,15,20都可以,但是更加推荐结合C-Scores和其他实验证据来对变异位点的致病性进行评估,而不是单纯的进行一个数值过滤。

CADD官网提供了以下3种服务

1. 下载服务

链接如下:

http://cadd.gs.washington.edu/download

对应不同的数据集,比如1000G, ESP, Exac 等都给出了对应的 CADD score

CADD数据库简介_第1张图片

下载的文件内容如下:

#Chrom    Pos    Ref    Alt    RawScore    PHRED
1    861349    C    T    6.591020    31
1    865545    G    A    5.989520    27.8
1    865584    G    A    3.632951    23.2
1    865625    G    A    5.624605    26.6
1    865628    G    A    2.938829    22.0
1    865662    G    A    1.597527    13.84

2. 在线注释服务

通过在线服务,可以对变异位点进行CADD打分。链接如下:

http://cadd.gs.washington.edu/score

CADD数据库简介_第2张图片

上传VCF格式的文件,一次最多允许10000个变异位点,然后点击Upload variants就可以开始分析。结果如下

## CADD v1.3 (c) University of Washington and Hudson-Alpha Institute for Biotechnology 2013-2015. All rights reserved.
#CHROM    POS    REF    ALT    RawScore    PHRED
16    50745926    C    T    4.355927    24.1
20    1110696    A    G    0.142763    4.068
20    1110696    A    T    0.005222    2.636
20    1234567    TTCT    T    -0.369022    0.459
20    1234569    C    AC    -0.290183    0.699

3. 在线检索

链接如下:

http://cadd.gs.washington.edu/snv

在如下所示的页面中输入SNV位点的位置,然后点击Lookup variant按钮进行提交

CADD数据库简介_第3张图片

返回结果如下

CADD数据库简介_第4张图片

扫描关注微信号,更多精彩内容等着你!

CADD数据库简介_第5张图片


你可能感兴趣的:(CADD数据库简介)