ACMG指南解读笔记(0)- 定个小目标

  • 好久没有更新内容,照理来说对于call出来的SNVs/INDELs,下一步的工作就是筛选了,一般的筛选方式大体会有这些步骤:
    • 保留数据库中已报道的致病位点(Clinvar、HGMD)
    • 过库筛选(人群频率数据库)
    • 保留coding区域(一般是exonic和splicing,下同)
    • 保留有害位点(通过预测软件打分)
    • 去除非高度保守区同义突变(GERP++等判别)
    • 遗传模式过滤
    • 以及其他
  • 如果在某疾病患者中(指单基因遗传病,符合孟德尔遗传定律,下同),找到了该疾病已经报道的致病突变位点,那大体来说,这个位点就会被判断为该患者的致病突变。
  • 在这里,我们一般更认可HGMD中收录的记录,相对来说,Clinvar就是一个比较“脏”的数据库,因为这个公共数据库中的位点信息是大家都可以上传的,没有经过专门的筛选和“清洗”,真实性相对较差。而反过来,Clinvar是一个免费数据库,可以随时下载使用;HGMD的专业版收费是真的高,一般的课题组怕是很难吃得消,HGMD的公开版不收录近三年的信息(别看三年,差异很大,尤其是现在科学进展越来越快),只提供检索,不提供下载。所以要是买不起HGMD,Clinvar也就将就一点凑活用吧。
  • 但是,经过上面的筛选,其实大多数病例的致病原因都是无法解释的。那么就需要我们常规的一些筛选策略了。其中首选的就是基于人群频率数据库的过滤。我们一般认为,一个变异在多数人身上存在,那这个变异应该是良性的(benign),看文献,绝大多数的方法里都有这一步。
  • Annovar提供了很多的人群频率数据库,那么我们怎么选呢?
    • 考虑到种族特异性,尽量选择东亚人群数据库(1000gEAS等)
    • 尽量选择多个数据库(1000g,ESP6500等)
    • 尽量选择正常人群数据库
    • 考虑选择大家常用的知名数据库(1000g,gnomad,ESP6500等)
  • 阈值的话可以考虑5%(常见变异和稀有变异的交界),1%(很多文献都是这个值),0.5%(稀有突变和罕见突变的交界),你要说区别有多大,得看你疾病的发病率了,我们做罕见疾病,筛选到后来,基本剩下的位点的人群频率都比上面三个数小,所以区别不大。但这一步能帮你筛掉很多的变异。
  • 保留coding是因为noncoding的变异没有很好的筛选策略,而80%的遗传病病因可以用coding区突变来解释(教科书上这么说的),所以现在做WES的很多。
  • 通过预测软件对位点的有害性进行打分。SIFT,Polyphen,MutationTaster,CADD是我们常用的四个软件,一般说半数以上预测有害,就认为有害。当然,既然是预测软件,就存在一定的偏差,可能会漏掉一些不常规的有害变异,或者保留一些良性变异。
  • 同义突变不改变氨基酸,但目前的研究发现,并不是说同义突变就不致病,但是对于大多数同义突变,尤其是非保守区的同义突变,我们还是认为它是良性的。
  • 遗传模式是基于家系数据进行判断致病性的一个比较好的方式。比如,当该疾病只在患者身上有临床表现,我们就考虑纯合突变,新发突变或复合杂合突变。
  • 同时也会着重考虑OMIM上该疾病已经报道的相关基因上的变异位点。
  • 还有一些其他的我也没考虑到的过滤方式(欢迎大家发邮件交流补充!!!)

  • 可能有一些朋友要问,我为什么要根据上面的条件过滤?依据又是什么??还有什么值得注意的地方???有没有什么金标准????
  • 说到金标准,还真是有的。
  • 2015年的时候,由美国医学遗传学与基因组学学会(The American College of Medical Genetics and Genomics, ACMG),分子病理协会(the Association for Molecular Pathology, AMP)和美国病理学家协会(the College of American
    Pathologists, CAP)的代表撰写修订了序列变异解读的标准和指南,发表在nature子刊GIM上,指南原文在这里能看到,当然也可以去GIM上搜。
  • 对于遗传专业术语不太了解的同学,可能在解读原版指南的时候很痛苦。那也不用怕,在该指南发布后,国内外超过30家单位的几十位业界大佬共同翻译了该指南,链接在这里,这样至少在解读上轻松了一半。
  • 在解读完该指南后,你就会发现,上述筛选条件,基本都有指南的影子。毕竟该指南是号称可直接应用于临床,所以理解该指南对于变异的筛选还是很有帮助的。
  • 但问题也是有的,以下所列都是个人观点,若是理解不当望指出:
    • 临床是临床,科研是科研,临床和科研的目的是不一样的,如果全用这套指南去科研,怕是很难找出新的位点或基因。
    • 该指南甚是全面了,但是很多证据的解读,不同的人怕是存在分歧的。
    • 该指南在理解上可能不是很难,但实际去判断就存在很大的困难了。
    • 2017年的时候annovar的作者王凯大神根据指南写了一个软件InterVar,发表在AJHG上,原文链接在这里,软件挂在github上,链接在这里,网页版软件的链接在这里,结果文件intervar_20180118在annovar上直接可以下载,方法可参考我之前的文章。只能说大神不愧是大神,真是一件喜大普奔的事情。但是存在一些问题:
      • 由于版权问题,作者用到的结果是基于Clinvar而不是HGDM
      • 由于不同的疾病本身存在的特异性,加之指南有些证据难以通过软件进行判断,intervar一些证据是默认为False的,需要手动判断
      • 网页版intervar虽然能手动较为直观的设定特异性参数,但是不利于批量判断,且不含indel信息
  • 本着加深学习的目的,我决定逐条解读这些证据(共28个证据,16个角度)。本来想自己一个人这么做的,发现难度不小,有些证据我真的很难正确的解读,想组队讨论,又找不到又闲又感兴趣的(身边做这个的人太少啦,所以特别希望能有人一起交流讨论)。所以就打算写成系列文章挂出来,接受广大人民群众的diss。
  • 我会基于中文版ACMG指南,参考InterVar文章和源码,较为详细的解读每一个证据(flag是立下来了,督促自己!),然后尽量重构Intervar。最后参考Sherloc: a comprehensive refinement of the ACMG–AMP variant classification criteria(基于指南的分析框架,让指南更便于实现)进行调整。

水平有限,要是存在什么错误请评论指出,可发送邮件至[email protected]!请大家多多批评指正,相互交流,共同成长,谢谢!!!

可以看我的主页(tongshiyuan.github.io),第一时间修改错误、发布新文章,上的文章可能无缘无故会被锁。

你可能感兴趣的:(ACMG指南解读笔记(0)- 定个小目标)