ACMG指南解读笔记（0）- 定个小目标

好久没有更新内容，照理来说对于call出来的SNVs/INDELs，下一步的工作就是筛选了，一般的筛选方式大体会有这些步骤：
- 保留数据库中已报道的致病位点（Clinvar、HGMD）
- 过库筛选（人群频率数据库）
- 保留coding区域（一般是exonic和splicing，下同）
- 保留有害位点（通过预测软件打分）
- 去除非高度保守区同义突变（GERP++等判别）
- 遗传模式过滤
- 以及其他
如果在某疾病患者中（指单基因遗传病，符合孟德尔遗传定律，下同），找到了该疾病已经报道的致病突变位点，那大体来说，这个位点就会被判断为该患者的致病突变。
在这里，我们一般更认可HGMD中收录的记录，相对来说，Clinvar就是一个比较“脏”的数据库，因为这个公共数据库中的位点信息是大家都可以上传的，没有经过专门的筛选和“清洗”，真实性相对较差。而反过来，Clinvar是一个免费数据库，可以随时下载使用；HGMD的专业版收费是真的高，一般的课题组怕是很难吃得消，HGMD的公开版不收录近三年的信息（别看三年，差异很大，尤其是现在科学进展越来越快），只提供检索，不提供下载。所以要是买不起HGMD，Clinvar也就将就一点凑活用吧。
但是，经过上面的筛选，其实大多数病例的致病原因都是无法解释的。那么就需要我们常规的一些筛选策略了。其中首选的就是基于人群频率数据库的过滤。我们一般认为，一个变异在多数人身上存在，那这个变异应该是良性的（benign），看文献，绝大多数的方法里都有这一步。
Annovar提供了很多的人群频率数据库，那么我们怎么选呢？
- 考虑到种族特异性，尽量选择东亚人群数据库（1000gEAS等）
- 尽量选择多个数据库（1000g，ESP6500等）
- 尽量选择正常人群数据库
- 考虑选择大家常用的知名数据库（1000g，gnomad，ESP6500等）
阈值的话可以考虑5%（常见变异和稀有变异的交界），1%（很多文献都是这个值），0.5%（稀有突变和罕见突变的交界），你要说区别有多大，得看你疾病的发病率了，我们做罕见疾病，筛选到后来，基本剩下的位点的人群频率都比上面三个数小，所以区别不大。但这一步能帮你筛掉很多的变异。
保留coding是因为noncoding的变异没有很好的筛选策略，而80%的遗传病病因可以用coding区突变来解释（教科书上这么说的），所以现在做WES的很多。
通过预测软件对位点的有害性进行打分。SIFT，Polyphen，MutationTaster，CADD是我们常用的四个软件，一般说半数以上预测有害，就认为有害。当然，既然是预测软件，就存在一定的偏差，可能会漏掉一些不常规的有害变异，或者保留一些良性变异。
同义突变不改变氨基酸，但目前的研究发现，并不是说同义突变就不致病，但是对于大多数同义突变，尤其是非保守区的同义突变，我们还是认为它是良性的。
遗传模式是基于家系数据进行判断致病性的一个比较好的方式。比如，当该疾病只在患者身上有临床表现，我们就考虑纯合突变，新发突变或复合杂合突变。
同时也会着重考虑OMIM上该疾病已经报道的相关基因上的变异位点。
还有一些其他的我也没考虑到的过滤方式（欢迎大家发邮件交流补充！！！）

可能有一些朋友要问，我为什么要根据上面的条件过滤？依据又是什么？？还有什么值得注意的地方？？？有没有什么金标准？？？？
说到金标准，还真是有的。
2015年的时候，由美国医学遗传学与基因组学学会(The American College of Medical Genetics and Genomics, ACMG)，分子病理协会(the Association for Molecular Pathology, AMP)和美国病理学家协会(the College of American
Pathologists, CAP)的代表撰写修订了序列变异解读的标准和指南，发表在nature子刊GIM上，指南原文在这里能看到，当然也可以去GIM上搜。
对于遗传专业术语不太了解的同学，可能在解读原版指南的时候很痛苦。那也不用怕，在该指南发布后，国内外超过30家单位的几十位业界大佬共同翻译了该指南，链接在这里，这样至少在解读上轻松了一半。
在解读完该指南后，你就会发现，上述筛选条件，基本都有指南的影子。毕竟该指南是号称可直接应用于临床，所以理解该指南对于变异的筛选还是很有帮助的。
但问题也是有的，以下所列都是个人观点，若是理解不当望指出：
- 临床是临床，科研是科研，临床和科研的目的是不一样的，如果全用这套指南去科研，怕是很难找出新的位点或基因。
- 该指南甚是全面了，但是很多证据的解读，不同的人怕是存在分歧的。
- 该指南在理解上可能不是很难，但实际去判断就存在很大的困难了。
- 2017年的时候annovar的作者王凯大神根据指南写了一个软件InterVar，发表在AJHG上，原文链接在这里，软件挂在github上，链接在这里，网页版软件的链接在这里，结果文件intervar_20180118在annovar上直接可以下载，方法可参考我之前的文章。只能说大神不愧是大神，真是一件喜大普奔的事情。但是存在一些问题：
  - 由于版权问题，作者用到的结果是基于Clinvar而不是HGDM
  - 由于不同的疾病本身存在的特异性，加之指南有些证据难以通过软件进行判断，intervar一些证据是默认为False的，需要手动判断
  - 网页版intervar虽然能手动较为直观的设定特异性参数，但是不利于批量判断，且不含indel信息
本着加深学习的目的，我决定逐条解读这些证据（共28个证据，16个角度）。本来想自己一个人这么做的，发现难度不小，有些证据我真的很难正确的解读，想组队讨论，又找不到又闲又感兴趣的（身边做这个的人太少啦，所以特别希望能有人一起交流讨论）。所以就打算写成系列文章挂出来，接受广大人民群众的diss。
我会基于中文版ACMG指南，参考InterVar文章和源码，较为详细的解读每一个证据（flag是立下来了，督促自己！），然后尽量重构Intervar。最后参考Sherloc: a comprehensive refinement of the ACMG–AMP variant classification criteria（基于指南的分析框架，让指南更便于实现）进行调整。

水平有限，要是存在什么错误请评论指出，可发送邮件至[email protected]！请大家多多批评指正，相互交流，共同成长，谢谢！！！

可以看我的主页（tongshiyuan.github.io），第一时间修改错误、发布新文章，上的文章可能无缘无故会被锁。

ACMG指南解读笔记（0）- 定个小目标

你可能感兴趣的:(ACMG指南解读笔记（0）- 定个小目标)