从临床进入基因检测流程是入口,检测结果结合临床信息进行合理解读是出口,这一入一出之间需经历检测前临床咨询部分、实验室部分、信息分析部分、临床解读部分共四个环节。其中的第四部分临床解读部分即是根据检测结果、患者信息、医生共识综合判断,临床和遗传咨询有效衔接、充分沟通,最终出具临床解读报告。
在做成临床解读报告之前,首先需要将解读的各个环节进行明确,包括解读的步骤流程,解读的技术细节。这样才有可能真正的做到解读的规范化,使解读过程有据可依,有章可循,才能出具一份好的临床解读报告,基因检测才能更好的服务患者和临床医生。从大的框架讲,基因检测数据解读可分为三个步骤:原始数据→分析数据、基于数据库的解读→与患者个体表征/临床病例结合的解读。
1、读懂原始数据
将测序的原始序列数据(FASTQ)去除接头及低质量序列,经BWA软件比对至GRCh37/38(NCBI版本)或hg19/hg38(UCSC版本)人类基因组参考序列上,Picard去除重复序列,使用GATK检测SNV与Indel变异,使用ANNOVAR进行变异注释。最后获得一份.vcf文件(图1)。
图1 从测序的原始序列数据到vcf文件的流程
一份vcf文件包含如下基本信息。
Chr:变异所在的染色体
Start:变异在染色体上的起始位置
End:变异在染色体上的结束位置
Ref:参考基因组的序列
Alt:检测样本基因组的序列
Func.refGene:变异所处参考基因的功能区(exonic,intronic,UTR3,UTR5,splicing,upstream,downstream,intergenic)(此处的exonic特指外显子编码氨基酸区,不包括外显子的UTR区)
Gene.refGene:变异所处参考基因名称(如果是基因间,则是两侧的基因)
GeneDetail.refGene:非外显子区处于特定转录本中的具体位置(如果是基因间,则是距离两侧的基因的距离)
ExonicFunc.refGene:外显子区的变异类型(frameshift insertion,frameshiftdeletion,stopgain,stoploss,nonframeshift insertion,nonframeshiftdeletion,synonymous SNV,nonsynonymous SNV),如果这一栏是一个“.”的话,就说明该变异不在外显子区
AAChange.refGene:氨基酸水平的改变(同一个基因可能具有多个转录本,氨基酸改变的位置在不同的转录本中有可能不一样)
经注释后的vcf文件还会包含如下信息:
CLINSIG:该变异在ClinVar数据库中的临床意义(Benign,Likely benign,Uncertain significance,Likelypathogenic,Pathogenic,Drug-response)
CLINDBN:该变异所引起的疾病名称
CLINACC:该变异的登记号和版本号(VariantAccession and Versions)
CLINSDB:该变异所引起疾病所在数据库名称
CLINSDB:该变异所引起疾病所在数据库中的ID
PopFreqMax:该变异人群中的最大等位基因频率
1000_All:该变异在千人基因组计划数据库中的人群等位基因频率
1000_AFR:该变异在千人基因组计划数据库中非洲人群的等位基因频率
1000_AMR:该变异在千人基因组计划数据库中美国人群的等位基因频率
1000_EAS:该变异在千人基因组计划数据库中东亚人群的等位基因频率
1000_EUR:该变异在千人基因组计划数据库中欧洲人群的等位基因频率
1000_SAS:该变异在千人基因组计划数据库中南亚人群的等位基因频率
Snp138:该变异在dbSNP数据库中的ID
Cosmic70:该变异在癌症体细胞突变数据库COSMIC中的ID
ESP6500siv2_ALL:该变异在美国国家心肺血液研究所的ESP6500数据库中的人群等位基因频率
ESP6500siv2_AA:该变异在美国国家心肺血液研究所的ESP6500数据库中的非洲裔人群等位基因频率
ESP6500siv2_EA:该变异在美国国家心肺血液研究所的ESP6500数据库中的欧洲裔人群等位基因频率
ExAC_All:该变异在ExAC数据库中的人群等位基因频率
ExAC_AFR:该变异在ExAC数据库中非洲人群的等位基因频率
ExAC_AMR:该变异在ExAC数据库中美国人群的等位基因频率
ExAC_EAS:该变异在ExAC数据库中东亚人群的等位基因频率
ExAC_FIN:该变异在ExAC数据库中芬兰人群的等位基因频率
ExAC_NFE:该变异在ExAC数据库中非芬兰欧洲人群的等位基因频率
ExAC_OTH:该变异在ExAC数据库中除已指定人群之外的人群等位基因频率
ExAC_SAS:该变异在ExAC数据库中南亚人群的等位基因频率
CG46:该变异在CG46数据库中的人群等位基因频率。CG46是由CompleteGenomics(BGI)公司对46个样本的全基因组测序而建立的数据库,截止2017年,他们已经对超过20000个样本进行了全基因组测序和分析。
ICGC_Id:国际癌症基因协作组中各研究的ID
ICGC_Occurrence:该变异在ICGC数据库中的发生情况。该栏数据结构如COCA-CN|1|187|0.00535,指中国结直肠癌的研究(https://icgc.org/),在187例患者中有1例发生突变,突变比例为0.00535
Nci60:该变异在nci60数据库中的等位基因频率。Nci60是被广泛用于药物筛选的人类60种肿瘤细胞系组合,已经进行了全外测序。随着研究的进步,美国癌症研究所NCI在2016年宣布NCI-60细胞系“退休”,PDX新模型“上任”。
Interpro_domain:InterPro算法预测的突变所处的保守结构域(http://www.ebi.ac.uk/interpro/)
dbscSNV_ADA_SCORE:基于adaptive boosting预测变异对剪接位点改变的可能性
dbscSNV_RF_SCORE:基于Random Forest预测变异对剪接位点改变的可能性。得分代表剪接影响的可能性大小,如果dbscSNV_ADA_SCORE和dbscSNV_RF_SCORE得分均小于0.6,则对剪接位点没有影响(PMID: 28132688)。
Omim_phenotype:在OMIM数据库中该基因(不是该变异)对应的表型
QUAL:测序质量分数,计算方法为Q = -10log10(e),可衡量碱基未正确检出的概率。
FILTER:对变异位点做进一步的过滤。无论你用什么方法对变异位点进行过滤,过滤完了之后,在FILTER一栏都会留下过滤记录,如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息(other FILTER flag)。如果这一栏是一个“.”的话,就说明没有进行过任何过滤
INFO&FORMAT:该栏数据结构GT:AD:AF:ALT_F1R2:ALT_F2R1:FOXOG:QSS:REF_F1R2:REF_F2R1。GT:基因型,对于一个二倍体生物,0表示跟REF一样,1表示表示跟Alt一样;2表示第二个Alt;AD:对应两个以逗号隔开的值,这两个值分别表示覆盖到REF和Alt碱基的reads数,相当于支持REF和支持Alt的测序深度;AF:支持Alt的测序深度占总测序深度的比例,即等位基因丰度
NORMAL:与肿瘤组织对应的正常组织中的信息,一般通过外周血测序获得
TUMOR:肿瘤组织中的信息
此外还可能包含各种算法对非同义突变保守性预测值,这些算法包括SIFT prediction(T: tolerated; D: deleterious),PolyPhen HumanDiv prediction (D:Probably damaging, P: possibly damaging; B: benign)、LTR、MutTaster、MutationAssessor、FATHMM、CADD、GERP++等等。
2、分析挖掘数据
对全外显子检测(或者属于较大pannel范畴的情况也可以),可以进行肿瘤突变负荷(Tumor mutationburden)计算。临床研究表明,使用PD1/PD-L1抑制剂等免疫治疗药物时,具有较高突变负荷的患者具有较好的客观缓解率(ORR)、较长的无进展生存期(PFS),同时持续临床疗效(DCB)也更佳。然而,由于目前没有统一的肿瘤突变负荷计算方法,在做纵向比较时需谨慎。该分析使用的计算方法为,肿瘤组织中突变丰度大于等于5%,正常组织中突变丰度小于等于1%,ExonicFunc.refGene一栏去除“.”、synonymous SNV、unknown标签的数据,PopFreqMax一栏去除人群等位基因频率大于0.1%的数据(注意保留“.”)。此外,免疫治疗相关的一些基因突变(如EGFR、干扰素信号通路的JAK、B2M等)值得关注。
对全外显子检测,能够发现大量的体细胞突变。有的突变是致病性的称为为驱动突变或司机突变(与之对应的称为乘客突变或继发性突变),这些突变或导致DNA修复缺陷,或导致细胞不受调控的增殖生长,或导致细胞不能正常凋亡,或导致细胞侵袭性增强,或导致免疫逃逸。因而从大量的体细胞突变中鉴定肿瘤的驱动基因突变既是基因检测的重要目的之一,同时也是一项艰难的工作。一般来说一个肿瘤的发生其驱动基因突变的数目为0-8个,且他们不会分布于同一个关键的肿瘤相关信号通路中(比如BRAF和KRAS,比如APC和CTNNB1)或并行的两个重要信号通路中(比如PIK3CA和KRAS)。一般来说原癌具有较为明显突变热点聚集倾向(比如KRAS和PIK3CA),而抑癌基因的突变位点较为分散(比如RB1和VHL)。
对全外显子检测目前已经在肿瘤中得到较为广泛的应用,如何高效寻找驱动基因突变急需指导和规范化的文件,但由于由于肿瘤细胞突变多为体细胞突变,遗传性突变领域的规范化文件(后面会具体讲)难以照搬使用。因为体细胞突变的意义和遗传性突变的意义比如致病性突变这样的描述有所不同,比如我们可以采用响应药物的突变(responsive)、耐药突变(resistant)、驱动性突变(driver)、继发性突变(passenger)来描述突变的意义。值得庆幸的是,2017年伊始,分子病理协会(Association forMolecular Pathology, AMP)、美国临床肿瘤协会(American Societyof Clinical Oncology)和美国病理学家联盟(College ofAmerican Pathologists)对高通量测序在肿瘤诊疗领域的应用从突变记载(HGVS)、注释解读、报告进行了指导和规范(PMID: 27993330)。该指导规范中对参考序列数据库(如NCBI)、人群基因频率数据库(如1000G、ExAC)、肿瘤数据库(如COSMIC、ICGC)、疾病数据库(如HGMD、ClinVar)、预测软件(如PolyPhen2、Human Splicing Finder)的使用和注意事项给出了意见。该规范还推荐对肿瘤细胞的体细胞变异划分为四个级别:具有确定性临床意义的突变(variants withstrong clinical significance,Level A和Level B)、可能具有临床意义的突变(variants with potential clinicalsignificance,Level C和Level D)、临床意义不明的突变(variants of unknown clinical significance)、良性或可能良性的突变(variants deemed benign or likely benign),并详细阐述如何将检测到突变结合数据库以归类到这四个级别中。其中具有确定性临床意义/可能具有临床意义的突变包括四个等级的证据:
Level A:可作为预测药物反应或耐药性的FDA批准的针对特定类型肿瘤(适应症)的治疗的突变;或者已经被包括在专业指南中(如肿瘤的NCCN)作为特定类型肿瘤的治疗、诊断或预后的突变;Level B,可作为预测药物反应或耐药性的基于充分研究和专家共识的治疗的突变,或者是基于充分研究和专家共识的具有特定疾病诊断、预后意义的突变;
Level C,可作为预测药物反应或耐药性的FDA或专业协会批准的跨适应症的治疗的突变,或者是已经作为临床试验的入组参考标准,或者是基于多项研究的具有特定疾病诊断、预后意义的突变;
Level D,基于临床前研究、案例报道的可能具有临床意义的突变;或者有研究表明该突变有助于疾病诊断和预后判断。
目前,寻找肿瘤驱动基因突变的具体策略可以说是多种多样(图2)。通过寻找热点基因的热点突变(recurrent mutation)是一种较为确定的策略,相关的研究证据较为充分。例如EGFR的突变主要发生在胞内酪氨酸激酶(TK)区域的前四个外显子上(18~21),目前发现的TK区域突变有30多种。缺失突变主要发生在外显子19上,最常见的是del E746-A750,替代突变最常见的是发生在外显子21上的L858R,复制或插入突变发生在外显子20上。发生在外显子20上的替代突变T790M为耐药突变,研究还发现L858Q、D761Y、T854A等耐药突变。HER2基因在乳腺癌、膀胱癌、结直肠癌、胃癌中主要突变方式是扩增或者表达上调,鲜有突变,在20~30%的乳腺癌中存在HER2基因明显扩增或过表达,但是在肺癌中,其激活机制为扩增、过表达及点突变,点突变在肺癌中的发生概率约占2-4%,多发生在其激酶结构域中,常见的激活性点突变包括p.S310, p.L755,p.G776L, p.V777L,p.S855I,p.N857S 等。BRAF V600E突变临床意义在Pubmed中有上百遍报道。BRAF突变存在于1%–3%的非小细胞肺癌中。V600E是最常见的肿瘤驱动突变,在肺癌中也有多种其他类型的BRAF突变被报道,包括G466V、G469A和D594G。尽管性药物例如vemurafenib在包含BRAF V600E突变的黑色素瘤中高度有效,但这些药物对BRAF其他位点突变,或者V600E突变肺癌中的肿瘤驱动活性还需评估。
图2 鉴定驱动基因突变策略(PMID: 24479672)
热点基因的热点突变在很多数据库中有不完全的收录,这些数据库有Civic数据库,OncoKB数据库,Personalized cancer therapy数据库,Clinical Knowledgebase数据库等等。
预测变异对蛋白质功能的影响,可以作为寻找肿瘤驱动突变的一种有益补充方法。比较常见的预测工具如SIFT、PolyPhen2、MutationAssessor等等,这些算法的原理一般是基于氨基酸的进化保守性,有的考虑到蛋白质结构域的功能(例如TP53蛋白的有害突变多位于DNA结合结构域),还有的会考虑蛋白的空间结构。对于检测到的变异各算法预测值在上述的vcf文件中可查阅。对于SIFT,值越小变异有害性的可能性越大,推荐阈值0.05;对于PolyPhen2,值越大变异有害性的可能性越大,推荐阈值0.3;对于MutationAssessor,值越大变异有害性的可能性越大,推荐阈值8,需要注意的是,不同的参考文献阈值可能不同(PMID: 23819521)。
将基因放在信号通路中分析,这对于不是十分常见的小众肿瘤驱动基因寻找有很大帮助。在美国,每年有大约18,000名患者被确诊为脑膜瘤。它们约占原发性脑肿瘤的三分之一,女性患病比率高一倍。但是一直以来对于脑膜瘤的遗传突变了解甚少。在一项研究中(PMID: 23334667),科学家们对17个脑膜瘤样本进行了全基因组或是外显子组测序。在这些肿瘤中发现改变基因后,研究人员随后又对另外两组肿瘤进行了测序。研究人员发现,相比大多数类型的肿瘤,脑膜瘤具有较少数量的遗传改变或损伤。在一些肿瘤中,他们发现两个在已知致癌信号通路中发挥作用的基因存在突变。在3个肿瘤中发现的SMO,是Hedgehog信号的成员。在5个肿瘤中发现了AKT1,该基因参与了与乳腺癌、结直肠癌和肺癌相关的PI3K-AKT-mTOR信号。第6个肿瘤具有一个从前已知的,与mTOR信号通路相关的突变。总的来说,这些突变基因信号通路构成了所研究的15%脑膜瘤的重要驱动子。
对于遗传性肿瘤,可以借助遗传病致病基因鉴定的方案,流程即1、了解临床资料2、核心表型转化为中文人类表型标准用语(CHPO)3、基因检测及其质控4、生信分析5、遗传学分析,包括关联候选基因、遗传变异位点分析解读和家系验证6、表型相似度分析。2013年ACGM推荐的与遗传性肿瘤/遗传病相关基因包括BRCA1、BRCA2、TP53、STK11、MLH1、MSH2、MSH6、PMS2、APC、MUTYH、VHL、MEN1、RET、PTEN、RB1、SDHC、SDHD、TSC1、TSC2、WT1、NF2等(PMID:23788249)。查找正常对照组织突变丰度(N_Freq)≥40%,比对遗传性肿瘤相关突变基因,是否有遗传性肿瘤相关胚系突变,查看并按照下述步骤进行确认。按照基因名+c.__或基因名+p.__进行google搜索或进入NCBI、HGMD、OMIM等网站查阅是否有相关致病性报道,按照ACMG指南进行位点致病性判定或可借助InterVar在线辅助判定(仅适用于exon范围内突变)。发现遗传性肿瘤相关的基因突变,还应推荐家族其他直系血亲进行基因检测做进一步的确认。
美国医学遗传学与基因组学学会(American Collegeof Medical Genetics and Genomics, ACMG)和分子病理协会(Association forMolecular Pathology, AMP)在2015年对临床实验室的基因检测进行了指导和规范(PMID: 25741868)。该指导规范主要就是适用于孟德尔遗传病相关基因变异或者是生殖系变异。指导规范推荐记载突变遵循统一的规范——人类基因组变异协会(Human GenomeVariation Society, HGVS),并将变异根据人群基因频率(population data)、软件预测(computational data)和功能试验(functional data)等参数分为五个级别:致病性突变(pathogenic)、可能致病性突变(likelypathogenic)、意义不明突变(uncertain significance)、可能良性突变(likely benign)和良性多态性突变(benign)。这五个级别如何认定?该规范列出了致病性/可能致病的各种情况的支持证据,证据强度依次包括超强证据(PVS1)、强证据(PS1-4,注意这里的数字不代表证据强度的区别,仅表示同一证据强度的不同的证据情况,下同)、中度证据(PM1-6)、支持性证据(PP1-5),良性多态性/可能良性证据强度依次包括独立证据(BA1)、强证据(BS1-4)、支持性证据(BP1-6)。需要特别指出的是对于致病性突变和引起蛋白功能缺失的突变区别开来,只有一种突变对某种疾病具有因果关系(causative),才能够被认定为致病性突变。应当注意到致病性突变这个定义对于多基因遗传病其实不太适合。同时应该注意到当一个突变被报道为致病性的时候,对于个人或者健康管理人员可能认为它是一个可干预的突变(actionable)。此外,该规范还对数据库使用、文献使用、软件预测使用给出了指导性的建议。
最后也是最重要的是报告的呈现形式,标注突变判定依据,功能注释,文献出处,遗传规律,及其他可能的相关疾病症状。在研究进展更新后,特别是以前被认定为意义不明突变时,最好能够对突变数据进行再分析更新。将突变进行分类也是有帮助的,比如该突变意义不明,但该突变所在的基因与已知疾病建立了明确的关系;比如突变属于偶然性发现(Incidental Findings)。
3、面向临床干预的解读
首先应充分收集患者个体表型数据、家族病史、临床病理和临床治疗的资料,这些信息对鉴定驱动基因、了解发病机制、指导用药和治疗方案、耐药与预后分析具有很大的价值。
其次在进行临床干预解读时应考虑到FDA批准靶向治疗药物及其伴随检测、NCCN指南推荐的治疗方案。对于FDA和NCCN指南未涉及的,可参考文献(包括基于FDA/NCCN和文献编辑的二级数据库),但是要考虑到文献报道的证据强度,比如是什么机构的研究,发表在什么期刊上;要考虑到文献的证据级别比如是临床试验、还是案例报道、还是临床前的研究。具体可参考AMP关于体细胞突变和遗传性突变的证据强度划分的指导意见。
最后还应考虑和制药公司/医疗机构/研究机构的临床试验尽可能对接。
凝结数据分析和临床注释于一张纸的报告可以说并不容易,而且它决定了终端客户的最终体验。临床解读报告应当做到简洁明了、重点突变的原则,体现严谨而缜密的逻辑机构,达到便于阅读、理解和指导临床干预的目的。