Predicting splicing from primary sequence with deep learning

0. 简介

这篇文章是2019年1月发表在Cell期刊用深度学习预测可变剪切。通讯作者来自于Illumina人工智能实验室。文章使用了火热的ResNet预测可变剪切,模型足够复杂(32个卷积)而且预测结果看起来是真的好,top-k accuracy高达95%,甩其他软件几条街,结果的分析更是详实复杂。最后说一句,CNS正刊的文章内容是真的丰富。

文章连接
SpliceAI model training
SpliceAI software

1. 摘要

  • 前体mRNA的剪接非常精确,但是背后的机制却还不清晰,作者描述了一种深度神经网络精确的预测splice junctions;
  • 在预测出来影响可变剪切的同义突变和内含子突变中,使用RNA-Seq数据验证很高比例的有害突变;而且在预测出来的突变(影响可变剪切)他们显著富集在自闭症和智力残疾的患者中;
  • 作者估计,罕见遗传性疾病患者中9%-11%的致病突变是由此前未被充分认识的疾病变异引起的。

2. 前言

  • 外显子组测序改变了患有罕见遗传疾病的患者和家属的临床诊断,并且当作为一线测试时,显着减少了诊断odyssey(a long trip or period involving a lot of different and exciting activities, esp. while searching for something;来自Cambridge Dictionary)的时间和成本;但是外显子测序诊断罕见疾病只有25%-30%,仍然有大部分患者没有被诊断出来;
  • 基因组的非编码区域在基因调控中扮演者重要的角色,占了causal disease loci的90%。事实上,非编码突变可以破坏mRNA的剪切尽管他们落在GT和AG之外,这些变异被成为cryptic splice variants, 长期以来被认为在罕见疾病中发挥着重要的角色。但是在临床治疗中,cryptic splice mutations却一直被忽略,主要是因为对于splice code理解不够深入,这也为精确的预测他们提供了很大的困难;
  • 最近,RNA测序(RNA-seq)已经成为检测孟德尔疾病中剪接异常的有希望的测定方法,但迄今为止它在临床环境中的应用仍然局限于相关细胞类型已知且可进入活组织检查的少数病例。对任意前mRNA序列的剪接的预测可以使得精确预测cryptic splice variants成为可能,从而改善遗传疾病患者的诊断。虽然目前在core splicing motifs, exonic splice enhancers and silencer以及预测exon inclusion方面取得了一定进展,但是从原始序列构建剪切的预测模型还是很困难。

3. 结果

3.1 使用深度学习从原始序列中精确的预测剪切 (Accurate prediction of splicing from a primary sequence using deep learning)

  • 文章中提出了可变剪切预测模型SpliceAI, 如上图所示, 文章使用了大名鼎鼎的残差网络, 使用32空洞卷积层,使用上下游共10k(例如:以GT为中心)的序列(真的很长了。。。)训练,然后预测出该位点是Splice Acceptor, Splice Donor或者Neither。上图只是提供了简单框架,关于模型的详细结构,如下图所示:

  • 其中上图中的每一个RB就是一个残差模块(Residual Block),参数N,W,D分别表示:卷积核数目、卷积核大小(window size)以及空洞卷积空洞率。有关空洞卷积与标准卷积的差别,查看下图,图片来自于知乎:

  • 标准卷积


  • 空洞卷积 (dilated convolution)


  • !!!接下来,作者就要验证他模型的可靠性了,首先呢,作者的评估指标是top-k accuracy,简单来说:k是随着测试集中对应类别样本的数目发生变化的,比如测试集中Splice Donor有100个,那就看预测为Splice Donor的前100个中有多少个是真正的Splice Donor,作者说,SliceAI的top-k accuracy是0.95。然后就举了一个例子,基因CFTR,这个基因超过100kb,通过SpliceAI也能将它的基因结构准确的预测出来,如下图Figure 1B所示:

  • Figure 1C: 对于测试集中GENCODE注释出来的每一个外显子,作者都检验了网络的预测分值与支持外显子包含reads数目除以支持外显子跳跃的reads数目(也就是图中的Exon inclussion rate)之间的相关性;


  • FIgure 1D: 接下来就要看sequence motif了,模型这么高的精度到底是哪些序列因素决定的。然后就做了一个模拟,对于已知外显子附近的核苷酸进行一一替换,然后看预测分值的变化。然后作者发现破坏splice donor motif会导致网络失去预测上游的splice acceptor位点的能力;

  • Figure 1E: 这部分就是讲述上下游序列长度对于模型预测效果的影响,共做了四个梯度,80nt、400nt、2k和10k,其实2k的时候效果就已经很好了;

  • Figure 1F: 通过比较80nt和10k的模型,检验long-range and short range specificity determinants。左图黄色是外显子长度分布、右图粉色是内含子长度分布,紫色线是10k模型的预测分值、蓝色线是80nt的预测分值;

  • Figure 1G: 由于剪接发生共转录,染色质状态和共转录剪接之间的相互作用也可能指导外显子定义,并且有可能被网络利用到染色质状态可从前体序列预测的程度。全基因组核小体定位实验表明核小体占据在外显子区域更高。作者就看自己的模型是不是用了核小体定位的序列模式(这个图理解的并不是很透彻。。)。然后就用一对最优的acceptor和donor(间隔150nt;平均外显子长度),看这对motif是不是会导致外显子保留,发现哪些倾向于被预测为外显子的区域拥有很高的核小体定位,这表明SpliceAI也学习到了核小体定位的一些信息;

  • Figure 1H: 虽然多项研究报道了外显子与核小体占据之间的相关性,但核小体定位在外显子定义中的因果作用尚未确定。然后作者使用GTEx中149个体的RNA-Seq和全基因组测序数据,确定了一些专属于个人的新的外显子,这些私有外显子与已经存在的核小体定位显著相关。

3.2 用RNA-Seq验证预测的cryptic splice mutation (Verification of Predicted Cryptic Splice Mutations in RNA-Seq Data)

  • 在上一部分不同层面证明了模型的性能之后,接下来这部分就用来探讨SpliceAI预测cryptic splice mutation的能力;



  • Figure 2A: 对于一个突变,预测其reference transcript和alternative transcript分值的差异;
  • Figure 2B: 同样是使用GTEx群体,首先关注rare,private mutations(只在一个个体中出现),发现罕见、私有变异显著富集在私有新的splice junctions中,表明预测的大部分都是有功能的。这里主要是通过RNA-Seq数据验证预测出来的突变的确是有功能的;
  • Figure 2C: 量化创造了新剪切位点的变异,以PYGB基因中的一个变异为例(creates a novel donor site),计算novel juction相对使用率;
  • Figure 2D: 预测分值被RNA-Seq数据验证的比例,可以看出分值变化越大,验证的比例越高;
  • Figure 2E: 使用SNP的effect size来验证,关于effect size的计算在方法中有详述;
  • Figure 2F: 不同阈值下,SpliceAI的sensitivity;
  • Figure 2G: 以sensitivity为指标,与其他软件比较。

3.3 组织特异性选择性剪接经常来自于weak cryptic splice variants (Tissue-specific alternative splicing frequently arises from weak cryptic splice variants)

  • 第一部分验证可变剪切模型的精准性,第二部分用RNA-Seq数据验证预测出来的变异的确是有功能的;!!!在这里作者就想利用模型预测出来的结果解释一下生物学现象,比如:可变剪切的组织特异性;

  • Figure 3A: 可变剪切是基因调控的一个主要模式,其增加了不同组织以及不同发育阶段转录本的多样性,基因表达的错误调节(dysregulation)与疾病过程相关。但是作者发现novel splice junctions (由cryptic splice mutations导致的)的相对使用在不同组织中变化很大。作者在这里展示了一个例子,位于基因CDC25B外显子区域内的一个杂合变异,导致了一个新的donor site。这个变异在GTEx群体中只在一个个体中出现,表现出了组织特异性(muscle和fibroblasts;纤维母细胞)的可变剪切。
  • Figure 3B: 而且在不同个体中这种组织特异性是reproducible; 这里举了一个Novel acceptor site, 位于FAM229B基因的外显子区域,在三个个体中表现出了一致的组织特异性,表明组织特异性的确与这些疾病相关,而不是由于随机效应导致的;
  • Figure 3C: 其次作者发现预测出来的weak and intermmediate (△score 0.35-0,8) cryptic splice variants在正常转录本和异常转录本中有明显的差异(Fisher精准检验), 也就是说预测出来的weak cryptic splice variants更容易导致可变剪切的组织特异性;

3.4 预测的cryptic splice variants在人类群体中是非常有害的 (Predicted cryptic splice variants are strongly deleterious in human population)

  • 尽管预测出来的cryptic splice variant在RNA-Seq数据上有很高的验证率,但在大多数情况下,他们不是完全penetrant (中文翻译为:渗透的,我的理解是导致了acceptor/donor site loss/gain,但并不完全,仍保留原有的转录本,只是量发生了改变),因此也就有可能一部分变异可能没有显著的功能。因此这部分内容作者为了探究预测的cryptic splice variants的自然选择特征,作者对来自Exome Aggregation Consortium(ExAC)数据库的60,706个人类外显子组中存在的每个变异进行评分,并鉴定出会改变exon-intron边界的变异;

  • 为了测量作用在predicted splice-altering variants上负选择(进化过程中淘汰有害的等位基因)的程度,作者计算了common allele frequencies中splice-altering变异数目,与ExAC中单个变异(在ExAC群体中只有一个)的数目比较。由于最近人口规模呈指数级增长,所以singleton经历的负选择的程度很低。因此,相对于单体变异,在common allele频谱中预测出来的cryptic variants的减少为functional splice-altering variants提供了一个证据。为了避免对蛋白质编码序列造成混淆影响,我们将分析局限于位于必需GT或AG二核苷酸之外的同义突变和内含子突变,排除了被预测具有splice-altering effects的错义突变;


  • Figure 4A: 在common allele和singleton中SNV的△score大于0.8和小于0.1比较;common allele显著缺乏splice-altering variants。预测分值很高的cryptic variants经历了很强的负选择;

  • Figure 4B: 在△score=0.8这个阈值下,大多数变异在RNA-Seq数据中倾向于fully penetrant (Figure 2D),预测为synonymous和intronic sryptic splice的突变在common allele frequencies中有78%的降低,与frameshift、stop-gain和essential GT or AG splice-distrupting中的82%旗鼓相当。图中纵坐标是有害变异的比例;

  • Figure 4C: 当考虑影响frameshifts的cryptic splice variants时,发现他们经历更强的负选择;在ExAC数据集中,synonymous和intronic cryptic splice gain variants中有害变异的比例,然后基于这个变异是不是导致frameshift来分割;也就是说:先对synonymous和intronic cryptic splice gain variants中有害变异统计,然后分割成两部分

  • Figure 4D: 这部分作者比较predicted deep intronic (>50 nt from known exon-intron boundaries) cryptic splice variants in the gnomAD dataset中有害变异的数目;

  • Figure 4E: 每个个体中罕见变异、protein-truncating变异以及cryptic splice变异的平均数目。

3.5 De novo cryptic splice mutations是罕见遗传疾病的主要原因 (De Novo Cryptic Splice Mutations are a major cause of rare genetic disorders)

  • 自闭症谱系障碍和严重智力残疾患者的大规模测序研究证明了破坏神经发育途径中基因的从头蛋白编码突变(错义,无义,移码和必需剪接二核苷酸)的核心作用。为了评估通过改变剪接起作用的非编码突变的临床影响,我们应用神经网络预测来自解密发育障碍(DDD)的4,293名智力残疾人的从头突变的影响、来自Simons Simplex Collection和自闭症序列联盟的3,953名患有自闭症谱系障碍(ASD)的个体,以及来自Simons Simplex系列。
  • Figure 5A: 与健康人群比较,intellectual disability和自闭症群体中分别有1.51和1.3倍的splice-altering变异的富集;
  • Figure 5B: cryptic splice mutations占了自闭症(autism spectrum disorder; ASD)中致病变异的11%, DDD (Deciphering Developmental Disorders)的9%;
  • Figure 5C: 大多数de novo predicted cryptic splice mutations的△score小于0.5,因此可能会产生mixture transcripts;
  • Figure 5D: 新的致病基因;


3.6 实验验证 (Experimental validation of de novo cryptic splice mutations in Autism Patients)

  • 这部分作者对部分结果进行了实验验证;
  • Figure 5E: 预测出影响自闭症的cryptic splice mutations(RNA-Seq验证)的三个例子;
  • Figure 5F: 通过RNA-Seq选出来的36个变异的验证状态。

4. 方法细节

4.1 SpliceAI模型结构

  • 文章主要使用ResNet结构,one-hot编码,具体的结构在3.1部分已经记录,此处不再赘述。

4.2 模型训练与测试

  • 共20287个基因,染色体2,4,6,8,10-22,X,Y用于模型训练(共13,384个基因,130796对donor-acceptor),训练集中随机抽10%作为Validation(用于调参和模型的earlystopping)。然后剩下的基因与训练集没有paralog的作为测试集

你可能感兴趣的:(Predicting splicing from primary sequence with deep learning)