[Paper] || Predicting mRNA Abundance Directly from Genomic Sequence Using Deep CNN

一句话总结:基于CNN,用启动子序列预测mRNA丰度

研究背景

稳态的mRNA丰度由很多调控因子所决定,重点在于选用哪种关键机制来准确预测mRNA丰度。相关研究表明启动子序列单独解释了人类大部分基因表达的变异。本文的方向是希望仅用基因序列的信息预测mRNA丰度,这里结合的是启动子序列和mRNA稳定性相关序列特征的信息(图1)。


图1::Xpresso 输入输出概览

模型结构

Xpresso的结构就是传统的卷积神经网络,先是两个连续的卷积层和池化层,接着两个全连接层,最后输出mRNA丰度的对数形式。输入用的是在TSS(转录起始点)周围区域的基因序列(图2)。


图2:Xpresso 架构

后续实验

(关注模型泛化能力)

  • 跨物种测试
    选取了18377个人类基因和21856个小鼠基因。先在一种物种上训练模型,之后在另一种物种上测试,结果和在同种物种数据上测试结果相近。这个发现表明所学到的调控原则在哺乳动物物种中是普遍适用的。
  • 细胞内测试
    用同样的参数在三种细胞类型上训练模型,一些基因的预测值比真实值要低, 这里认为是有其余调控因子未被考虑进模型,比如距离TSS较远的基因片段(远端增强子等)。

总结

文章主要想强调DNA序列可以用来预测mRNA丰度。之后做了很多生物上的insight。算是为后续这个方向的研究给了一个baseline。

原文Link: Predicting mRNA Abundance Directly from Genomic Sequence Using Deep Convolutional Neural Networks

你可能感兴趣的:([Paper] || Predicting mRNA Abundance Directly from Genomic Sequence Using Deep CNN)