Convolutional neural network architectures for predicting DNA–protein binding

CNN用于基因组学研究的最大优势之一是,它可以探测某一motif(指蛋白质分子具有特定功能的或者作为一个独立结构域一部分相近的二级结构聚合体)是否在指定序列窗口内,这种探测能力非常有利于motif的鉴定,进而有助于结合位点的分类

摘要:

我们提出了使用大量转录因子数据集预测DNA序列结合的CNN体​​系结构的系统探索。我们通过更改CNN的宽度,深度和pooling设计来确定性能最佳的体系结构。我们发现,将卷积核添加到网络对于基于motif的任务很重要。通过比较难度范围内的多个建模任务的网络性能,我们展示了CNN在学习丰富的高阶序列特征(例如次级主题和局部序列上下文)方面的优势。我们还展示了使用控制潜在混杂因素(例如位置或基序强度偏差)的方法精心构建序列基准数据集对于在竞争方法之间进行公平比较至关重要。

以前做过的:deepSEA、deepBind

ATCG数据可以转变为一维数据,对DNA序列蛋白质结合特异性进行建模的基因组任务类似于两类图像分类的计算机视觉任务。卷积神经网络用于基因组学的最大优势之一是它能够在序列窗口中的任意位置检测到一个基序,这完全适合基序识别和绑定分类的任务。

用于在690个不同的ChIP-seq实验中表征转录因子与DNA序列的结合亲和力的基本基因组任务。

设计了9种体系结构变体的池。我们改变了这些维度中的每一个,同时独立地观察了每个转录因子的分类性能。

探索的两个任务是motif发现 motif discovery和motif占用motif occupancy。

motif发现是对阴阳样本进行分类,阳性样本就是结合转录因子的motif,阴性样本是阳性样本随机打乱的序列。

motif占用任务

The two tasks we chose to explore are motif discovery and motif occupancy. The motif discovery task classifies sequences that are bound by a transcription factor from negative sequences that are dinucleotide shuffles of the positively bound sequences. The motif occupancy task discriminates genomic motif instances that are bound by a transcription factor (positive set) from motif instances that are not bound by the same transcription factor (negative set) in the same cell type, where GC-content and motif strength are matched between the positive and negative set.

对于这两个任务,分类性能随着卷积核增加而增加,用局部池化和更多的卷积层没有什么影响。

PS:超过了deepBind

Convolutional neural network architectures for predicting DNA–protein binding_第1张图片

L:序列长度(测试中都是101bp)

更改参数找好的体系结构:内核层、层数和顶部的池化方法。

其他卷积核可增加检测模体变体和辅助因子模体的能力。卷积和最大池化的附加层使神经网络更“深”,并使模型能够以诸如使网络更难训练的代价来提取诸如主题交互之类的特征。全局最大池化的使用减少了输入序列中出现或不存在的基序信息,而局部最大池化保留了基序的位置

9种变化:

Convolutional neural network architectures for predicting DNA–protein binding_第2张图片

来自ENCODE项目的690个转录因子ChIP-seq实验,以比较本研究中不同模型的性能。

为两个任务构建了正面和负面的数据集。

预处理程序

 

 

 

 

 

 

你可能感兴趣的:(Convolutional neural network architectures for predicting DNA–protein binding)