【生物信息】调控基因组学 (Regulatory Genomics) 和Deep CNN

文章目录

  • Regulatory Genomics
    • Biological motivation of Deep CNN
    • Multi-task CNN

来自Manolis Kellis教授(MIT计算生物学主任)的课《人工智能与机器学习》

主要内容就是调控基因组学和深度卷积网络的结合

由于这部分在我学习的课程中内容很少,下面贴出油管链接(这个每节课一个半小时):

教授详细的课1:Deep Learning for Regulatory Genomics - Regulator binding, Transcription Factors TFs

教授详细的课2:Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)

Regulatory Genomics

Biological motivation of Deep CNN

【生物信息】调控基因组学 (Regulatory Genomics) 和Deep CNN_第1张图片

深度序列模型"或"深度位点特异性模型"的特殊类型的深度卷积神经网络(Deep Convolutional Neural Networks,简称 Deep CNNs),它在处理生物序列(如DNA,RNA或蛋白质序列)时,将滤波器初始化为位点特异性评分矩阵(Position-Specific Scoring Matrix,简称PSSM)或其他有生物学意义的模式(motifs)。这种模型的优点是可以利用已有的生物学知识来指导模型的学习,从而加速训练过程,提高模型的准确性。
如果你不会CNN的话,可以看这个快速入门一下:CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别

以下是这种模型的工作流程:

  1. 将生物序列转化为数值型的表示:和之前一样,我们需要将生物序列(如DNA)转化为数值型的表示,常用的方式是独热编码(one-hot encoding)。
  2. 使用生物学意义的滤波器扫描序列:在这个步骤,我们首先将卷积层的滤波器初始化为PSSM或其他有生物学意义的模式(motifs)。这些滤波器会在序列上滑动,根据每个滤波器对应的模式,计算序列在各个位置的匹配程度。(与边缘检测不同的是,这里使用的卷积核(滤波器)是有生物意义的motifs)
  3. 通过ReLU进行阈值化:ReLU(Rectified Linear Unit)是一种常见的激活函数,它对负数输出0,对正数保持不变。这个操作可以增加模型的非线性,使得模型可以学习更复杂的模式。
  4. 最大池化(Max Pooling):这是一种减小序列长度,同时保留关键信息的操作。在卷积神经网络中,池化层通常跟在卷积层后面,用于降低特征的维度和控制过拟合。
  5. 使用逻辑回归预测概率:在所有处理步骤之后,我们可以用一个逻辑回归层(通常是一个全连接层,加上一个sigmoid激活函数)来预测类别。

值得注意的是,虽然我们在开始时将滤波器初始化为PSSM或其他有生物学意义的模式,但在训练过程中,滤波器的参数会被进一步调整,以更好地适应训练数据。这就使得我们既可以利用已有的生物学知识,又可以从数据中学习到新的知识。

【生物信息】调控基因组学 (Regulatory Genomics) 和Deep CNN_第2张图片

Multi-task CNN

【生物信息】调控基因组学 (Regulatory Genomics) 和Deep CNN_第3张图片

【生物信息】调控基因组学 (Regulatory Genomics) 和Deep CNN_第4张图片

你可能感兴趣的:(深度学习,生物信息,cnn,深度学习,神经网络,生物信息)