必须要感叹一下作者的牛逼,毕竟这年度一个人搞出一篇文章并且还发在顶刊上的独行侠真的不多了,而且还不用带任何一个人
Sequence-based modeling of three-dimensional genome architecture from kilobase to chromosome scale
Sequence-based modeling of three-dimensional genome architecture from kilobase to chromosome scale | Nature Genetics
从碱基序列到染色体尺度的基因组三维结构序列建模
为了了解基因组序列如何影响多尺度三维(3D)基因组结构,本手稿提出了一种基于序列的深度学习方法 Orca,该方法可以直接从序列中预测从碱基序列到全染色体尺度的三维基因组结构。Orca 捕获结构的序列依赖性,包括染色质区室和拓扑关联结构域,以及来自 CTCF 介导的增强子-启动子相互作用和 Polycomb 介导的具有细胞类型特异性的相互作用的不同类型的相互作用。Orca 能够实现各种应用,包括预测结构变异对多尺度基因组组织的影响,并概括了不同大小(300bp 至90Mb)的实验研究变异的影响。此外,Orca 能够在计算机上进行虚拟筛选,以探测不同尺度的三维基因组组织的序列基础。在亚兆碱基尺度上,它预测了细胞类型特异性基因组相互作用的特定转录因子基序。在区室尺度上,序列活动的虚拟筛选提示了具有转录起始位点突出作用的染色质区室序列基础的模型。
Main
了解基因组序列如何在所有空间尺度上指导基因组折叠成3D 结构将有助于解释在正常和疾病状态下基因组序列和基因组变异如何参与各种细胞过程(例如,基因表达调控,DNA 复制和 DNA 修复)。这种序列依赖性可能是多重的,因为3D 基因组组织的多个方面似乎对应于不同的机制。最显著的是,染色质区室通常以兆基尺度观察到特征性的格子样相互作用模式,其中区室 A 和 B 主要对应于表达活性和非活性染色质,其优先与相同的区室相互作用。拓扑关联域(TAD)通常位于100-kb 到1-Mb 的比例尺,具有常见的嵌套结构。
Orca 能够预测不同类型的结构,包括 TAD,染色质 A/B 区室,Polycomb 介导的相互作用和启动子-增强子相互作用。此外,从基因组中的任何一对序列,染色体内和染色体间的相互作用,可以用这种方法预测。
Orca 序列模型有效地提供了3D 基因组结构的“计算观察”,它的独特在于:
(1)能够预测任何大小的任何基因组变体在高通量下的多尺度3D 基因组组织效应
(2)设计和执行探测基于序列的多尺度基因组组织机制的“虚拟遗传筛选”实验。
该模型在预测不同 SVs 的三维基因组效应方面的能力得到了广泛的研究,并应用该模型为基于序列的局部基因组组织和染色质区室形成的机制提供了设想。Orca序列建模框架为研究序列与多尺度三维基因组组织之间的相互作用提供了新的机遇。可通过过 https://github.com/jzhoulab/orca 查阅代码及模型,亦可在 https://orca.zhoulab.io 使用方便易用的网页版。
基于序列的多尺度三维基因组相互作用预测
多尺度的染色质组织显示出不同的特征,可能涉及不同的机制,通过深度学习捕获从单个核苷酸到整个染色体的所有尺度的序列依赖性是一个前所未有的挑战。一个多尺度深度学习序列建模框架,Orca,首先被开发来解决这个挑战。
为了预测整个基因组距离范围,设计了一种“放大”样级联预测机制,以使超长距离相互作用能够预测具有9种不同分辨率的较短距离相互作用(例如,1-Mb 距离4kb,2-Mb 距离8kb 和128-Mb 距离512kb)。由于 Hi-C 型数据通常通过多分辨率矩阵表示 ,并且通常基于较稀疏的测序读数检测较长距离的大规模结构,因此只能以较低的分辨率测量,所以设计了不同分辨率的多尺度结构模型以适应这些数据类型。
该模型结构由层次式多分辨率序列编码器和级联式多级解码器组成。该编码器采用多达256 Mb 的序列作为输入,并生成一系列分辨率从4到1,024 kb 的逐渐粗粒度的序列表示。多级解码器预测顶级高达256-Mb 距离的相互作用,其大于最长的人类染色体 chr1,并且在底层的1-Mb 距离内降至4-kb 分辨率的相互作用。通过使用多染色体输入(Methods)),染色体间的相互作用也允许在32-256 Mb 水平。补充图1和代码库中提供了详细的多尺度深度学习序列模型体系结构规范。为了能够扩展深度学习模型的训练和对大的染色体尺度序列的推断,设计了一种用于提高记忆效率的水平检查点技术(Methods),以允许训练模型即使当内部表示大小远远超过 GPU 内存界限。
Orca 序列模型在 H1胚胎干细胞(H1-ESC)和人包皮成纤维细胞(HFFs)的micro-C 数据集上进行训练,这些数据集是迄今为止最高分辨率的数据集15。编码器和解码器分三个阶段进行联合训练,在这三个阶段中,前一阶段训练的编码器被冻结并用于后一阶段的训练(Methods)。最终的模型预测从1到256Mb 在九个不同的尺度。每个模型由1-Mb,1-32-Mb 和32-256-Mb 模块组成,这些模块可以一起使用或单独使用以在应用中提供灵活性: 1-32-Mb 模型是大多数应用具有高精度和灵活性的主要模型; 32-256-Mb 模型对于预测染色体尺度和染色体间相互作用最有用; 1-Mb 模型对于快速筛选大量变体的局部基因组相互作用效应是有用的。预测的交互矩阵得分表示基于距离的背景得分的对数倍,其中背景得分(也通常称为预期得分)是相同基因组距离下的平均标准化接触得分。在坚持测试染色体上,该模型与 H1-ESC 的所有尺度的实验观察结果一致地达到0.78 -0.85 Pearson 相关性,与 HFF 的0.73 -0.79 Pearson 相关性。预测染色体间相互作用的相关性为0.47 -0.74。编码器序列表示用基因组相互作用预测和预测来自序列的相同细胞类型的染色质可及性,CTCF 和组蛋白标记峰的辅助任务进行训练,这改善了性能。包含较大的序列上下文也提供了对局部基因组结构的预测的一个小的改进。该模型还预测不同的细胞类型特异性基因组组织。此外,在共享测试集上将亚兆基规模的预测与 Akita23进行比较,并观察到 H1-ESC 和 HFF 的相关性改善。为了更好地证明预测的准确性和细胞类型特异性,在补充数据1中显示了来自坚持染色体上位置的另外20个无偏见采样的多尺度预测示例。
图1: 从序列预测多尺度三维基因组结构
A,用于基因组相互作用预测的深度学习模型体系结构的示意图概述。多分辨率的序列表示由分层编码器以自下而上(高分辨率至低分辨率)的顺序从序列开始计算,而基因组相互作用矩阵以自上而下的顺序(低分辨率至高分辨率)从相应级别的序列表示和更高级别的基因组相互作用预测预测。B,基于多尺度序列的预测实例从整个染色体放大到一个位置上的提供的测试染色体。从1-256-Mb 尺度的预测与micro-C实验观测进行了比较。由于缺乏覆盖率而导致的Micro-C 数据中的缺失值以灰色显示,并且这些区域也在64-256-Mb 预测中表示,因为在主要装配间隙或不可映射区域的预测具有未知的准确性。对于预测和实验数据,基因组相互作用用基于基因组距离的背景得分的对数倍表示。HFF 细胞类型的相同区域的预测也显示在扩展数据图1中。C,预测的相互作用分数与Micro-C 测量的相互作用分数在抗拒测试染色体上的散点图比较。在每个面板中,显示了10,000个随机抽样的分数。整个测试染色体的皮尔逊相关性也被注释。1-32-Mb 水平的预测来自 Orca 32-Mb 模型,64-256-Mb 水平来自 Orca 256-Mb 模型。
Orca 序列模型能够预测不同的基因组相互作用机制,不仅包括基于 CTCF 的相互作用,还包括 Polycomb 介导的相互作用和启动子-增强子相互作用。如来自提供染色体的几个区域所示,Orca 模型以细胞类型特异性方式预测 Polycomb 介导的相互作用和启动子-增强子相互作用,这得到了相互作用和组蛋白标记的实验数据的支持。此外,本研究亦评估及比较由 CTCF 及组蛋白标记染色质免疫沉淀测序(ChIP-seq)数据注释的不同基因组区域类型的基因组相互作用的模型预测表现。这种预测非 CTCF 细胞类型特异性相互作用的能力可能有助于更好地理解细胞类型特异性调控的序列基础。
图2: 基于多尺度序列的 SV 对基因组结构影响的预测。
图3: 基于亚兆碱基规模(submegabase-scale)基因组相互作用的细胞类型特异性基序的鉴定。
图4: 染色质区室序列依赖性的虚拟筛选分析确定了 TSS 序列的突出作用。
讨论
Orca 是一个基于基因组序列的全局预测模型框架,用于从碱基序列到整个染色体的跨空间尺度的三维基因组组织预测。它可以预测任何基因组变异的基因组结构影响,包括大的结构和拷贝数变异。Orca 准确地概括了以前实验研究过的变种的结构影响。随着快速分析只需要序列的大量变异的潜力,它可以帮助加速研究 SVs 在健康和疾病中的作用。除了能够大规模地预测变异效应,这些捕获3D 基因组相互作用结构的序列依赖性的序列模型提供了用虚拟遗传筛选探测基因组相互作用的序列水平机制的工具。
与三维基因组的多尺度空间组织一样,序列依赖性预计会随尺度而变化。单个基序的序列决定因素似乎是强效 CTCF 基序和中到弱效组织特异性 TF 基序的组合,可能通过不同的机制。在数百个碱基对的长度上,预测 TSS 序列具有建立区室 A 的活性。在6-12kb 及以上,扩展的 B 室序列或甚至随机乱序列可以建立 B 室。最近实验确定的最小长度的基因组片段维持室结构是大约6-10 kb ,这类似于诱导显着的 A > B 区室变化所需的长度尺度。这可能表明这是区室化的潜在生物物理机制所需的一个关键长度尺度,可能是通过相分离。
从基于序列的角度来看,区室 A 似乎是需要特定序列模式的“活性”区室,因为广泛的染色质变化可能是由 TSS- 近端序列的插入引起的。相比之下,区室 B 似乎是“被动”区室,因为它需要没有区室 A 活性的扩展序列,并且区室 B 结构被预测为对序列的随机排列具有鲁棒性。请注意,这里的“主动”或“被动”的概念只表明序列依赖性特征,而不是分子机制,因为两个区室的建立和维持可能涉及活性分子生物化学活动。这些假设仍有待于通过未来的实验来验证。此外,进一步的研究可能会扩展或修订该模型中提出的染色质区室的序列依赖性,例如对激活或抑制转录的序列的可能依赖性。
值得一提的是,这项研究存在一些局限性。尽管预测在大多数情况下密切重现了实验观察,但在某些情况下,它们仍然与观察不同,超出了技术噪声或校准伪影所能解释的范围,如补充数据1所示。因此,在性能方面仍有进一步改进的空间,并且新的基于序列的机制有望通过更高分辨率的数据和改进的模型被发现。其次,基于机器学习的方法,如 Orca,预计将捕获在整个基因组中重复出现的序列模式依赖性,因此通过这种方法可能无法学习单独适用于极少数甚至单个基因组基因座的基于序列的机制。第三,当“passenger”序列模式与driver驱动因素几乎完全相关时,序列模型可能在学习正确的驱动序列模式方面面临挑战,即使该模型可以在相关性不太完美且训练数据足够信息化的情况下识别正确的驾驶员。最后,由于目前Hi-C 读数在高度重复区域的结构的限制,模型在这些区域中的预测无法被严格评估(模型通常预测这些区域的 B 室样结构)。完整的人类基因组端到端组装和长期阅读测序技术可能允许在未来解决这一局限性。
Orca 序列模型还为设计基于序列的实验提供了充足的新机会,以用超出本手稿所探索的“虚拟遗传筛选”来探测3D 基因组组织的序列依赖性,例如在特定基因座处以基对分辨率精细解剖序列以进行相互作用。这样的分析可以通过这里发布的模型和代码来完成。更一般地说,我预计这种基于深度学习模型的方法,用于复杂生物过程的计算机模拟,将成为生成生物系统假设的强大方法。
方法
用于多尺度三维基因组预测的 Orca 模型体系结构
Orca 模型体系结构由一个分层序列编码器和一个多级级联解码器组成,旨在提供多尺度的一系列“缩放”预测(图1)。分层序列编码器将高达256Mb 的大输入序列转换为多分辨率的一系列序列表示形式。一系列级联解码器每个预测一个相互作用矩阵,它代表所有成对的基因组相互作用在一个窗口的不同大小从1到256 Mb 在不同的分辨率。所有预测的相互作用矩阵的大小为250 × 250,所有预测的分数表示基于距离的背景下的对数倍。每个级别的解码器以相应分辨率的序列编码作为输入。顶级解码器以最低分辨率接收来自整个序列的输入,低级解码器以较高分辨率接收序列表示。例如,32-Mb 级解码器接收用于32-Mb 序列的128-kb 分辨率序列编码,1-Mb 级解码器接收用于1-Mb 序列的4-kb 分辨率序列编码。此外,除了顶级解码器之外,低级解码器还接收来自上级的预测作为输入(例如,1-Mb 级解码器接收2-Mb 级预测,裁剪到1-Mb 区域) ,并且所有多级解码器也接收距离编码矩阵作为输入。编码器计算从自底向上通过(高分辨率到低分辨率)开始,从一个热编码的原始序列开始,然后是自顶向下通过以将更长的信息引入到更细的分辨率表示(补充图1)。解码器计算遵循自上而下的顺序(长最大距离到短最大距离,低分辨率到高分辨率) ,每个低级解码器接收上级预测作为输入。架构和输入在下面有更详细的描述,模型的详细架构可以在补充图1和代码存储库中找到。
编码器和解码器都是具有剩余连接的卷积网络。层次序列编码器在一维(1D)残余卷积块和最大合并层之间交替。更具体地说,序列编码器的第一部分将一个热序列编码转换为4-kb 分辨率的序列表示,其具有改编自 Sei 模型的卷积结构42,其使用双线性 + 非线性路径设计,其在线性块的顶部堆叠具有残余连接的非线性块(补充图1)。编码器的第一部分包含28个卷积层,每个卷积层有64-128个通道。以4-kb 分辨率的序列编码作为输入,编码器的上部分创建了一系列4-kb,8-kb,... ,1,024-kb 分辨率的序列编码,其因子为2,具有类似的残余块结构,使用每分辨率4卷积层,128通道。
为了在多尺度上预测二维(2D)相互作用矩阵,使用了一系列级联序列解码器,每个解码器预测具有不同长度和分辨率的基因组相互作用矩阵。二维卷积体系结构由二维残余卷积块组成,采用线性 + 非线性路径设计。该二维卷积块循环通过扩张因子1,2,4,8,16,32,64四个完整通道,每个解码器共有112个卷积层。较低级别的译码器接收来自相应级别的序列表示的输入、来自上一级别的交互矩阵预测以及作为辅助输入的二维成对距离编码矩阵。通过成对和运算(Yij = Xi + Xj)将一维序列表示转换为二维序列表示。下层译码器预测一个子区域的窗口大小是上层预测窗口大小的一半,来自上层对应于该区域的预测被上采样2倍并作为输入。对于编码矩阵 D 的距离,对于每种细胞类型,Dij 是染色体内对{ i,j }的每个基因组距离 | i-j | 的基于对数距离的预期平衡接触评分,并且染色体间对用平均染色体间对数的常数填充预期平衡接触评分。基于距离的期望得分为32-256Mb 单调转换,使得得分较长的距离不高于较短的距离。距离编码矩阵和来自上层的上采样预测与二维序列表示相结合,通过串联,然后是卷积块(补充图1)。最终的模型预测是对称的平均与其转置。模型预测在正向补体序列和反向补体序列的预测之间取平均值。
序列编码器还辅以预测 DNase-seq 和 ChIP-seq 染色质谱标签的辅助任务,这提高了性能。为了同时预测染色质谱标签和基因组相互作用,引入了一个用于预测染色质谱的一维卷积块,该卷积块接收来自序列编码器的4-kb 分辨率输出的输入。
模型训练和评估
从4D Nucleome (4DN)数据门户(登录 ID 4DNFI9GMP2J8和4DNFI643OYP9)下载 H1-ESC 和 HFF 细胞的处理的micro-C 数据集。从 GRCh38/hg38参考基因组中检索到基因组序列。通过使用 Selene 深度学习序列建模库从训练染色体中统一采样基因组,在训练期间即时生成训练数据
Selene: a PyTorch-based deep learning library for sequence data | Nature Methods
为每个micro-C 数据集训练一个单独的模型。动态采样为每个训练步骤生成新的训练样本。每个训练样本包括一个序列(输入)和相应的多级距离归一化接触矩阵(目标) ,这也被称为基因组相互作用矩阵。
为了计算基因组相互作用矩阵,将迭代校正矩阵平衡算法和自适应粗粒度程序应用于从具有冷却器和冷却工具包的mirco-C 数据集中检索的接触矩阵。自适应粗粒化是一个预处理过程中实施的冷却工具包,平滑低覆盖面积的接触地图与自适应窗口大小和这一步骤消除零通过汇集读取局部邻域。没有进一步的平滑应用,以保持数据的空间分辨率。然后将处理后的矩阵除以背景矩阵,背景矩阵是前一节描述的距离编码矩阵的指数(所有操作都是单元操作) ,并将背景矩阵的最小值添加到数值稳定性和分母中,以减少噪声。以距离为基础的期望通过凉爽的工具计算每个染色体,然后聚集在所有染色体上。距离-期望曲线超过1.6 Mb 的距离是平滑与低。将染色体分为训练集(除 chr8,9和10以外的所有染色体) ,验证集(chr8)和测试集(chr9,10)。
主要的损失函数是预测和目标之间的均方差,或者如下
其中预测和目标都是250 × 250平方矩阵,N 表示矩阵中要平均的元素数,范数符号表示 Frobenius 范数。基因组相互作用矩阵中缺失的值,通常是由于覆盖率低或没有覆盖,在损失和梯度计算中被忽略。还使用辅助的二进制交叉熵损失函数来训练4-kb 分辨率序列编码以同时预测染色质可及性和 ChIP-seq 染色质配置文件标签,
其中targetc 是大小为 d × 250的二元染色质配置文件目标矩阵(d 是染色质配置文件的数目) ,prediction_c 是相同大小的预测转移矩阵,i 和 j 是矩阵的指数,N 是矩阵中元素的总数。辅助损耗与主损耗函数同时训练在同一组序列上。使用的染色质概况列表在补充表6中提供。染色质配置文件标签是为4-kb 箱生成的,并根据是否有任何峰与4-kb 箱重叠来标记1或0。
为了允许使用标准技术对不适合 GPU 内存的大规模序列模型进行训练,设计了一种水平检查点方法,利用模型的层次结构(Methods section ‘Scaling hierarchical deep-learning model training’ for details)。其他训练优化包括在 CPU 上并行生成训练数据,以及随机选择正向补码序列或反向补码序列进行预测,这可以被视为从正向补码序列和反向补码序列平均预测的无偏随机逼近。
考虑到模型应用的灵活性和模型训练的有效性,将模型设计为三个可堆叠模块(1 Mb,1-32 Mb,32-256 Mb) ,分三个阶段进行训练。在第一阶段,以4-kb 分辨率编码的序列被预先训练,任务是在4-kb 分辨率下预测1-Mb 距离内的基因组相互作用,并且辅助任务是预测相同分辨率下的染色质谱标签(没有辅助任务的粘附素耗尽的 HCT116模型被训练)。高达4kb 分辨率的编码器和在第一阶段训练的解码器也称为 Orca-1Mb。在第二阶段,使用来自1-Mb 模块的序列编码器的预先训练的第一部分,训练多尺度1-32-Mb 模型以预测1-Mb,2-Mb,4-Mb,8-Mb,16-Mb 和32-Mb 水平。为了训练多尺度预测模型,选择了一系列窗口尺寸越来越小、每个级别分辨率越来越高的子区域,或者称为“缩放”系列。例如,对于32-Mb 序列,随机选择16-Mb 次区域,然后随机选择16-Mb 区域内的8-Mb 次区域,并持续到选择1-Mb 区域。高达128kb 分辨率的编码器和在第二阶段训练的解码器也称为 Orca 32-Mb。在第三阶段,对32-256-Mb 模型进行染色体内和染色体间相互作用的训练,预先训练的序列编码器从1-32-Mb 模型达到128-kb 分辨率。完整的编码器和第三阶段的解码器也被称为 Orca 256-Mb。32-256-Mb 模型的训练数据通过以下过程从多条染色体中取样: 首先取样一条染色体,然后将该染色体的全长加入到序列中; 然后取样另一条染色体,如果不超过256 Mb,则加入全长染色体,否则在该染色体上取样总数为256 Mb 的一个分区; 继续添加新的染色体,直到256-Mb 序列被填满; 随机改变取样序列片段的顺序,并为每个片段随机选择一个链方向; 检索相应的序列,染色体内和染色体间基因组相互作用,以及如上所述的距离编码。有随机梯度下降的训练过程在第一阶段大约需要480.000步(1-Mb 序列和批量大小16,学习率0.002和动量0.98,最后1/3的步骤用随机权重平均训练44) ,第二阶段需要150.000步(32-Mb 序列和批量大小4和学习率0.001和动量0.98) ,第三阶段需要20.000步(256-Mb 序列和批量大小4和学习率0.001和动量0.98)。培训硬件是一台配备了四个 NVIDIA Tesla V10032 GB 图形处理器的服务器。在代码存储库中提供了用于训练 Orca 模型的代码,其中包含了实现的全部细节。
每个训练阶段从处理到不同分辨率的Micro-C 数据中生成训练数据。从1-Mb 模型的1-kb 分辨率的Micro-C 接触矩阵,1-32-Mb 模型的4-kb 分辨率和32-256-Mb 模型的32-kb 采样训练数据,并且将这些高分辨率矩阵下采样到解码器的预测分辨率。下采样是通过将折叠成一个的多个条目的平均值(不包括缺失的值)来执行的。为了进一步减少过拟合,训练的输入序列通过1-Mb 模型的100bp 内的随机偏移移动,1-32-Mb 模型的1kb 和32-256-Mb 模型的4kb。
选择的测试染色体的模型预测评估
为了评价模型对抗性测试染色体的预测性能,在测试染色体上系统地预测了多尺度基因组相互作用矩阵,并将预测结果与实测的micro-C 数据进行了比较。评估数据的处理过程与训练数据的生成过程相同。micro-C 目标矩阵中缺少的值被排除在评估之外(缺少的值通常是由于覆盖率低或没有覆盖)。由于通过上述分组过程从高分辨率矩阵中下采样较低分辨率的目标矩阵,所以通过从高分辨率矩阵中平均多个值来计算下采样值,同时排除缺失值,如果 > 25% 的这些值丢失,则在评估中也跳过下采样值。具体而言,为了评估1-32-Mb 水平的预测,测试集染色体用32-Mb 窗口以0.5 Mb 的步长平铺。对于每个32-Mb 窗口,通过依次放大到位于高级区域中心的每个16-Mb,8-Mb,4-Mb,2-Mb,1-Mb 子窗口,在从1Mb 到32Mb 的所有尺度上预测基因组相互作用。所有的预测矩阵被连接和平坦化,并且在预测和micro-C 观测之间计算 Pearson 相关性。将1-32-Mb 模型的1-Mb 级性能与相同的1-Mb 窗口上的1-Mb 模块预测进行了比较。
为了评估染色体内32-256-Mb 尺度的预测,首先产生两个含有测试染色体的256-Mb 序列,其余的256-Mb 长度用来自 chr1的序列填充(仅评估染色体内相互作用)。对于128-Mb、64-Mb 和32-Mb 水平的预测,使用与步长为5,120 kb 的测试染色体平铺相同的起始位置。超出测试染色体边界的窗口将从计算中丢弃。
为了评估32-256-Mb 尺度预测的染色体间预测,多染色体256-Mb 序列是通过从测试染色体和串联随机取样序列片段构建的。具体而言,每个序列片段的长度在64-128Mb 之间随机均匀选择,当总长度超过256Mb 时,将最后一个片段截断为256Mb,然后随机改变采样片段的顺序。据此构造了距离编码矩阵。然后,构建100个256Mb 序列,并产生放大到每个256Mb 序列中心的多尺度预测(选择每个256Mb 序列中心的128-Mb,64-Mb,32-Mb 区域)。只评估了染色体间的预测。
为了与 Akita 在submegabase-scale 的预测进行比较,来自 Akita 的预测是在其同样位于 Orca 测试染色体9和10的测试集样品上生成的。然后用 Orca 1-32-Mb 模型生成相同基因组区域的虎鲸预测,并且只使用1-Mb 水平的预测。Orca 1-Mb 水平的预测和目标基因组相互作用矩阵使用双线性上采样(因子为2)进行调整,并裁剪到秋田输出区域,然后应用具有 Sigma 1和核大小5的额外高斯滤波并剪切到(- 2,2)以匹配秋田数据处理步骤。对于每个测试样本,背景减去皮尔逊相关性计算秋田目标和虎鲸目标处理如上所述。为了计算背景减去皮尔逊相关性,对于任何预测或目标矩阵,在计算相关性之前,每个得分被相同距离的同一矩阵中的平均得分减去。背景减法在保持基因组结构信息方面效果最小,提高了对不同数据预处理的鲁棒性。
分层深度学习模型的扩展训练
为了将深度学习序列模型扩展到数百兆字节,设计了一种可扩展的高效记忆训练算法,以显著降低记忆需求。如补充图25所示,深度学习的常规训练过程是分层的,并将所有内部表示存储在计算梯度的内存中,这导致对大型模型输入的内存需求极高。检查点是一种节省内存的技术,首先用于高层数的剩余网络45。通过检查点,只存储检查点层上的内部表示,当需要梯度计算时,可以动态地重新计算其他内部表示。然而,即使使用检查点技术,对于非常大的序列输入,训练仍然是不可行的,因为计算的内存需求甚至只有一个序列的第一层超出了目前可用的 GPU 的最大容量。
利用序列模型的层次结构,通过在水平块中执行它们并只存储块的输出,可以大大减少使用最多内存的底层的内存消耗。这种方法将下层的内存使用固定到计算块所需的内存上,最小块大小是块输出层的接收字段(为了计算效率,推荐的大小至少是最小值的两倍)。例如,Orca 序列编码器的4-kb 分辨率层输出的接收字段为212 kb,小于32 Mb 的1/150或256 Mb 的1/1,200,从而大大减少了内存使用。因为底层的内存消耗数量级比上层大,这基本上解决了 Orca 模型的内存消耗问题,并允许我们扩展到和超越整个染色体尺度的输入。我将这种技术称为水平检查点。水平检查点被用来允许模型扩展到大输入,用于训练和预测 Orca 32-Mb 和 Orca 256-Mb 模型。水平检查点还允许在模型训练期间进行梯度计算,虽然由于训练时间的增加,这种能力在当前模型中没有得到利用,但是这种能力在未来的研究中可能是有用的。
未完待续,好吧,又给自己留了坑