文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part III:SLICE model)

文章梳理:文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part I:文章梳理)

原文链接
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411

概述

GAM 的直接测量量的是基因组上任意两个位点出现在同一切片(co-segregation)的频率
作者指出,GAM数据与Hi-C等数据不同的地方在于,GAM数据本身就同时包含了“信号”和“背景”。即GAM不仅测量interacting locus pair 的 co-segragation频率,同时也测量了 non-interacting locus pair的频率。因此,可以通过单纯的统计学检验从随机背景中识别出significant interactions。为此,作者开发了SLICE模型,目的是给出当基因组上有两个位点以(正文中的)的频率互作时,在同一个切片中能同是观察到两位点的概率所服从的分布以及期望。

模型推导

假设共有个细胞核,每个细胞在被激光随机切割,产生一个厚度为切片,测序后得到对应的一个 nuclear profile()。
(作者在之后的模型中使用切片厚度 , 总细胞核数 )

Part I: 单位点模型

Figure S1.2 (a)
定义

考虑基因组的任意一个位点
假设在一个切片中

  • 包含(或 )的概率为====
  • 不包含(或 )的概率为====

显然有,

注意:在切片中包含不代表的在最终的中能检测到A,因为还有DNA检出效率的问题。这部分作者会在之后考虑。

推导

如果该位点在细胞核中的位置是随机分布的。
当假设位点是一个没有体积的质点时,在切片中的概率为

其中

  • 是细胞核的平均体积,假设所有检测的细胞核都是一个半径为的球体,则
  • 其中是切片的平均体积,可首先计算出切片距离细胞核中心为时的切片体积,然后沿进行平均。

综上可解得

但事实上,一定长度的DNA在空间中占有一定体积
假设长度为 的一段DNA在空间中的占位是一个半径为的球。则当 时,可以使用 替代原公式中的
以上的 改写为

Figure S1.8

最终得到

Part II:两位点模型

定义:

设两位点间互作的概率为

  • 当 在某个细胞中发生互作时,取来自该细胞的切片,设该切片 中
    • 同时包含的概率为
    • 仅包含(或) 的概率为
    • 既不包含也不包含 的概率为
  • 当 在某个细胞中未发生互作时,取来自该细胞的切片,设该切片中
    • 同时包含的概率为
    • 仅包含(或) 的概率为
    • 既不包含也不包含 的概率为

显然有

推导:

根据全概率公式,在任意一个切片中,

  • 同时包含 的概率
  • 仅包含(或 )的概率
  • 既不包含也不包含 的概率为

容易推得

Part III:模型修正(I),二倍体生物情况

设个细胞核的切片中,包含个,个 的细胞核个数为:。

对于二倍体生物,能检测到的参考基因组上的位点 实际上对应同源染色体上的一对等位位点,检测的 对应同源染色体上的一对等位位点,因此,即
\begin{matrix} \hline & A_1 & B_1 & A_2 & B_2 \\ N_{0,0} & - & - & - & - \\ \hline N_{1,0} & + & - & - & - \\ & - & - & + & - \\ \hline N_{0,1} & - & + & - & - \\ & - & - & - & + \\ \hline N_{1,1} & + & + & - & - \\ & + & - & - & + \\ & - & + & + & - \\ & - & - & + & + \\ \hline N_{2,0} & + & - & + & - \\ \hline N_{2,1} & + & + & + & - \\ & + & - & + & + \\ \hline N_{2,2} & + & + & + & + \\ \hline N_{0,2} & - & + & - & + \\ \hline N_{1,2} & + & + & - & + \\ & - & + & + & + \\ \hline \end{matrix}

假设

  1. 与同一染色体的两位点互作的概率相比,位于不同染色体上的位点间的互作概率可以忽略不计。即考虑发生在 和的间的互作
  2. 发生在 的互作与发生在间的互作是相互独立的

综上可推出

\left\{\begin{align} \frac{N_{0,0}}{N} &= c_0^2 \\ \frac{N_{0,1}}{N} &= \frac{N_{1,0}}{N} = 2c_0c_1 = 2c_0(v_0-c_0) \\ \frac{N_{1,1}}{N} &= 2c_1^2 + 2c_0c_2 = 2[(v_0-c_0)^2+c_0(1-2v_0+c_0)] \\ \frac{N_{0,2}}{N} &= \frac{N_{2,0}}{N} = c_1^2 = (v_0-c_0)^2 \\ \frac{N_{1,2}}{N} &= \frac{N_{2,1}}{N} = 2c_1c_2 = 2(v_0-c_0)(1-2v_0+c_0) \\ \frac{N_{2,2}}{N} &= c_2^2 = (1-2v_0+c_0)^2 \\ \end{align}\right.

Part IV:修正(II)检出效率

在实际的实验中,并不是一个切片中的所有DNA都能被检出(都能出现在中)
假设检出效率为 ,此时在一个中检测到个, 个的概率为

\begin{split} N^{\epsilon}_{2,2} &= \epsilon^4 N_{2,2} \\ N^{\epsilon}_{2,1} &= \epsilon^3N_{2,1} + 2\epsilon^3 (1-\epsilon) N_{2,2} \\ N^{\epsilon}_{1,1} &= \epsilon^2N_{1,1} + 2\epsilon^2(1-\epsilon)(N_{1,2} + N_{2,1})+ 4\epsilon^2(1-\epsilon)^2N_{2,2}\\ N^{\epsilon}_{1,0} &= \epsilon N_{1,0}+ \epsilon(1-\epsilon)N_{1,1} + 2\epsilon(1-\epsilon)^2N_{2,1} + \epsilon(1-\epsilon)^2N_{1,2}+ 2\epsilon(1-\epsilon)^3N_{2,2}\\ N^{\epsilon}_{0,0} &= N_{0,0}+ (1-\epsilon)(N_{1,0} + N_{0,1}) + (1-\epsilon)^2N_{1,1} + (1-\epsilon)^3(N_{2,1} + N_{1,2})+ (1-\epsilon)^4N_{2,2} \end{split}
以上可简写为

其中是Kronecker indicator-function,即时,否则

Part V 最终模型

记在 中同时检测到,仅检测到(或 ), 没有检测到 的概率依次为:

\begin{split} \frac{m_0}{m} &= \frac{N^{\epsilon}_{0,0}}{N} \\ \frac{m_1}{m} &= \frac{ 2(N^{\epsilon}_{1,0} + N^{\epsilon}_{2,0}) }{N} \\ \frac{m_2}{m} &= 1 - \frac{N^{\epsilon}_{0,0}}{N} - \frac{ 2(N^{\epsilon}_{1,0} + N^{\epsilon}_{2,0}) }{N} \end{split}

consegregation ratio

参数估计

Detection rate

从数据中计算得到,根据 计算公式,反解得到

Figure S1.9

interacting pairs co-segregation

认为当两位点互作时的间距 时,

non-interacting pairs co-segeregation

将所有locus pair按所在染色体及在染色体上的距离进行分组

将 代入公式计算得到co-segregation ratio的期望值 ,并与每组的检测值进行拟合

解得位于第条染色体上距离为 的locus pair所对应的

interaction probability

当 均为已知时, 是关于 的函数

截屏2021-08-18 上午11.24.34.png

你可能感兴趣的:(文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part III:SLICE model))