文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part II:数据分析)

上一篇:《文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part I:文章梳理)》

原文链接
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411

数据预处理

I. Alignment

  • 使用Bowtie2(默认参数)将read mapped 到 mm9 参考基因组
  • 仅保留MAPQ>=20 read
  • 去除PCR duplicates

II. Calling positive windows

首先,将全基因组分为一系列连续bins(i.e. equal-sized windows)

III. Exclude low-quality datasets

作者共产生了471个nuclear profiles + 5 negative control 共477个样本
作者考察了以下质量指标:

  • % of mapped reads
  • % of non-PCR duplicate reads
  • average sequencing quality
  • Mononucleotide repeat score
  • Dinucleotide repeat score
  • total number of windows scored positive
  • number of positive windows immediately adjacent to another positive window
  • number of positive chromosome for each sample

使用以上所有质量指标作为特征,对所有477个样本进行主成分分析,发现 % of mapped read 指标是区分 nuclear profile 和 negative control 最有效的特征。

negative controls 中 % of mapped reads 最高为2%。严格起见,作者将 % of mapped reads 小于 15% 的细胞全部过滤掉,共过滤掉63个细胞,剩余408个高质量细胞。

Calculation of linkage matrices

假设:
(1)位点被检测到的频率为 ,位点 被检测到的频率为
(2) 是位点和同时被检测到的频率

定义Linkage disequilibrium

使用 linkage 的理论最大值 对进行归一化,得到Normalized Linkage disequilibrium

其中 的计算方法为:

染色质三维结构识别

compartment A/B

GAM识别compartment A/B的方法与Hi-C基本相同,具体过程如下:

  1. 使用normalized linkage matrices 替代 normalized contact matrices,记为原始矩阵为。

  2. 对按距离进行切片,定义片内所有locus pair的均值为该片的期望,即

  3. 定义

  4. 计算 的 Pearson 相关系数矩阵为 ,即

  5. 以为特征矩阵,进行主成分分析(PCA),提取前3个主成分

  6. 选择与GC含量相关最高的主成分,用于定义compartment A/B

TAD

TAD的计算参考了 2015 Crane et al. [1] 提出的用于Hi-C数据的 insulation score方法。
使用 3 x 3 window box 沿对角线滑动,计算每个window box内的normalized LD的平均值。

使用SLICE识别 prominent interacting locus

interacting locus pairs

Figure 3a

核心思想:
假设基因组中的两个位点,在个NP中:
- 个既没有检测到A,也没有检测到B
- 个检测到或中的一个
- 个同时检测到或

定义的共出现(co-segregation)频率为

则当与的互作频率为时,根据SLICE model(详见《文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part III:SLICE 统计学模型)》可以计算得到co-segregation ratio服从的分布,并进行统计学检验: v.s 。
具体而言,计算 时的分布的95%分位值,当时,即认为间存在显著互作。

此外,对于prominent interacting pairs,SLICE model还可对进行估计(即Figure 3)

Interacting locus triplets

类似地,定义triplet co-segregation ratio 为

参考文献

[1] Crane, E., Bian, Q., McCord, R. et al. Condensin-driven remodelling of X chromosome topology during dosage compensation. Nature 523, 240–244 (2015). https://doi.org/10.1038/nature14450

你可能感兴趣的:(文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part II:数据分析))