参考文章:
看到公众号这篇推文 解读的很深入
https://mp.weixin.qq.com/s/7BqcpR1bMJaZHV408-sv6Q
染色质免疫沉淀后测序(ChIP-seq)是一种针对DNA结合蛋白,组蛋白修饰或核小体的全基因组分析技术。随着测序成本的降低,ChIP-seq已成为研究基因调控和表观遗传机制不可或缺的工具。在这篇文章中,我们对前面的内容做一个总结,分析下现阶段ChIP-seq存在着哪些需要注意的问题以及我们该如何更好地利用这项技术获得研究成果。
(一)ChIP-seq现阶段存在的问题
1.甲醛交联对后续结果分析的影响
甲醛虽然是一种高度渗透的交联剂,但由于其反应活性仅限于胺,因此其交联效率较低;对哺乳动物细胞而言,其最大交联效率仅为1%。在DNA上停留时间短于5秒的蛋白无法用蛋白质交联。另外,甲醛还会导致许多其他无关蛋白质交联到DNA上,影响后续分析数据。有研究称,甲醛交联会触发DNA损伤应答机制,从而改变染色质组分,进而使ChIP结果产生偏向性。由于交联反应在加热和低PH的情况下会发生逆转,因此DNA与蛋白质的交联复合物的稳定性也是一个值得关注的问题。
根据有无甲醛交联步骤可将ChIP分为两种类型,一类是存在甲醛交联的ChIP,即X-ChIP(cross-linking and mechanical shearing ChIP);另一类是无交联存在的ChIP,即N-ChIP(native-ChIP);相较于X-ChIP,N-ChIP有很多优点:(1)高分辨率;(2)避免了甲醛交联带来的非特异性蛋白在DNA上的富集;(3)避免了甲醛交联对抗抗原表位的遮盖;(4)减少了样品损失。由于使用MNase,N-ChIP只适用于研究组蛋白修饰,不能用于转录因子研究。
2. 酶断裂法与超声波打断方法比较
常用的断裂酶是MNase,即微球菌核酸酶,它能够降解核小体连接区的DNA序列的核酸酶;MNase消化染色质可以释放出一个个独立的核小体。MNase酶解法具有一定的局限性:(1)偏向于切割A/T碱基位点,使得核小体A/T富集区域表达量低于真实情况;(2)MNase不能在核小体边界处精确切割,导致染色体的开放位置与真实情况存在差异;(3)MNase偏向于消化脆性核小体;(4)MNase获得的DNA片段相对较短,对后续样品的PCR扩增和检测带来了困难。
有研究认为,超声打断不如酶裂解法温和,而且由于打断的不均匀性,会导致测序结果背景噪音高,影响后续数据分析。在选择打断方式时,(1)如果所研究的蛋白质高丰度表达且与DNA结合紧密如组蛋白,那么样本无需交联,可使用酶解法;(2)若所研究的蛋白质表达丰度较低或与DNA结合不紧密如转录因子等,最好用交联试剂将样本进行固定,稳定蛋白质和DNA形态,这种情况用超声破碎最好。
(二)关于ChIP-seq分析的高级工具
ChIP-seq数据可对不同的细胞类型进行分析,利用这些细胞类型的信息来推断基因组动态信息或用一些实验数据来注释细胞类型的表观遗传学图谱。越来越多研究表明,表观遗传信息与基因表达和染色体构象高度相关,可用于预测基因表达情况和染色体构象。在本节中,我们简要介绍有关组蛋白修饰的ChIP-seq分析的高级应用工具。
1. 表观基因组的基因表达预测
通过ChIP-seq实验获得的表观遗传信息来定量推断基因表达水平,人们已经开发了各种基于机器学习的方法。例如,(1)将线性回归模型应用于启动子位点的组蛋白修饰富集,以预测CD4+T细胞中的基因表达;他们利用了19个组蛋白修饰,表明只需3个启动子位点修饰就足以模拟基因表达[1]。(2)运用非线性模型(如多元自适应回归线条(MARS)和随机森林),绘制了七个人类细胞系中的十一个组蛋白修饰和DNase I超敏反应图谱[2]。这些模型仅考虑启动子位点的表观遗传模式,而不考虑增强子位点信息。相反,DeepExpression[3]利用HiChIP数据[4](一种捕获蛋白质中心染色体环的高通量技术)来考虑增强子和增强子与启动子的相互作用。还有几种使用卷积神经网络(CNN)来预测基因表达[5]或差异基因调控模式的工具[6]。
2. 从表观基因组数据预测染色质相互作用
有大量研究表明,增强子上的单碱基多态性会导致遗传病和癌症[7],所以需要一种方法能够定义不同细胞系上增强子的状态。染色质构想捕获实验(3C)延伸出了一些新技术:Hi-C[8],HiChIP[4]和ChIA-PET[9],他们可以捕获到增强子与目的基因间的空间结构。Hariprakash和Ferrari将探究基因和增强子相互作用的方法分为四类:(1)基于相关性的方法估计所有增强子-启动子对的相互作用强度;(2)基于回归性的方法假定多个增强子对单个基因有贡献;(3)基于监督学习和计分的方法可以整合多个ChIP-seq数据集和其他信息类型。这些工具都专注于增强子-启动子相互作用,但还有许多其他染色质相互作用类型,例如增强子-增强子环和通过相分离产生的弱染色质聚集[10]。而CITD[11]和DRAGON[12]分别使用小波变换和势能函数从表观遗传数据中全面解析了三维基因组组织。
3. ChIP-seq数据的重建和去噪
ChIP-seq数据中的偏差和批次效应对分析有很大影响。由于机器学习方法对训练数据中的噪声很敏感,某些ChIP-seq样本将被识别为中等质量或被拒绝为低质量数据(导致丢失数据)。如果生物样品很珍贵(例如原代细胞和临床样品),很难收集大量样品,“数据插补”方法可能就会适用。这些方法是利用来自其他紧密相关细胞类型的表观遗传数据进行数据降噪或重建,“数据降噪”旨在通过识别和消除数据中的噪声来改善现有的ChIP-seq样本质量。软件Coda[13]可以编码生成噪声的过程,并使用卷积神经网络恢复ChIP-seq数据中的信号。“数据重建”旨在从计算机中的大型数据集中生成丢失的ChIP-seq数据。ChromImpute[14]是一个新的工具,可利用回归树使用十种最相关的细胞类型从每个缺失实验中推断出信号。软件PREDICTD[15]和Avocado[16]利用张量分解同时插入多个ChIP-seq数据。这些数据插补方法是实际ChIP-seq实验的潜在计算替代方法,并且可能为收集所有可能在生物学上不可能的细胞类型和环境条件的表观基因组数据开辟道路。尽管这种方法在计算上具有挑战性,但来自各种细胞类型的公共可用高质量数据鼓励实现这一目标。
(三)关于单细胞ChIP-seq分析
最近的研究表明,许多细胞类型(包括正常的免疫细胞)在复杂的组织和肿瘤中起着重要的辅助功能。为了阐明发育过程中的这种细胞异质性和细胞命运轨迹,人们已经开发了各种单细胞测定方法。其中,scChIP-seq可从低输入样本中以单细胞分辨率对组蛋白修饰和其他染色质结合蛋白进行全基因组分析。最近,用于单细胞标记和ChIP-seq库制备的多种方法用于单细胞标记和ChIP-seq文库制备;这些方法使用微流体系统,Tn5转座酶标记,和ChIP-free的策略。
- 表. 单细胞ChIP-seq方法
方法 | 策略 | 细胞状态 | 比对率 | 非冗余reads数 | 参考文献 |
---|---|---|---|---|---|
ScDrop-ChIP | ChIP和微流体系统 | Native | 70% | 796 | [17] |
Sc-itChIP-seq | ChIP和标签法 | Native,fixed | 94% | 9016 | [19] |
scChIC-seq | ChIP-free(MNase切割) | Native | 6% | 4079 | [20] |
CUT&Tag | ChIP-free(标签法) | Native | 97% | 10104 | [23] |
ACT-seq | ChIP-free(标签法) | Native | 83% | 2497 | [24] |
CoBATCH | ChIP-free(标签法) | Native,fixed | 94% | 12000 | [25] |
1.基于微流体系统的分析
第一个scChIP-seq方法scDrop-ChIP [17]使用微流体系统进行细胞标记,并结合规范的ChIP方法在每个细胞中产生约800个非重复读段。最近开发的微滴微流控方法[18]提供了更高的分辨率,每个细胞产生约10,000个非重复读段。这些方法的局限性是大多数实验室通常无法使用专用的微流体装置。
2.基于标签的分析
使用Tn5转座酶的基于标签的文库制备已广泛用于各种NGS分析,包括ChIP-seq。sc-itChIP-seq [19]在经典的ChIP实验之前采用标签化技术进行单细胞标记和文库制备。此方法每个单元产生9000个非重复读段。由于实验过程与规范的ChIP-seq方法相似,因此该方法比scDrop-ChIP更易于使用。
3.ChIP-free方法
scChIP-seq已经开发了几种ChIP-free方法:单细胞染色质免疫裂解测序(scChIC-seq)[20]和单细胞uliCUT&RUN [21];它们是基于CUT&RUN方法的[22],采用MNase和蛋白A融合蛋白检测具有特定抗体的裂解靶位点。这些方法每个细胞产生约4,100个非重复读段,然后需要严格实验步骤来制备文库,缺点是reads比对率比较低(~6%)。另外还有三种类似的方法被开发:CUT&Tag [23],ACT-seq [24]和CoBATCH [25],这些方法使用Tn5转座酶和蛋白A融合蛋白。在文库制备过程中,在目标蛋白结合在染色体上后,融合蛋白捕获一抗,然后激活Tn5转座酶以在蛋白质结合位点进行标记。这些方法的优点是可以同时进行蛋白质结合位点检测和文库制备,从而大大减少了实验步骤和时间。此外,这些方法较少受到免疫沉淀步骤带来的误差。此外,这些方法显示约97%的比对率,每个细胞产生约12,000个非重复读段。因此,这种ChIP-free方法具有进行高通量和高质量scChIP-seq分析的潜力。最后,染色质整合标记和测序(ChIL-seq)[26]是另一种ChIP-free的方法,它是基于免疫染色的而非ChIP。该方法使用与dsDNA偶联的第二抗体探针,该探针包含T7 RNA聚合酶启动子,NGS接头序列和Tn5结合序列。捕获第一抗体后,探针DNA序列通过Tn5转座酶整合到目标结合位点。然后通过转录扩增整合区域,进行RNA纯化和文库制备。该方法可用于单细胞分析,但可能需要进行几次优化才能实现高通量测序。将来将开发其他scChIP-seq方法,例如同时检测多个组蛋白修饰和其他染色质结合蛋白。这些研究将能够捕获每个细胞染色体上的基因调节因子并得知他们之间的相互作用关系。
参考文献:
[1]R. Karlic, H.R. Chung, J. Lasserre, K. Vlahovicek, M. Vingron, Histonemodification levels are predictive for gene expression, Proc Natl Acad Sci U SA 107(7) (2010) 2926-31.
[2]X. Dong, M.C. Greven, A. Kundaje, S. Djebali, J.B. Brown, C. Cheng, T.R.Gingeras, M. Gerstein, R. Guigo, E. Birney, Z. Weng, Modeling gene expressionusing chromatin features in various cellular contexts, Genome Biol 13(9) (2012)R53.
[3]W. Zeng, Y. Wang, R. Jiang, Integrating distal and proximal information topredict gene expression via a densely connected convolutional neural network,Bioinformatics 36(2) (2020) 496-503.
[4]M.R. Mumbach, A.J. Rubin, R.A. Flynn, C. Dai, P.A. Khavari, W.J. Greenleaf,H.Y. Chang, HiChIP: efficient and sensitive analysis of protein-directed genomearchitecture, Nat Methods 13(11) (2016) 919-922.
[5]R. Singh, J. Lanchantin, G. Robins, Y. Qi, DeepChrome: deep-learning forpredicting gene expression from histone modifications, Bioinformatics 32(17)(2016) i639-i648.
[6]A. Sekhon, R. Singh, Y. Qi, DeepDiff: DEEP-learning for predicting DIFFerentialgene expression from histone modifications, Bioinformatics 34(17) (2018)i891-i900.
[7]H. Chen, C. Li, X. Peng, Z. Zhou, J.N. Weinstein, N. Cancer Genome AtlasResearch, H. Liang, A Pan-Cancer Analysis of Enhancer Expression in Nearly 9000Patient Samples, Cell 173(2) (2018) 386-399 e12.
[8]E. Lieberman-Aiden, N.L. van Berkum, L. Comprehensive mapping of long-rangeinteractions reveals folding principles of the human genome, Science 326(5950)(2009) 289-93.
[9]M.J. Fullwood, M.H. Liu, Y.F. E.T. Liu, C.L. Wei, E. Cheung, Y.Ruan,An oestrogen-receptor-alpha-bound human chromatin interactome, Nature462(7269)(2009) 58-64.
[10]B.R. Sabari, A. Dall'Agnese, A. Boija, I.A. Klein, E.L. Coffey, K. Shrinivas,B.J. Abraham, N.M. Hannett, A.V. Zamudio, J.C. Manteiga, C.H. Li, Y.E. Guo,D.S. Day, J. Schuijers, E. Vasile, S. Malik, D. Hnisz, T.I. Lee, Cisse, II,R.G. Roeder, P.A. Sharp, A.K. Chakraborty, R.A. Young, Coactivator condensationat super-enhancers links phase separation and gene control, Science 361(6400) (2018).
[11]Y. Chen, Y. Wang, Z. Xuan, M. Chen, M.Q. Zhang, De novo decipheringthree-dimensional chromatin interaction and topological domains by wavelettransformation of epigenetic profiles, Nucleic Acids Res 44(11) (2016) e106.
[12]Y. Qi, B. Zhang, Predicting three-dimensional genome organization withchromatin states, PLoS Comput Biol 15(6) (2019) e1007024.
[13]P.W. Koh, E. Pierson, A. Kundaje, Denoising genome-wide histone ChIP-seq withconvolutional neural networks, Bioinformatics 33(14) (2017) i225-i233.
[14]J. Ernst, M. Kellis, Large-scale imputation of epigenomic datasets forsystematic annotation of diverse human tissues, Nat Biotechnol 33(4) (2015)364-76.
[15]T.J. Durham, M.W. Libbrecht, J.J. Howbert, J. Bilmes, W.S. Noble, PREDICTDPaRallel Epigenomics Data Imputation with Cloud-based Tensor Decomposition, NatCommun9(1) (2018) 1402.
[16]J. Schreiber, T. Durham, J. Bilmes, W.S. Noble, Multi-scale deep tensorfactorization learns a latent representation of the human epigenome, bioRxiv(2019).
[17]A. Rotem, O. Ram, N. Shoresh, R.A. Sperling, A. Goren, D.A. Weitz, B.E.Bernstein, Single-cell ChIP-seq reveals cell subpopulations defined bychromatin state, Nat Biotechnol 33(11) (2015) 1165-72.
[18]K. Grosselin, A. Durand, J. Marsolier, A. Poitou, E. Marangoni, F. Nemati, A.Dahmani, S. Lameiras, F. Reyal, O. Frenoy, Y. Pousse, M. Reichen, A. Woolfe, C.Brenan, A.D. Griffiths, C. Vallot, A. Gerard, High-throughput single-cellChIP-seq identifies heterogeneity of chromatin states in breast cancer, NatGenet 51(6) (2019) 1060-1066.
[19]S. Ai, H. Xiong, C.C. Li, Y. Luo, Q. Shi, Y. Liu, X. Yu, C. Li, A. He,Profiling chromatin states using single-cell itChIP-seq, Nat Cell Biol 21(9)(2019) 1164-1172.
[20]W.L. Ku, K. Nakamura, W. Gao, K. Cui, G. Hu, Q. Tang, B. Ni, K. Zhao,Single-cell chromatin immunocleavage sequencing (scChIC-seq) to profile histonemodification, Nat Methods 16(4) (2019) 323-325.
[21]S.J. Hainer, A. Boskovic, K.N. McCannell, O.J. Rando, T.G. Fazzio, Profiling ofPluripotency Factors in Single Cells and Early Embryos, Cell 177(5) (2019)1319-1329 e11.
[22]P.J. Skene, S. Henikoff, An efficient targeted nuclease strategy forhigh-resolution mapping of DNA binding sites, Elife 6 (2017).
[123]H.S. Kaya-Okur, S.J. Wu, C.A. Codomo, E.S. Pledger, T.D. Bryson, J.G. Henikoff,K. Ahmad, S. Henikoff, CUT&Tag for efficient epigenomic profiling of smallsamples and single cells, Nat Commun 10(1) (2019) 1930.
[24]B. Carter, W.L. Ku, J.Y. Kang, G. Hu, J. Perrie, Q. Tang, K. Zhao, Mappinghistone modifications in low cell number and single cells using antibody-guidedchromatin tagmentation (ACT-seq), Nat Commun 10(1) (2019) 3747.
[25]Q. Wang, H. Xiong, S. Ai, X. Yu, Y. Liu, J. Zhang, A. He, CoBATCH forHigh-Throughput Single-Cell Epigenomic Profiling, Mol Cell 76(1) (2019) 206-216e7.
[26] A. Harada, K. Maehara,T. Handa, Y. Arimura, J. Nogami, Y. Hayashi-Takanaka, K. Shirahige, H.Kurumizaka, H. Kimura, Y. Ohkawa, A chromatin integration labelling methodenables epigenomic profiling with lower input, Nat Cell Biol 21(2) (2019)287-296.