ChIP-seq综述

Writing

ChIP–seq: advantages and challenges of a maturing technology

概述

相比chip-chip，chip-seq提供了更高的分辨率，更少的noise以及更大的覆盖度。随着二代测序成本的快速下降，chip-seq将成为研究基因表达调控和表观遗传学必不可少的工具之一。

染色质状态的重要意义：染色质的状态一方面通过改变核小体的位置，DNA的包装紧密程度直接影响着转录的进行，另一方面独特的组蛋白修饰将促进或抑制转录因子与调控元件的结合。系统性地研究不同细胞的染色质状态对于理解生命发育过程至关重要。

最早的chip-chip技术，是基于微阵列杂交原理的，旨在提供全基因组范围的DNA-蛋白质相互作用。在一个高密度的芯片上种有大量覆盖基因组或指定区域的探针。

二代测序的发展在多个领域得到了广泛应用，包括全基因组测序、RNA-seq、结构变异体的发现、DNase I超敏位点图谱、从mRNA转录本中鉴定融合基因、新的小RNA的鉴定等。

ChIP-seq的应用研究最早发表在2007年，感兴趣的DNA片段被直接测序而不是杂交。研究中比较关键的一点是技术的分辨率相比chip-chip得到了提高，以至于能够识别组蛋白变体比如H2A.Z。另外研究中还发现了一类二价染色质状态（bivalent domains），也就是同一染色质区域同时具有激活和抑制性组蛋白标记。这类标记所标记的基因可能预示着它们暂时处于沉默但随时准备开启转录的“蓄势”状态，且这类基因很可能对于细胞谱系的发展、命运决定起着关键性作用。

对于探究DNA结合蛋白，ChIP-seq的实验就是为了富集与特异蛋白结合的DNA。首先通过原位甲醛交联DNA和蛋白，接着超声打断DNA成200-600bp的小片段，用抗体免疫沉淀感兴趣的DNA-蛋白复合物。最后解交联，对释放的DNA进行测序。

对于探究核小体位置或者组蛋白修饰，常常用到微球菌核酸酶（MNase)消化直接使染色质片段化，不用甲醛交联操作。实际上超声也可以用来片段化，不过MNase更被广泛应用，因为它可以更彻底地去除不需要的linker DNA使核小体mapping更精确。不过既然是酶切片段就不可避免地会有很多难以控制的因素，比如酶本身的序列结合偏好、酶切活性等。根据ChIP实验是否需要交联分成X-ChIP和N-ChIP，X表示crosslinking，N表示native。

接下来的DNA建库需要对片段化的DNA片段进行大小筛选（一般是150–300bp范围)。

ChIP-seq的优缺点

chipseq_ad.jpg

Cost是很久以前的数据，现在的成本已大大降低。

首先chip-chip的应用范围就会受到限制，因为不太可能每个物种都专门制备高覆盖度探针（覆盖度本身就是问题），探针数太多，生产耗时耗力，尤其是对于哺乳动物基因组更是困难。

杂交过程本身就带有很多bias，杂交效率难以准确衡量，会受到GC含量、片段长度、浓度、序列二级结构等影响。且杂交测定的范围也很大程度上受到限制。

ChIP-seq在解决chip-chip上述问题的同时自身也有一些局限性：二代测序的准确性在reads的尾端大幅度降低（不过可以通过优良的生物信息学算法校正），片段富集以及测序过程都有GC倾向，正确地在测序仪上loading适量的DNA等（太少了信号弱，覆盖度低；太多了荧光信号彼此干扰，数据质量差）。

实验设计问题

抗体质量

是ChIP成功与否的关键因素，也是产生较大batch effect的来源。抗体的交叉反应活性应当被严格地检查，包括应用RNAi实验敲低进行特异组蛋白修饰的酶做验证、质谱检测沉淀下来的蛋白片段等。

样本量要求

典型的chip-seq实验要求10的7次方数量级的细胞，并产生10-100ng的DNA。有些chip-seq通过对protocol进行优化，降低到可以用10的4次方至10的5次方个细胞用来研究全基因组图谱。因为建库需要PCR扩增步骤，所以PCRbias是不可避免的（因此PCR循环数不能太高，尽可能低）。具体需要多少细胞和多少起始量DNA其实还要看研究的具体的TF或组蛋白修饰的丰度怎样。

对照实验

DNA片段化的bias: 非均匀的片段化、染色质开放区更容易片段化造成。因此真正peaks calling需要对照，排除这类影响。

有三种常见的对照：

input DNA (a portion of the DNA sample removed prior to immunoprecipitation (IP));

mock IP DNA (DNA obtained from IP without antibodies);

DNA from nonspecific IP (IP performed using an antibody, such as immunoglobulin G, against a protein that is not known to be involved in DNA binding or chromatin modification).

其中input DNA还是应用最为广泛的。

chip-seq_profile.jpg

测序深度

这个主要还是要根据样本本身的特点来确定，还可以检测一下saturation ponit

saturation point.jpg

数据分析

数据分析不是本文重点，简单提几个点：

鉴定peaks时，正链、负链的reads需要向彼此进行偏移，使得正负链的reads分布融合成一个中心区域的分布。（用的比较多的就是Poisson distribution)

有不同类型的peaks：sharp, broad and mixed，和检测的TF、组蛋白修饰类型本身的分布特点有关。对于不同类型的peaks，peak calling的算法会有区别。

peak caller的performance可以通过qPCR、计算peaks和邻近的motif之间的距离分布来简单评价。

下游分析不可缺少的当然是找motif，常用网站工具、软件包括：

The sequences of the top-scoring sites can be entered into motif-finding algorithm programs such as MEME、MDScan, Weeder，WebMOTIFS , and potential motifs are returned along with their statistical significance.

motif之间的相关性可以反映潜在的基因调控网络。

peaks注释，相关性分析、聚类、GO分析也很常见。

conclusion and future directions

ENCODE计划、modENCODE、Roadmap等表观遗传学项目都致力于大范围的基因组图谱的建立以及不同测序数据的整合。

参考文献：
ChIP–seq: advantages and challenges of a maturing technology
https://www.nature.com/articles/nrg2641