Hi-C学习

原理

3014937-b66c93b9c55b0e7e.png

1.使用甲醛使三维空间上相邻的DNA之间形成共价键，使DNA交联
2.使用限制性内切酶切割相邻的片段形成相同的粘性末端
3.使用带有标记的序列填补粘性末端为平末端
4.将相邻的平末端的序列连接起来，形成一个环
5.将序列切割成小段，并用链霉亲和素磁珠将带有标记的小片段富集起来
6.洗脱磁珠上的片段，加接头，使用二代双末端测序的方法得到包含酶切位点序列的序列信息
这个视频把原理和实验的步骤说的很详细了：
https://www.jove.com/video/1869/hi-c-a-method-to-study-the-three-dimensional-architecture-of-genomes

分析策略

3014937-09c5bfbeff18467e.png

1.quality control 同 NGS analysis
2.比对到基因组上，比对的方式主要分两种，一种判断每条reads是否含有酶切位点，有则在酶切位点打断分割序列分别进行bowtie2单端比对；另一种采用单端比对的策略，以25bp为起始长度，每次增加5bp直到该reads比对到基因组具有唯一性（hiclib是这种）。无论哪种都是要进行单端比对，最后获得两端均匹配于基因组同一位置的reads（最可靠），以及单末端匹配到的reads（Imakaev,2012）也可以。
3.过滤reads要符合以下条件：
Read-level filtering：
①对错配数量和mapping质量MAPQ得分过滤②在参考基因组中利用酶切位点的信息列出一个列表，同mapping的结果相对比，也就是mapping到的reads附近应该存在酶切位点，去除附近没有酶切位点的reads，所以片段大小要设定一个阈值，比如选择在 500 bp 左右。
Read-pair level filtering：
获得两端均匹配于基因组同一位置的reads（最可靠），以及单末端匹配到的reads（Imakaev,2012）也可以。
Strand filters:
酶切位点两端的reads的方向要相反才行，都向内-><-和都向外<-->是合理的染色质构像，都向左<-<-或者向右->->，很可能是来自未消化的染色质的有效对或PCR人工产物。向内-><-的距离应该大于1kb，向外<-->的距离应该大于25kb
Distance filters:
Strand filters过滤掉的都是距离短的结果，Distance filters这种基于距离的过滤广泛用于早期的Hi-C数据，它对低分辨率Hi-C研究相当有效，经验数值是至少20-25KB，也就是过滤掉至少25KB以上的距离的序列。
最后是删除冗余的序列。

参考文章
Analysis methods for studying the 3D architecture of the genome （Ferhat Ay，2015）
染色质构象解析技术———Hi-C 及染色质构象信息提取（胡文桥，2015）

标准化以及后续的指导基因组组装以及TAD，LOOP分析等后续看看论文再写

Hi-C学习

原理

分析策略

你可能感兴趣的:(Hi-C学习)