大家好,这是专注表观组学十余年,领跑多组学科研服务的易基因。
本期,我们讲讲精准简化基因组甲基化测序(RRBS+oxRRBS)怎么做,从技术原理、建库测序流程、信息分析流程等方面详细介绍。
5-羟甲基化胞嘧啶(5hmC)是甲基化胞嘧啶(5mC)去甲基化过程中的中间产物,由TET家族酶类通过氧化甲基化胞嘧啶⽽产⽣。甲基化胞嘧啶和羟甲基化胞嘧啶在基因组DNA中存在⼴泛,均可明显影响基因的时空表达乃⾄染⾊质的重塑。作为⼀种潜在且稳定的碱基,DNA羟甲基化的研究具有重要的⽣物学意义。然⽽,单纯基于重亚硫酸盐转化的⽅法并不能区分胞嘧啶的甲基化和羟甲基化修饰。
简化基因组甲基化测序 (Reduced Representation Bisulfite Sequencing, RRBS) 是通过限制性酶切的⽅法富集基因组DNA 上富含 CCGG 位点的⽚段,经Bisulfite 处理和⾼通量测序技术进⾏基因组 CpG 富集区域内的单碱基分辨率的甲基化测序[3]。相对 WGBS ⽽⾔ RRBS 技术作为⾼性价⽐的甲基化测序⽅案,其测序量⼤幅减少,在⼤规模临床样本研究中具有⼴泛的应⽤价值。
简化基因组甲基化测序利⽤重亚硫酸盐能够将未甲基化的胞嘧啶(C)转化为胸腺嘧啶 (T)的特性,将基因组⽤重亚硫酸盐处理后测序,即可根据单个 C 位点上未转化为 C 未转化为 T 的 reads 数⽬与所有覆盖的 reads 数⽬的⽐例,计算得到甲基化率。该技术对于全⾯研究胚胎发育、衰⽼机制、疾病发⽣发展的表观遗传机制,以及筛选疾病相关的表观遗传学标记位点具有重要的应⽤价值。
氧化-重亚硫酸盐测序技术(oxidative bisulfite sequencing, oxBS-Seq),能够检测基因组上5mC和5hmC修饰。该技术将RRBS技术与化学氧化相结合,先利⽤⾼锰酸钾将DNA上的5hmC氧化成5fC,再⽤重亚硫酸盐处理,5fC和没有任何修饰的C就被转化成U,⽽5mC则不会被转化,仍然保持为C。
原理示意图如下:
该技术需要构建两个⽂库,图中蓝⾊虚线标出的为RRBS⽂库,紫⾊虚线标出的为oxRRBS⽂库。利⽤RRBS⽂库可以得到5mC和5hmC总的⽔平,利⽤oxRRBS⽂库可以得到精确的5mC的⽔平,两个⽂库相减,即可得到精确的5hmC的⽔平。根据该技术的原理可知,该技术可以同时得到精确的甲基化⽔平和羟甲基化⽔平。oxRRBS-seq是oxBS-seq技术中的⼀种,该技术可针对通过限制性酶切的⽅法富集基因组DNA 上富含 CCGG 位点的⽚段进⾏5mC和5hmC的检测。
(一)DNA提取与检测
易基因采⽤标准提取⽅法从组织或细胞中提取DNA,随后对DNA样品进⾏严格质控,质控标准主要包括以下⼏个⽅⾯:
(1)文库构建:
检测合格后,取 1μg 基因组 DNA 加⼊ Msp I 酶在 37℃条件下消化 16h。纯化后的⽚段 DNA ⽤ T4 DNA 聚合酶、Klenow ⽚段酶和 T4 多聚核苷酸激酶混合处理,修复、剪切和磷酸化。DNA ⽚段随后⽤ Klenow ⽚段(3 ' -5 ' exo-)进⾏ 3 '腺苷化,然后⽤ T4 DNA 连接酶将 5 ' -甲基胞嘧啶合成的接头连接起来。纯化后,每个 oxRRBS ⽂库取 1μl 氧化剂,反应体系为 10μl,RRBS ⽂库样品加⼊ 1μl 超纯⽔中代替氧化剂作为对照。两个⽂库在温度为 40℃,热盖温度为 57℃的PCR 仪中反应 10min。将反应混合液 14000 X g 离⼼ 10 min,然后将上清转移到新的 0.2 ml PCR 管中,分别进⾏亚硫酸盐处理。使⽤ TrueMethyl Seq 试剂盒进⾏亚硫酸盐转换处理。最终的 oxRRBS 和 RRBS ⽂库加⼊引物进⾏ PCR 扩增。
(2)文库质检:
⽂库构建完成后,先使⽤Qubit2.0 Fluorometer进⾏初步定量,稀释⽂库⾄1ng/ul,随后对⽂库的insert size进⾏检测,insert size符合预期后,qPCR对⽂库有效浓度进⾏准确定量(⽂库有效浓度⾼于2nM),以保证⽂库质量。
库检合格后,把不同⽂库按照有效浓度及⽬标下机数据量的需求pooling后进⾏Illumina测序。测序的基本原理是边合成边测序(Sequencing by Synthesis)。在测序的flow cell中加⼊四种荧光标记的dNTP、DNA聚合酶以及接头引物进⾏扩增,在每⼀个测序簇延伸互补链时,每加⼊⼀个被荧光标记的dNTP就能释放出相对应的荧光,测序仪通过捕获荧光信号,并通过计算机软件将光信号转化为测序峰,从⽽获得待测⽚段的序列信息。测序过程如下图所示。
将测序结果与参考基因组⽐对,⽐对上唯⼀位置的序列⽤于后续标准信息分析及个性化分析。信息分析流程如下:
测序⽚段被⾼通量测序仪测得的图像数据经CASAVA碱基识别转化为序列数据(reads),⽂件为fastq 格式,其中主要包含测序⽚段的序列信息以及其对应的测序质量信息。fastq格式⽂件中每个read由四⾏描述信息组成,如下所示:
图:FASTQ格式示例
上述⽂件中第⼀⾏以“@”开头,随后为Illumina测序标识符(Squence Identifiers)和描述⽂字;第⼆⾏是测序⽚段的碱基序列;第三⾏以“+”开头,随后为Illumina测序标识符(也可为空);第四⾏是测序⽚段每个碱基相对应的测序质量值,该⾏中每个字符对应的ASCII值减去33,即为该碱基的测序质量值。
测序过程本身存在发⽣机器错误的可能性,测序错误率分布检查可以反映测序数据的质量,序列信息中每个碱基的测序质量值保存在FASTQ⽂件中。如果测序错误率⽤e表示,Illumina的碱基质量值⽤Q 表示,则有:Q =-10log10(e)。Illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系⻅下表:
原始下机数据包含建库时引进的接头序列以及质量过低的碱基,这些因素会导致后续⽐对到基因组的reads较少,从⽽导致得到的信息较少,因此需要进⾏过滤。
经过原始数据过滤、测序错误率检查、GC含量分布检查。
经过质控的reads需要根据与参考基因组的序列相似度⽐对到参考基因组上。
相⽐于常规基因组及转录组测序,RRBS测序⽅法产⽣的数据的特点决定其在⽐对时存在三⼤困难:
(1)DNA⽚段正链和负链经过重亚硫酸盐转化后将不再反向互补,再经过PCR,便会产⽣四条不同的序列,这将⼤⼤增加⽐对时的计算量。
(2)经过重亚硫酸盐转化后,DNA序列⼤部分C碱基被转化成T碱基,因此序列含⼤量T⽽缺乏C;经过PCR后,产⽣的互补链则含有⼤量A⽽缺乏G。这样便导致序列的复杂度降低(即序列的组成特征更单⼀),从⽽增加⽐对的难度。
(3)C和T的⽐对是不对称的。经过重亚硫酸盐转化后,序列中⾮甲基化的C碱基(占⼤部分)被转化为T,这将导致测序序列与参考基因组不匹配,T既可能应该⽐对到T上,有可能应该⽐对到C上;⽽C则只能⽐对到C上。这也增加了⽐对的难度。
经过质控的reads根据与参考基因组的序列相似度⽐对到参考基因组上。⽐对到参考基因组上的reads数量越多,后续分析过程中可利⽤的信息就越多。
(1)甲基化⽔平计算
甲基化⽔平可根据未转化为 T 的 C 与转化为 T 的 C 的 reads 的⽐例计算得到,即:
Beta-value = C-reads / (C-reads + T-reads) * 100%
其中,Beta-value 即为该胞嘧啶的甲基化⽔平,C-reads 为覆盖该位点的⽀持甲基化的reads 数⽬(测得该位点为 C 的reads),T-reads 为覆盖该位点的不⽀持甲基化的 reads 数⽬(测得该位点为 T 的 reads)。 计算原理示意图如下:
(2)氧化转化效率评估
对于oxRRBS⽂库,在氧化完全的情况下,⽂库中hmC可以全部转化为甲酰基修饰(5fC),再经过重亚硫酸盐转化为T;对于RRBS⽂库,经过重亚硫酸盐的转化,⽂库中⾮甲基化的C可转化为T。
在建库时加⼊lambda序列及oxbs-spike-in序列可以对⽂库的转化效率和氧化效率进⾏评估。lambda序列是是⼀段完全没有甲基化的DNA序列,因此理论上经过重亚硫酸盐转化后,所有C位点都应转化为T,即转化效率应为100%。统计lambda序列的C转变成T的⽐率,即可得到⽂库的实际转化效率。
(3)覆盖率评估
将reads⽐对到基因组后,⽐对到不同位点的reads数(测序深度)不同,测序深度过低会导致计算的甲基化率不可信。因此需要统计所有C位点的测序深度。
鉴定每个样本基因组酶切富集⽚段区域(羟)甲基化⽔平,并从不同⽅⾯进⾏统计、展示,以从宏观⽔平了解每个样本的(羟)甲基化⽔平。
(1)样本基因组酶切富集⽚段区域(羟)甲基化图谱
(2)(羟)甲基化平均⽔平统计
分别统计有效测序深度下,三种类型胞嘧啶基因组酶切富集⽚段区域范围内(羟)甲基化的平均⽔平。该统计可以从宏观⽔平反应样本基因组酶切富集⽚段区域(羟)甲基化⽔平的⾼低。
(3)基因组酶切富集⽚段区域(羟)甲基化的分布
不同类型的胞嘧啶的(羟)甲基化⽔平在不同物种间,甚⾄同⼀物种不同细胞类型间都存在差异。因此,统计了每种类型C碱基(羟)甲基化⽔平的分布。
将CG、CHG、CHH类型的胞嘧啶,按照(羟)甲基化⽔平划分为10个档次(0-0.1, 0.1-0.2, 0.2-0.3等),分别统计每个档次包含的胞嘧啶的⽐例。
(4)各样本(羟)甲基化⽔平分布⽐较
展示各样本基因组酶切富集⽚段区域(羟)甲基化⽔平在不同区间的的分布密度,直观地⽐较样本间(羟)甲基化⽔平分布的特征。
(5)各基因元件的(羟)甲基化⽔平特征
不同基因元件的(羟)甲基化⽔平不同。将基因组序列按照不同的基因结构元件划分为启动⼦(promoter),基因本体(genebody),转录终⽌位点下游2000bp(down2k)并统计这些基因结构元件中,MergedCG位点的(羟)甲基化⽔平的分布。
(6)基于基因组酶切富集⽚段区域(羟)甲基化图谱的分层聚类
根据基因组酶切富集⽚段区域(羟)甲基化图谱图谱,对样本进⾏聚类,可从总体⽔平反应样本组内和组间差异。
(7)基于基因组酶切富集⽚段区域(羟)甲基化图谱的PCA分析
主成分分析(PCA)是⼀种常⽤的数据降维⽅法,其⽬标是寻找⼀组新的变量,使它们反映原始数据的主要特征。每个新变量是原有变量的线性组合,称为“主成分”。这组新变量中,只有少数⼏组变量能够反映原有变量的主要特征,通过这种⽅式,可以使原有数据的维度降低,更易于体现各样本的特征。
(1)差异(羟)甲基化位点(D(h)MC)的鉴定
(2)D(h)MC的注释
鉴定出的D(h)MC包含染⾊体、起始位置、终⽌位置等信息。根据D(h)MC的位置信息,结合基因组注释信息中所有基因的位置信息及各个基因元件(up2k,promoter, 5utr, cds, exon, intron, 3utr, genebody, down2k, intergenic, cgi, cgi_up4k, cgi_down4k)等位置信息,鉴定D(h)MC与哪些基因的哪些基因元件有重叠,以此来判断D(h)MC修饰哪些基因的哪些基因元件。
(3)D(h)MC修饰基因的统计
根据D(h)MC的注释⽂件,提取出D(h)MC修饰的基因及其的信息(D(h)MC位于基因的promoter或genebody区时,认为该D(h)MC修饰该基因),以更加⽅便地查看D(h)MC修饰的基因。
(4)D(h)MC在染⾊体上的分布
根据D(h)MC的位置信息,统计D(h)MC落在哪些染⾊体上,并⽤图形展示,以了解D(h)MC在染⾊体上的分布有偏好性。
(5)D(h)MC在基因元件上的分布
根据D(h)MC的位置信息,分别统计Hyper D(h)MC及Hypo D(h)MC 落在哪些基因元件上
(6)D(h)MC修饰基因的功能富集分析
基因本体( Gene Ontology, GO)是基因功能国际标准分类体系,提供了⼀套动态更新的标准词汇表来描述⽣物体中基因和基因产物的属性,可以挖掘出⼀些⽣物学相关的途径。 GO分为三个Ontology,分别是:分⼦功能(Molecular Function, MF)、细胞组分( Cellular Component, CC)和⽣物过程(Biological Process, BP)。
KEGG( Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)是基因组破译⽅⾯的数据库。在给出染⾊体中⼀套完整基因的情况下,它可以对蛋⽩质交互⽹络在各种细胞活动起的作⽤做出预测。KEGG Pathway显著性富集分析应⽤超⼏何检验,找出与整个基因组背景相⽐,在差异甲基化修饰的基因中显著富集的Pathway。
将鉴定出的D(h)MC所修饰的基因,利⽤GO和KEGG数据库进⾏功能富集分析。将D(h)MC修饰基因进⾏三种分类,并对每个分类做富集分析:
⾸先,对Hyper-D(h)MC、Hypo-D(h)MC修饰的基因(⽆论修饰位于genebody还是promoter)分别做功能富集分析。
⽬前⼤部分报道公认若(羟)甲基化修饰位于基因的promoter区,会抑制基因的表达;⽽(羟)甲基化修饰位于genebody区时,其对基因表达的影响则更加复杂,有报道称genebody区甲基化⽔平与表达呈正相关,但两者之间的关系实际上根据细胞的不同⽽不同;羟甲基化与基因表达之间的关系研究的更少。有报道认为,TSS附近的区域(TSS上游临近区域及第⼀个启动⼦)羟甲基化⽔平与表达呈负相关,genebody区羟甲基化⽔平则与表达呈正相关。因此,对位于promoter区及genebody区的Hyper-D(h)MC和Hypo-D(h)MC修饰的基因也分别进⾏富集分析。
综上所述,对D(h)MC来说,都对以下四类基因进⾏功能富集分析:
富集分析采⽤Fisher检验,结合BH矫正。富集分析结果包括表格和图⽚两部分,其中,表格为所有富集到的GO/KEGG条⽬,包括显著和不显著的。
(1)差异(羟)甲基化区域(D(h)MR)的鉴定
(2)D(h)MR的注释
鉴定出的D(h)MR包含染⾊体、起始位置、终⽌位置等信息。根据D(h)MR的位置信息,结合基因组注释信息中所有基因的位置信息及各个基因元件(up2k,promoter, 5utr, cds, exon, intron, 3utr, genebody, down2k, intergenic, cgi, cgi_up4k, cgi_down4k)等位置信息,鉴定D(h)MR与哪些基因的哪些基因元件有重叠,以此来判断D(h)MR修饰哪些基因的哪些基因元件。
(3)D(h)MR修饰基因的统计
根据D(h)MR的注释⽂件,提取出D(h)MR修饰的基因及其的信息(D(h)MR位于基因的promoter或genebody区时,认为该D(h)MR修饰该基因),以更加⽅便地查看D(h)MR修饰的基因。
(4)D(h)MR在染⾊体上的分布
根据D(h)MR的位置信息,统计D(h)MR落在哪些染⾊体上,并⽤图形展示,以了解D(h)MR在染⾊体上的分布有偏好性。
(5)D(h)MR在基因元件上的分布
根据D(h)MR的位置信息,分别统计Hyper D(h)MR及Hypo D(h)MR 落在哪些基因元件上。
(6)D(h)MR修饰基因的功能富集分析
同样地,对D(h)MR修饰的基因也分成四类做功能富集分析。
富集分析采⽤Fisher检验,结合BH矫正。富集分析结果包括表格和图⽚两部分,其中,表格为所有富集到的GO/KEGG条⽬,包括显著和不显著的。
关于易基因精准DNA甲基化和羟甲基化测序(oxBS-seq)
DNA羟甲基化是近年发现的一种新的DNA修饰并迅速成为研究热点。随着研究的深入,发现之前被认为是检测DNA甲基化“金标准”的重亚硫酸盐测序并不能区分DNA甲基化(5mC)和DNA羟甲基化(5hmC)。易基因联合剑桥大学建立了化学氧化法结合重亚硫酸盐转化的测序技术(oxidative bisulfite sequencing, oxBS-seq),该技术不仅可以精确检测DNA甲基化,排除DNA羟甲基化的影响,还可以双文库结合同时单碱基分辨率精确检测DNA羟甲基化。
传统BS转化无法区分5mC和5hmC
传统的Bisulfite测序中,5hmC经过Bisulfite处理后变为CMS,CMS在测序中仍然被读作C碱基,因此不能区分5mC和5hmC。
oxBS-Seq技术原理
oxBS-Seq将5hmC氧化5fC,后者可以被Bisulfite转为U,从而实现5mC的精准检测;同时,经过与常规Bisulfite结果比较可以实现对5hmC的准确检测。
技术优势
1、DNA甲基化检测全新的“标准”;
2、单碱基检测DNA羟甲基化修饰;
3、多重质控标准检测氧化效率和Bisulfite转换率;
4、实验偏好性低,重复性高(R2>0.98);
5、易基因自主研发的甲基化特异性多重PCR引物设计软件;
6、可满足多种测序应用需求:
技术路线:
技术指标:
RRBS+oxRRBS项目文章
oxRRBS+RRBS揭示了牦牛下丘脑在神经调节和髓鞘形成中的表观调控作用
Genome-Wide DNA Methylation and Hydroxymethylation Changes Revealed Epigenetic Regulation of Neuromodulation and Myelination in Yak Hypothalamus.
背 景:
5-甲基胞嘧啶 (5mC) 和 5-羟甲基胞嘧啶 (5hmC) 都是神经发育中重要的表观遗传修饰。然而很少有研究在自然高海拔条件下鉴定动物大脑区域的全基因组5mC和5hmC模式。
方 法:
利用RRBS+oxRRBS鉴定牦牛和牛的大脑、脑干、小脑、下丘脑的基因组5mC和5hmC位点,绘制基因组DNA甲基化和羟甲基化图谱,并进行DNA甲基化/羟甲基化差异化分析和对应转录组的关联分析。
结论:
本研究利用RRBS+oxRRBS技术发现牦牛和牛的下丘脑和其他大脑区域的5mC和5hmC存在显著差异,鉴定出差异甲基化区域(DMR)和差异羟甲基化区域(DhMR),其中大多数彼此重叠。最后,验证了DMRs和DhMRs调控的差异表达基因(DEG)可能在神经调节和髓鞘形成中发挥重要作用。总之结果表明, 5mC和5hmC介导的表观遗传调控可能广泛影响下丘脑的发育及其生物学功能,可能有助于提高高海拔条件的生理适应性。
图:利用RRBS+oxRRBS鉴定牦牛和牛下丘脑和其他大脑区域的DMR和DhMR
以上就是关于精准简化基因组甲基化测序(RRBS+oxRRBS)实验流程和分析思路的介绍,易基因科技提供全面的DNA甲基化研究整体解决方案,技术详情了解请致电易基因0755-28317900。
参考文献:
[1] Ashburner, M. and C. A. Ball, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 2000, 25 (1): 25-9.
[2] Dirk Schübeler. Function and information content of DNA methylation. Nature, 2015, 517: 321–326.
[3] Frank Jühling et al. metilene: Fast and sensitive calling of differentially methylated regions from bisulfite sequencing data. Genome Research, 2016, 26: 256-262.
[4] Kanehisa M, Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic acids research, 2000,28(1): 27-30.
[5] Tadafumi Kato Kazuya Iwamoto. Comprehensive DNA methylation and hydroxymethylation analysis in the human brain and its implication in mental disorders.
Neuropharmacology, 2014, 80: 133-139.
[6] Xiaojing Yang et al. Gene Body Methylation Can Alter Gene Expression and Is a Therapeutic Target in Cancer. Cancer Cell 26, 577–590.
[7] Yuanxin Xi et al. BSMAP: whole genome bisulfite sequence MAPping program. BMC Bioinformatics, 2009, 10:232.
[8] Chai Z, et al. Genome-Wide DNA Methylation and Hydroxymethylation Changes Revealed Epigenetic Regulation of Neuromodulation and Myelination in Yak Hypothalamus. Front Genet. 2021;12:592135.
相关阅读:
一文看懂|简化基因组DNA甲基化测序(RRBS)实验怎么做
深度综述:简化甲基化测序(RRBS)在植物生态表观基因组学中的机遇和局限
3文一览:简化甲基化测序(RRBS)技术优势及研究成果(医学+物种保护+农学)
表观技术|植物简化基因组甲基化--(Plant-RRBS)
http://www.egenetech.com