CPG岛

pG双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG保持或高于正常概率。CpG岛主要位于基因的启动子(promotor)和外显子区域,是富含CpG二核苷酸的一些区域,长度为300—3000bp。这里CpG是胞嘧啶(C)—磷酸(p)—鸟嘌呤(G)的缩写。在哺乳动物中CpG以两种形式存在:一种是分散于DNA序列中;另一种呈现高度聚集状态,人们称之为CpG岛(CpG island)。在正常组织里,70%~90%散在的CpG是被甲基修饰的,而与之相反,大小为100-1000bp左右且富含CpG二核苷酸的CpG岛,则往往非甲基化的。许多基因,尤其是管家基因的启动子区,其中通常存在一些富含双核苷酸“CG”的区域,称为“CpG岛”(CpG island)。研究碱基G和C在整个基因组内的含量和分布有十分重要的意义。例如在人类基因组内,GC的含量大约为40%;这些GC并不是平均分布在基因组内,在某些DNA片段上其含量可高达60%以上,而在另一些区域则只有33%左右。这种GC含量的差别,在基因表达的调控和基因突变上都可能扮演着重要的角色。CpG岛常位于基因转录调控区附近,与56%的人类基因组编码基因相关,因此基因转录区CpG岛的甲基化状态的研究就显得十分重要。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1Mb就有5-15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系。

第1步 - 输入序列

序列输入表格

可以将要分析的一个或多个序列直接输入到该表格中。序列可以是GCG,FASTA,EMBL,GenBank,PIR,NBRF或PHYLIP格式。不接受部分格式化的序列。 (参见示例输入格式)。

序列文件上传

可以上载包含任何DNA序列格式(GCG,FASTA,EMBL,GenBank,PIR,NBRF或PHYLIP)的有效序列的文件并将其用作输入。 (参见示例输入格式)。 字处理器文件可能会产生不可预测的结果,因为文件中可能存在隐藏/控制字符。最好使用Unix格式选项保存文件以避免隐藏的Windows字符。

第2步 - 设置参数

窗口大小

CG内容的百分比和CG的观察频率在窗口内计算,窗口的大小由该参数设置。窗口向下移动,并在窗口移动到的每个位置计算这些统计数据

默认值为:100

岛屿的最小长度

这设置了CpG岛在报告之前必须具有的最小长度。

默认值为:200

最低观察/预期

这将在报告CpG岛之前所需的一组10个窗口中设定观察到的最小平均值与C加G到CpG的预期比率。

默认值为:0.6

最低百分比

这将设置G加C的最小平均百分比,在报告CpG岛之前需要一组10个窗口。

默认值为:50。

CPGPLOT islands of unusual CG composition
     Observed/Expected ratio > 0.60
     Percent C + Percent G > 50.00
     Length > 200

你可能感兴趣的:(CPG岛)