circos 学习手册(六)

ideogram(一)

介绍

在生物学应用背景下,circos 图通常对应于染色体,组装的 contigs 或者克隆 clones

我们默认将 ideogram 认为是染色体

染色体与 ideogram

理解染色体与 ideogram 之间的区别是很重要的

染色体是核型文件( karyotype 参数指定的文件)中定义的完整的序列结构

ideogram 是染色体或其上的区间在图形上的描述

一条染色体可能

  • 没有 ideogram:没有画出;
  • 有一个 ideogram:画出染色体全部或者部分;
  • 或者多个 ideogram:画出染色体上多个区域。

一条染色体可以切割成任意多的区域,每一个区域显示成一个 ideogram,可以以任意顺序排列

非生物学应用背景

通常情况下,轴可以是任意整数区间形式的变量

只要能够表示成区间形式就行,如 [0,1000]

数据点能够通过对应于相应的区间放置到轴上

圆形图形格式解析

circos 的图像是基于圆轴布局,数据绘制的轨迹分布在圆形布局的内、外部。

数据轨迹包括连接两个染色体位置的连接线,以及像散点图、直方图和热图等标准的数据展示形式

轴线定义、位置、大小和格式是构成 circos 图形的核心

circos 显示的每个数据点都与轴上的一个区间(如,chr5:1000-1500)相关

配置文件中( 块)的很大一部分都是用来确定如何控制 ideograms 的格式

你可以通过设置 show=no 来隐藏 ideograms、刻度以及对应的标签,但是数据还是会显示。


show = no
...

主要内容

1、核型(karyotype)定义

核型文件用于定义轴线,在生物学意义上,可以表示染色体、contig 序列和克隆。

每个轴线(如,染色体)都有一个唯一的标识符,标签(在图中显示的每个 ideogram 的文本),大小和颜色

1.1 circos 图形的设计

创建 circos 图像最难的部分在于确定要显示哪些数据

要将数据映射到 circos 图形上,需要确定在数据中哪些模式更重要,以及应该存在哪些模式

1.2 定义染色体

染色体定义的格式

chr - ID LABEL START END COLOR

前两个字段是固定的:

  • chr 代表这行定义了一条染色体,
  • - 定义父级结构,仅被用于条带定义

其他字段

  • ID 数据文件中使用的标识符,
  • LABEL 为将出现在 ideogram 图像旁边的文本

:如果想要绘制多物种,可以在染色体前面加上物种标识符前缀(如,hs=Homo sapiens, mm=Mus musculus),建议都加上前缀,这样做有助于创建更加透明的配置文件和数据文件

  • STARTEND 两个字段定义了染色体的大小

:在核型文件中应该存储整个染色体的大小,而不仅仅是你想要绘制的区间的大小,利用其它文件的配置参数来控制需要绘制的区域

  • COLOR 字段定义了染色体颜色

:默认使用 etc/color.conf 配置文件中定义的染色体配色方案,为每条人类染色体定义颜色并命名为类似于:chr1,chr2,...,chrx,chry,chrun
,且必须为小写

用如下命令在配置文件中指定核型文件

karyotype = data/karyotype/karyotype.human.txt

如人类核型 GRCh37(hg19)24 条染色体

chr - hs1 1 0 249250621 chr1
chr - hs2 2 0 243199373 chr2
chr - hs3 3 0 198022430 chr3
...
chr - hs22 22 0 51304566 chr22
chr - hsX x 0 155270560 chrx
chr - hsY y 0 59373566 chry

以及 862 个条带

band hs1 p36.33 p36.33 0 2300000 gneg
band hs1 p36.32 p36.32 2300000 5400000 gpos25
band hs1 p36.31 p36.31 5400000 7200000 gneg
...
band hsY q11.223 q11.223 22100000 26200000 gpos50
band hsY q11.23 q11.23 26200000 28800000 gneg
band hsY q12 q12 28800000 59373566 gvar
1.3 染色体条带

条带的定义方式与染色体相同,但是前两个字段是 band 和所在染色体的 ID

band hs1 p36.33 p36.33 0 2300000 gneg
band hs1 p36.32 p36.32 2300000 5300000 gpos25
band hs1 p36.31 p36.31 5300000 7100000 gneg
...
band hs2 p25.3 p25.3 0 4300000 gneg
band hs2 p25.2 p25.2 4300000 7000000 gpos50
band hs2 p25.1 p25.1 7000000 12800000 gneg
...

你可以从 UCSC Genome Viewer Table Browser 获取核型结构,但是,并不是所有基因组都有这些数据

例如,小鼠(mm9) 和大鼠 (rn4) 有条带信息,但是狗(canfam2) 或牛(bostau3)没有

1.3.1 条带透明度

染色体本身就有相应的颜色,当条带透明开启了,染色体的颜色就会显示出来


show_bands = yes
fill_bands = yes
band_transparency = 4
...

band_transparency 的值可以在 1..auto_alpha_stepsauto_alpha_steps 是每种颜色自动生成的透明度层级的数量(在etc/image.cong中定义了)

band_transparency=1 是最不透明,band_transparency=auto_alpha_steps 表示最透明。对于给定 band_transparency,不透明度为 band_transparency/(auto_alpha_steps+1)

1.3.2 何时使用条带

染色体条带具有两个特殊的属性:

  • 覆盖在整个染色体
  • 相互之间不重叠

如果想要使用条带的特征来显示其他染色体的注释,必须确保数据是细胞遗传学条带模式

# 获取 ideogram 图形的内外半径
r0 = dims(ideogram,radius_inner)
r1 = dims(ideogram,radius_outer)
1.4 定义多物种

如果你想要绘制多物种的 ideogram 图形,可以将它们的核型文件赋值给 karyotype 参数

karyotype = data/karyotype/karyotype.human.txt,data/karyotype/karyotype.rat.txt
# data/karyotype/karyotype.human.txt
chr - hs1 1 0 249250621 chr1
chr - hs2 2 0 243199373 chr2
chr - hs3 3 0 198022430 chr3
...

# data/karyotype/karyotype.rat.txt
chr - rn1 1 0 267910886 chr1
chr - rn2 2 0 258207540 chr2
chr - rn3 3 0 171063335 chr3
1.5 非基因组核型文件

circos 旨在绘制基因组数据,但并不局限于此。

如果你有任何可以转换为圆形组合的位置数据,则可以定义抽象的“染色体”作为数据域

chr - axis1 1 0 1000 green
chr - axis2 2 0 1000 red
band axis1 band1 band1 0 99 grey
band axis1 band2 band2 100 199 white
band axis1 band1 band1 200 299 grey
band axis1 band2 band2 300 399 white
...

(未完待续...)

你可能感兴趣的:(circos 学习手册(六))