circos 学习手册(五)

数据文件

circos 的输入文件是纯文本数据文件

像染色体定义、数据(),关系(),强调()都需要外部文件作为输入内容

根据展示数据信息的不同,不同格式的输入文件会有少许不同

1 文件格式

1.1 KARYOTYPE —— 生物学应用

karyotype 文件用于定义染色体,默认会绘制所有染色体

每条染色体都会有名字、标签、起始和终止位置以及颜色

例如,人类的 karyotype 文件,像这样

# 
chr - hs1 1 0 249250621 chr1
chr - hs2 2 0 243199373 chr2
chr - hs3 3 0 198022430 chr3
...

circos 在染色体名字前面使用特殊的前缀,而不是常用的 chr 前缀

而染色体颜色还是用 chr 作为前缀,为啥?因为颜色是不需要区分物种的

karyotype 文件可以选择性的为染色体定义染色体遗传条带

band hs1 p36.33 p36.33 0 2300000 gneg
band hs1 p36.32 p36.32 2300000 5400000 gpos25
band hs1 p36.31 p36.31 5400000 7200000 gneg
...

你可以在 data/karyotype 文件夹下找到常用的参考基因组的 karyotype 文件

(base) ➜ ls circos-0.69-9/data/karyotype
README                              karyotype.human.hg18.txt
assembly                            karyotype.human.hg19.txt
chromosome.band.hg19.txt            karyotype.human.hg38.txt
chromosome.band.hg38.txt            karyotype.human.txt
dm6.hires.txt                       karyotype.mouse.mm10.txt
dm6.lowres.txt                      karyotype.mouse.mm9.txt
karyotype.arabidopsis.tair10.txt    karyotype.mouse.txt
karyotype.arabidopsis.txt           karyotype.oryzasativa.txt
karyotype.chimp.pt4.txt             karyotype.rat.rn4.txt
karyotype.chimp.txt                 karyotype.rat.txt
karyotype.drosophila.dm6.hires.txt  karyotype.rm.3.txt
karyotype.drosophila.dm6.lowres.txt karyotype.rm.txt
karyotype.drosophila.hires.dm3.txt  karyotype.sorghum.txt
karyotype.drosophila.lowres.dm3.txt karyotype.yeast.txt
karyotype.drosophila.txt            karyotype.zeamays.txt
karyotype.human.hg16.txt            parse.karyotype
karyotype.human.hg17.txt

1.2 KARYOTYPE —— 一般应用

如果你的数据不是基于染色体的,可以在 karyotype 文件中定义你需要展示数据的任意轴线

例如,定义 3 个大小分别为 100020003000 的片段,并命名为 axis1axis2axis3

chr - axis1 1 0 1000 black
chr - axis2 1 0 1500 blue
chr - axis3 1 0 2000 green

1.3 线、散点图、直方图和热图

线、散点图、直方图和热图都是 2D 数据,都是与基因组位置相关的值

#chr start end value [options]
hs5 50 75 0.75

1.4 tile

tile 定义为同一染色体上的区间,用来显示覆盖率相关信息,如 readsclones 等信息

#chr start end [options]
hs5 50 75 

1.5 text

与基因组位置相关的文本信息,如文本标签

#chr start end label [options]
hs5 50 75 ABC

如果你要显示多个词,可以用 tab 作为分隔符

1.6 links

同一染色体或不同染色体不同区域之间的关系,可以绘制成线条或丝带的形状

# chr1 start1 end1 chr2 start2 end2 [options]
hs1 200 300 hs10 1100 1300
hs7 50 150 hs 5000 6000 color=blue

binlinks, bundlelinksfilterlinks 工具 可以用于操作和分析 link 文件.

2 options 选项

, ,或 块中定义的特定数据点的任何格式化选项,如形状、大小、颜色等,都通过输入文件来定义

在上面展示的例子中的 [options] 字符可以通过以逗号分隔的键值对的字符串来设置

chr start end var1=value1,var2=value2,...

而对于解析为列表值,如 RGB 值,需要用 ()[] 来分隔

chr start end color=(R,G,B)
有无数据值时的 options

输入文件中有与基因组位置相关的值时,options 域在第 5

chr start end value options

如果没有值,options 域在第 4

chr start end options

如果你试图在将有值的文件,作为期望无值的输入文件,将会抛出错误,无法解析 options

Error parsing data point options. Saw parameter assignment [0.75] but expected it to be in the format x=y.

3 文件分隔符

默认情况下是以空白符作为分隔符,想要更改分隔符

可以在配置文件中定义 file_delim 参数

最好是将参数放在 etc/housekeeping.conf 文件中

# etc/housekeeping.conf
file_delim = \t

如果想要设置多词文本标签,需要设置分隔符为 tab,将会应用于所有输入文件(数据文件和核型文件 karyotype

4 文件位置

如果指定特定文件的绝对路径,circos 将不会去其他地方寻找文件

file = /path/to/file.txt

如果文件 /path/to/file.txt 不存在,将会引发错误

如果使用相对路径

file = data/file.txt

circos 将会试图以下面的顺序在多个目录中查找

  • data_path 下的所有目录
  • CWD/
  • CWD/etc
  • CWD/data
  • CWD/../
  • CWD/../etc
  • CWD/../data
  • CWD/../..
  • CWD/../../etc
  • CWD/../../data

CWD 为当前目录,推荐使用相对路径的方式,这样的可移植性较好

建议你将数据文件放置一个单独的文件夹中 (e.g. data/),与配置文件区分开

你可能感兴趣的:(circos 学习手册(五))