bedgraph, wig, bigwig 学习之bedGraphToBigWig 报错(End coordinate......)

一:前言
最近师兄给我布置了一个小任务:把bedgraph文件转成bigwig形式,然后拖到IGV里去看看。
原因:由于bedgraph 的文件比较大,可以转成比较小的文件才方便进行操作。比如说bigwig.(小问题:为什么bigwig而不是wig捏?)
bedgraph, wig, bigwig的格式了解一下???

1:bedgraph 主要是来源于bed文件,包含了bed文件的信息.

UCSC bedgraph的 解释

重点: bedgraph文件里面得包含4种信息

举一个栗子。打开一个bedgraph的文件:能看到很多信息

bedgraph, wig, bigwig 学习之bedGraphToBigWig 报错(End coordinate......)_第1张图片
bedgraph示例

bedgarph文件记录的信息由以下几个部分组成:

chr    start  position    end position   value
染色体   起始位置       终止位置         值

bedgraph 文件包含了trak信息,以及value值(如果是负数的话可能是副链上的值的信息)

bedgraph, wig, bigwig 学习之bedGraphToBigWig 报错(End coordinate......)_第2张图片
UCSC bedgragh文件的例子

2:关于bed文件
BED文件 要求的最基本的是染色体信息,起始位置,终止位置。
如果要记录的更加详细的话可以有后面的选项
bedgraph, wig, bigwig 学习之bedGraphToBigWig 报错(End coordinate......)_第3张图片
bed文件的说明,来自emble

3:wig文件信息
包括了染色体的长度,步长是多少,span是多少。(有多少个一样的位点的value是多少个,方便压缩信息)
bedgraph, wig, bigwig 学习之bedGraphToBigWig 报错(End coordinate......)_第4张图片
wig的基本信息

4:bigwig
bigwig是wig文件的二进制形式,为了压缩文件大小的
但是为了建立这个二进制的形式,是必须要提供参考基因组大小的也就是chromsize的文件信息的

5:报错信息

报错信息

这个报错信息说,我的bedgraph的区域有超区的现象
代码看红框框里的:
代码信息

这里要求必须得有chromsize的文件信息!!!!
思考:我们可以根绝bedgraph信息直接算出来bigwig的信息,但是为什么要chromsize的文件呢?
感谢小伙伴的指点@ UnderStorm
, 在这个步骤中,它是先转成wig文件,再根据wig文件再转成bigwig文件进行压缩。
回到刚才的问题:
既然存在的超区的问题,我回去检查了一下bgh的文件信息,根据报错的那一栏,发现bedgraph那一行的信息不准确。

Reference:
UCSC的bedgraph说明文档 http://www.genome.ucsc.edu/goldenPath/help/bedgraph.html
ensembl 的说明文档 http://asia.ensembl.org/info/website/upload/bed.html
生信技能树wig、bigWig和bedgraph文件详解 http://www.bio-info-trainee.com/1815.html

你可能感兴趣的:(bedgraph, wig, bigwig 学习之bedGraphToBigWig 报错(End coordinate......))