IGV自导入参考基因组


IGV里自带基因组信息,但这与我们分析数据的版本上不同。我用的都师兄给的ensmble_102版本的,所以IGV里可视化,导入相对应的基因组及注释才不会造成版本引起的误差 

  1、下载基因组和注释文件

首先去ensmble下载fa基因组和gtf注释

ensmble网站http://asia.ensembl.org/info/data/index.html

点FTP


FTP

进来会有current 和release不同版本,选择自己要的。我是release102


版本


fasta是基因组文件格式.fa

gtf是注释文件

点进去后找到物种是小鼠mus_musculus/

fasta----mus----dna----Mus_musculus.GRCm38.dna.primary_assembly.fa.gz

gtf-------mus----Mus_musculus.GRCm38.102.gtf.gz(这个最全)

2、导入预处理

先导入基因组建立index:

IGV 工具栏,tools-Run igvtools;选择index,导入fa的基因组,run之后,文件夹里会生成个fa.fai文件

对GTF进行sort:

IGV 工具栏,tools-Run igvtools;选择sort,导入gtf的注释文件,run,就会生成sorted.gtf(文件夹里瞧瞧也能看到)

sort

有了sorted.gtf之后

IGV 工具栏,tools-Run igvtools;选择index,输入sorted.gtf,run之后会生成一个sorted.gtf.idx文件。

预处理结束后,检查一下应该有以下所有文件


3、导入IGV

IGV工具栏Genomes → load genome from File--打开fa文件

好,白花花一片,上面有了染色体数目也没报错


IGV工具栏File → Load from File→找到softed.gtf


!!!!!!!!!!!我的不知道为啥这一步一直报错,所以我猜我的gtf有问题,我就找了其他处理办法。在服务器处理一下

root=gtf的文件夹

gtf=${root}/gencode.v39.primary_assembly.annotation.gtf.gz

(zgrep ^"#" $gtf; zgrep -v ^"#" $gtf | sort -k1,1 -k4,4n) | bgzip > ${root}/sorted.gtf.gz

tabix -p gff ${root}/sorted.gtf.gz

定义好文件名和路径后直接跑,会有两个文件生成,导入gtf的时候导入这个。gz就可以了

4、导入后的差异

使用IGV自带的可以直接查基因,导入的不得行,要自己搜索。



你可能感兴趣的:(IGV自导入参考基因组)