WGDI安装和使用

安装 | 比较基因组系列之一 - WGDI 软件安装与配置

安装教程如上

数据预处理

数据的预处理是用时最长的步骤


原始输入文件要求

  • 基因组mRNA位置信息.gff。
  • 基因组序列信息文件fasta
  • 基因组蛋白序列信息文件fasta

wgdi需要三种信息,分别是BLAST, 基因的位置信息和染色体长度信息,要求格式如下

  • 1 gff wgdi自己定义的gff,注意提取最长。转录本基因的位置信息: 以tab分隔,分别为chr,id,start,end,strand,order,old_id。(并非真正意义上的GFF格式)
  • 2 lens (注意排序)
    • wgdi作者提供的脚本,可同时生成所需的非标gff和lens文件

      python 01.getgff.py NTX.protein.best.gff NTX.old.gff
      python 02.gff_lens.py  NTX.old.gff 替换词 NTX.gff NTX.lens
      ##使用中注意,生成的数据结果,前后列的格式对应于cds和prot
      ##或者使用deal.py (注意,gff文件需要使用geneious处理好的文件,不允许出现第九列无分号的情况)
      
  • 3 blast 结果outfmt 6
    • blast所需文件准备

      python 03.seq_newname.py 已经改名输出的gff文件 蛋白编码.fasta 按照gff改名的蛋白编码.fasta
      python 03.seq_newname.py 已经改名输出的gff文件 dna序列.fasta 按照gff改名的dna序列.fasta
      
    • blast输出文件

      
      makeblastdb -in 按照gff改名的蛋白编码.fasta -dbtype prot
      blastp -num_threads 6 -db 按照gff改名的蛋白编码.fasta -query 按照gff改名的dna序列.fasta -outfmt 6 -evalue 1e-5 -num_alignments 20 -out NTX.blastp.txt
      
  • 此gff文件中第二列应该与blastp产生文件的比对文件名相同,不然就会发生报错

Dotplot


wgdi -d \? > NTX.conf 
vim NTX.conf
[dotplot]
blast = blast file
gff1 =  gff1 file
gff2 =  gff2 file
lens1 = lens1 file
lens2 = lens2 file
genome1_name =  Genome1 name
genome2_name =  Genome2 name
multiple  = 1   # 最好的同源基因数, 用输出结果中会用红点表示
score = 100     # blast输出的score 过滤 
evalue = 1e-5   # blast输出的evalue 过滤 
repeat_number = 20  # genome2相对于genome1的最多同源基因数
position = order
blast_reverse = false
ancestor_left = none
ancestor_top = none
markersize = 0.5  # 点的大小
figsize = 10,10   # 图片大小
savefig = savefile(.png,.pdf)
##修改blastp文件输入和gff文件输入
wgdi -d NTX.conf

你可能感兴趣的:(WGDI安装和使用)