五. 基因组共线性分析-基于MCscanX

一. 简介

MCScanX是由福建农林大学唐海宝老师参与开发的基因组共线性分析软件,发表至今引用数200以上,相关概念和算法参考文献如下:

  1. Tang H, Bowers J E, Wang X, et al. Synteny and Collinearity in Plant Genomes[J]. Science, 2008, 320(5875):486-488.
  2. Wang Y, Tang H, DeBarry JD, Tan X, Li J, Wang X, Lee TH, Jin H, Marler B, Guo H, Kissinger JC, Paterson AH. (2012) MCScanX: a toolkit for detection and evolutionary analysis of gene synteny and collinearity. Nucleic Acids Res, 40(7): e49.

二. 软件安装和序列比对

氨基酸多序列比对软件建议用diamond(速度极快):

(py27) [abc@Server MCscan]$ conda install -c bioconda diamond #conda 安装简单方便

以a, b和c三个基因组共线性分析为例:

(py27) [abc@Server MCscan]$ cat a.pep b.pep c.pep >abc.pep #合并三个基因组的蛋白序列文件
(py27) [abc@Server MCscan]$ diamond makedb --in abc.pep -d abc #建立索引文件
(py27) [abc@Server MCscan]$ diamond blastp -d abc -q abc.pep -o abc.blast -e 1e-5 -k 5 #abc.blast包括a,b,c相互比对,以及和自身的比对结果,即:ab,ba,bc, aa, bb...,比对取分数最高的5个结果

三. MCscanX分析

MCscanX分析,可以通过命令行完成,这里推荐一种较简单的方法,使用陈程杰老师开发的TBtools软件完成:

首先,利用File Merge For MCScanX将基因组a, b和c的gff3文件合并生成简化gff文件:

File Merge For MCScanX.png

输入:a.gff3, b.gff3, c.gff3; 输出:abc.gff; 合并方式:GtfGff2SimGxf。

MCscanX分析利用Quick Run MCSanX Wrapper,界面如下:

Quick Run MCSanX Wrapper.png

输入:abc.blast,abc.gff ;输出:abc.collinearity等;

四. 利用TBtools的Multiple Synteny Plot作图;

操作界面如下:


Multiple Synteny Plot.png

准备输入文件:

  1. abc.layout格式如下(可以根据需要灵活调整布局):

A:228,26,28:LG01 LG02 LG03 ...

B:255,217,47:Chromosome01 Chromosome02 Chromosome03 ...

C:56,108,176:Chr01 Chr02 Chr03 ...

  1. 前面生成的abc.gff文件;

  2. abc.link,利用File Merge For MCScanX生成:

输入:abc.collinearity; 输出:abc.link; 合并方式:Collinear;

  1. abc.highlight格式如:Gene\tRvalue,Gvalue,Bvalue(08G117800 55,126,184);

输出图片如下:


Multiple Synteny Plot.png

可以通过调整 abc.layout文件只显示部分染色体:


Multiple Synteny Plot.png

你可能感兴趣的:(五. 基因组共线性分析-基于MCscanX)