基因家族分析五(基因家族在染色体上的位置图)

绘制基因家族咋染色体上的位置

一:准备文件

1.拟南芥NBS基因ID
2.拟南芥gff文件
3.拟南芥基因组长度
4.在线绘图工具:MapGene2Chrom web v2
(http://mg2c.iask.in/mg2c_v2.0/)

基因家族分析五(基因家族在染色体上的位置图)_第1张图片
MG2C

MG2C需要两个文件,其一是gene在染色体上的位置信息,其二是染色体的长度。准备这两个input则需要开头准备的3个文件。

二:准备文件

1.gene长度信息(你也可以在gff文件开头获得)

$samtools faidx Arabidopsis_thaliana.TAIR10.dna.toplevel.fa
$cut -f 1,2 ../Ensembl_TAIR/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.fai >chrom_length

2.拟南芥NBS基因ID

在https://www.jianshu.com/p/ca42eb108b98里面生成了final.NBS.list文件就是NBS的基因ID信息,但是要处理一下,去掉后面的可变剪切。

gene_id

基因家族分析五(基因家族在染色体上的位置图)_第2张图片
image.png

再通过gene_id到gff文件中提取gene位置信息(即第二列为gene匹配第9列gene_id,再打印位置信息个染色体信息)。

$awk '{if($3~/^gene$/)print}' Arabidopsis_thaliana.TAIR10.41.gff3 | grep -f nbs_gene.id| cut -f 1,4,5,9 |sed 's/;Name=.*//g' |sed 's/;biotype=.*//g'|sed 's/ID=//' |awk '{print $4,$2,$3,$1}' >gene_position
#匹配第3列为gene的行,再匹配gene_id文件中的行,最后打印1,4,5,9列的染色体位置及gene起始位置信息。然后删除gene_ID前后多余的东西,再将gene_id放到第1列,染色体放低4列。

完成文件准备:


基因家族分析五(基因家族在染色体上的位置图)_第3张图片
绘图文件

到Mg2c中绘图:


基因家族分析五(基因家族在染色体上的位置图)_第4张图片
结果

可以保存为svg格式,到AI中编辑美化。


基因家族分析五(基因家族在染色体上的位置图)_第5张图片
绘图结果

你可能感兴趣的:(基因家族分析五(基因家族在染色体上的位置图))