基因家族分析 | 同源基因家族聚类(orthofinder)

1.软件安装:

#利用miniconda安装
conda create -n orthofinder orthofinder=2.2.7

2.运行示例数据:

source /data1/spider/miniconda3/bin/activate
conda activate orthofinder
#用miniconda安装的orthofinder找不到示例文件,所以又下载二进制的orthofinder
cd  /data1/spider/liupiao/biosoft/OrthoFinder-master/orthofinder
#运行orthofinder
orthofinder -f ExampleDataset/ -S mmseqs

#参数:
-f  指定输入的文件夹
-S 指定序列搜索程序(可选择blast,mmseqs,blast_gz,diamond)
orthofinder默认用mafft进行多序列联配,用fasttree进行进化树推断。
-M msa  根据多序列联配(MSA)的结果按照ML法构建系统发育树
-t  指定序列搜索时的线程数
-a  指定序列搜索后分析的线程数

3.结果文件:

运行结束后会在ExampleDataset出现一个结果文件夹,打开可以看到如下输出结果:
Orthogroups.csv       用制表符分隔的文件,每一行是直系同源基因组对应的基因    
Orthogroups.txt       类似于Orthogroups.csv,只不过是OrhtoMCL的输出格式
Orthogroups_UnassignedGenes.csv    格式同Orthogroups.csv,只不过是物种特异性的基因
Orthogroups.GeneCount.csv          格式同Orthogroups.csv, 只不过不再是基因名信息,而是以基因数  

比较基因组学的相关结果文件,该文件夹下的结果有:Orthogroups_SpeciesOverlaps.csv: 不同物种间的同源基因的交集
SingleCopyOrthogroups.txt: 单基因拷贝组的编号
Statistics_Overall.csv:总体统计信息
Statistics_PerSpecies.csv:分物种统计信息

Orthologues_May05 是直系同源相关文件,分析每个直系同源基因组里的直系同源基因之间关系(May5是日期),该文件夹下的结果有:
* Gene_Trees         每个直系同源基因基因组里的基因树
* Recon_Gene_Trees   使用OrthoFinder duplication-loss coalescent 模型进行发育树推断
* Potential_Rooted_Species_Trees      可能的有根物种树
* SpeciesTree_rooted.txt              从所有包含STAG支持的直系同源组推断的STAG物种树
* SpeciesTree_rooted_node_labels.txt  同上,只不过多了一个标签信息,用于解释基因重复数据。

4.软件细节:

OrthoFinder提供了config.json可以调整不同软件的参数。
利用conda安装,config.json的位置在/data1/spider/miniconda3/envs/orthofinder/bin

5.一些重要概念:

* Species-specific orthogroup: 一个仅来源于一个物种的直系同源组。
* Single-copy orthogroup: 在直系同源组中,每个物种里面只有一个基因。我们会用单拷贝直系同源组里的基因推断物种树以及其他数据分析。
* Unassigned gene: 无法和其他基因进行聚类的基因。
* G50和O50,指的是当直系同源组按照基因数从大到小进行排列,然后累加,当加入某个组后,累计基因数大于50%的总基因数,那么所需要的直系同源组的数目就是O50,该组的基因树就是G50。

参考:

01 「基因组学」使用OrthoFinder进行直系同源基因分析
02 OrthoFinder2—同源蛋白家族聚类

你可能感兴趣的:(基因家族分析 | 同源基因家族聚类(orthofinder))