基因家族分析 | 同源基因家族聚类（orthofinder）

1.软件安装：

#利用miniconda安装
conda create -n orthofinder orthofinder=2.2.7

2.运行示例数据：

source /data1/spider/miniconda3/bin/activate
conda activate orthofinder
#用miniconda安装的orthofinder找不到示例文件，所以又下载二进制的orthofinder
cd  /data1/spider/liupiao/biosoft/OrthoFinder-master/orthofinder
#运行orthofinder
orthofinder -f ExampleDataset/ -S mmseqs

#参数：
-f  指定输入的文件夹
-S 指定序列搜索程序（可选择blast，mmseqs，blast_gz，diamond）
orthofinder默认用mafft进行多序列联配，用fasttree进行进化树推断。
-M msa  根据多序列联配（MSA）的结果按照ML法构建系统发育树
-t  指定序列搜索时的线程数
-a  指定序列搜索后分析的线程数

3.结果文件：

运行结束后会在ExampleDataset出现一个结果文件夹，打开可以看到如下输出结果：
Orthogroups.csv       用制表符分隔的文件，每一行是直系同源基因组对应的基因    
Orthogroups.txt       类似于Orthogroups.csv，只不过是OrhtoMCL的输出格式
Orthogroups_UnassignedGenes.csv    格式同Orthogroups.csv，只不过是物种特异性的基因
Orthogroups.GeneCount.csv          格式同Orthogroups.csv, 只不过不再是基因名信息，而是以基因数  

比较基因组学的相关结果文件，该文件夹下的结果有：Orthogroups_SpeciesOverlaps.csv： 不同物种间的同源基因的交集
SingleCopyOrthogroups.txt： 单基因拷贝组的编号
Statistics_Overall.csv：总体统计信息
Statistics_PerSpecies.csv：分物种统计信息

Orthologues_May05 是直系同源相关文件，分析每个直系同源基因组里的直系同源基因之间关系（May5是日期），该文件夹下的结果有：
* Gene_Trees         每个直系同源基因基因组里的基因树
* Recon_Gene_Trees   使用OrthoFinder duplication-loss coalescent 模型进行发育树推断
* Potential_Rooted_Species_Trees      可能的有根物种树
* SpeciesTree_rooted.txt              从所有包含STAG支持的直系同源组推断的STAG物种树
* SpeciesTree_rooted_node_labels.txt  同上，只不过多了一个标签信息，用于解释基因重复数据。

4.软件细节：

OrthoFinder提供了config.json可以调整不同软件的参数。
利用conda安装，config.json的位置在/data1/spider/miniconda3/envs/orthofinder/bin

5.一些重要概念：

* Species-specific orthogroup: 一个仅来源于一个物种的直系同源组。
* Single-copy orthogroup: 在直系同源组中，每个物种里面只有一个基因。我们会用单拷贝直系同源组里的基因推断物种树以及其他数据分析。
* Unassigned gene: 无法和其他基因进行聚类的基因。
* G50和O50，指的是当直系同源组按照基因数从大到小进行排列，然后累加，当加入某个组后，累计基因数大于50%的总基因数，那么所需要的直系同源组的数目就是O50，该组的基因树就是G50。

参考：

01 「基因组学」使用OrthoFinder进行直系同源基因分析
02 OrthoFinder2—同源蛋白家族聚类

基因家族分析 | 同源基因家族聚类（orthofinder）

你可能感兴趣的:(基因家族分析 | 同源基因家族聚类（orthofinder）)