一、多物种某基因家族的氨基酸序列fasta文件的准备（此例为yth基因家族）

1.已鉴定物种的某基因家族文件的获取

HMM文件准备

查找pfam号
如何查找基因家族pfam号：https://www.omicsclass.com/question/268
YTH家族pfam号：PF04146

image.png
利用pfam号下载某家族hmm文件
在pfam网站http://pfam.xfam.org/中输入得到的pfam号

image.png

image.png

未知某基因家族的物种的genome DNA和氨基酸序列下载（即基因家族分析物种）

NCBI
箭头分别选择Genome和输入物种的拉丁学名

image.png

按箭头下载文件（下载氨基酸序列就可以，protein）

image.png

2、利用Hummer和blast+找同源基因

Liunx系统下

hmmer

hmmer下载及安装

mkdir 5.biogenefamily
cd 5.biogenefamily/;ls
wget http://eddylab.org/software/hmmer/hmmer.tar.gz 
tar zxf hmmer.tar.gz 
ls
cd hmmer-3.3/;ls
./configure 
make
make check
ls
cd src/;ls
vim ~/.bashrc
source ~/.bashrc
hmmsearch -h

wget http://pfam.xfam.org/family/PF04146/hmm ##下载Hmm文件
mv hmm yth.hmm
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/635/GCF_000001635.26_GRCm38.p6/GCF_000001635.26_GRCm38.p6_protein.faa.gz 
#下载物种氨基酸序列文件

hmmsearch -o ./yth_simp_hmm.txt yth.hmm zea_simp.fasta
ls
cat zea_yth_hmm.txt 
moere zea_yth_hmm.txt 
more zea_yth_hmm.txt

Blast+

下载软件
网址：ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.2.30+-x64-linux.tar.gz
tar -zxvf ncbi-blast-2.2.30+-x64-linux.tar.gz

对于全基因组文件去冗余-用cdhit软件
是因为基因有多个剪切本，为了便于比对，我们通常选择最长的剪切本来找同源蛋白。
参考：教程 | 如何用cd-hit去除冗余序列？

wget https://github.com/weizhongli/cdhit/archive/V4.6.2.tar.gz
gunzip V4.6.2.tar.gz 
tar xvf V4.6.2.tar 
cd cdhit-4.6.2/;ls
make
#再给cdhit添加环境变量
cd-hit -i GCF_000001635.26_GRCm38.p6_protein.faa.gz  -o mouse_simp.fasta -c 0.9 
#去冗余剪切本，保留最长的剪切本

会得到两个文件（这里是玉米氨基酸文件得到的，用来举例）

image.png

makeblastdb -in zea_simp.fasta -dbtype prot -parse_seqids -out zea_simp1.protein.db
#得到构建的本地库
blastp -query ATYTH.fasta -db zea_simp1.protein.db -out yth_simp.blast -evalue 1e-10 -num_threads 4 -outfmt 6 -num_alignments 5
##比对
cat yth_simp.blast 
cat yth_simp.blast|awk '$3>=30 {print $0}' >>yth30.txt 
#取相似性大于30
cat yth30.txt #根据要求设置阈值

保存得到的ID

image.png

3.利用TBtools工具，用ID提取出氨基酸序列，导出为fasta格式文件

image.png

二、MEGA多序列比对

导入fasta文件
Edit--select all
Alignment-align by clustalW

image.png
Data- Export alignment- fasta format/mega format

三、Jalview美化多序列比对结果

四、进化树分析

五、进化树美化(只用EvolView就可以)

1.FigTree（最基础的工具，不推荐，美化程度较小）

http://tree.bio.ed.ac.uk/software/figtree/

image.png

2.EvolView（推荐程度五颗星）

EvolView : login https://www.evolgenius.info/evolview/#login

image.png

根据帮助文档构建一个数据集

image.png

image.png

帮助文档中的数据集例子

image.png
在EXCEL中构建

image.png

选择模式

image.png

系统进化树的构建

一、多物种某基因家族的氨基酸序列fasta文件的准备（此例为yth基因家族）

1.已鉴定物种的某基因家族文件的获取

2、利用Hummer和blast+找同源基因

hmmer

Blast+

3.利用TBtools工具，用ID提取出氨基酸序列，导出为fasta格式文件

二、MEGA多序列比对

三、Jalview美化多序列比对结果

四、进化树分析

五、进化树美化(只用EvolView就可以)

1.FigTree（最基础的工具，不推荐，美化程度较小）

2.EvolView（推荐程度五颗星）

你可能感兴趣的:(系统进化树的构建)