基因家族鉴定---Blastp

数据:

研究物种的基因组文件:Protein.fasta

近源种的基因家族蛋白序列 :protein.fasta

建库:

makeblastdb -in input_file  -dbtype  molecule_type  -parse_seqids -out  database_name   -logfile  File_Name 

input_file替换为近源物种的目标基因家族的序列名

molecule_type为序列类型,更改为nucl为核酸或者prot为蛋白

-parse_seqids 推荐加上

database_name更改为数据库名(用于比对的库)

File_Name更改为日志文件名,如果没有默认输出到屏幕

比对:

blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5

seq.fasta: 输入文件路径及文件名

seq.blast:输出文件路径及文件名

dbname格式化了的数据库路径及数据库名(就是建库时候的数据库名)

-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应之前BLAST的m8格式,不写该参数的话,默认输出比对文件

-evalue:设置输出结果的e-value值

-num_alignments 显示比对数

Default = 250 -num_descriptions:单行描述的最大数目 *

default=50 -num_threads:线程

基因家族鉴定---Blastp_第1张图片
图片.png

blast输出格式有18种,常用的是 -outfat 6
基因家族鉴定---Blastp_第2张图片
图片.png

Query id:查询序列ID标识
Subject id:比对上的目标序列ID标识
% identity:序列比对的一致性百分比
alignment length:符合比对的比对区域的长度
mismatches:比对区域的错配数
gap openings:比对区域的gap数目
q. start:比对区域在查询序列(Query id)上的起始位点
q. end:比对区域在查询序列(Query id)上的终止位点
s. start:比对区域在目标序列(Subject id)上的起始位点
s. end:比对区域在目标序列(Subject id)上的终止位点
e-value:比对结果的期望值,将比对序列随机打乱重新组合,和数据库进行比对,如果功能越保守,则该值越低;该E值越高说明比对的高得分值是由GC区域,重复序列导致的。对于判断同源性是非常有意义的几个参数。
bit score:比对结果的bit score值

筛选blastp最优结果导出

sort -k1,1 -k12,12nr -k11,11n  blast.2.out | sort -u -k1,1 --merge >blast.2.o
基因家族鉴定---Blastp_第3张图片
blast结果

基因家族鉴定---Blastp_第4张图片
blast结果筛选后

得到候选集

筛选参考bitacora篇

https://www.jianshu.com/writer#/notebooks/47211707/notes/85546375

你可能感兴趣的:(基因家族鉴定---Blastp)