宏病毒组分析之deepvirfinder结果的后续处理

      我们知道,在使用deepvirfinder之后会给到一个得分表,类似于这样:                 

deepvirfinder输出结果

      然后我们在使用Excel表格中的“筛选”功能,选取score>0.9和pvalue值<0.01的序列。然后呢,我们就得到了第一步预处理的表格。在linux里面使用命令行截取id里面的第一个空格之前的序列名称,这主要是为了和后面seqkit截取序列id匹配。

      这里使用命令: cat bingduzu_contig_6.fa_gt1000bp_dvfpred_0.9_0.01.txt  | awk -F" " ' {print $1}' > phage_deepvirfinder.id

      这样我们就得到我们想要的序列的ID了。然后使用命令行:

conda install seqkit,将seqkit安装上。

然后呢,打开我们的FA文件。使用命令行:seqkit grep --pattern-file phage_deepvirfinder.id 输入文件.fa -o 输出文件.fa

然后使用grep -c '^>' 输出文件.fa即可以查看你筛选的contigs是否正确了。还可以使用less -S  文件名查看文件内容是否正确。

你可能感兴趣的:(宏病毒组分析之deepvirfinder结果的后续处理)