宏转录组组装软件rnaSPAdes输出文件解读

#rnaSPAdes作为宏转录组数据组装软件,数据结果表现优秀。mataSPAdes更适用于宏基因组组装,宏转录组组转推荐rnaSPAdes。以下对rnaSPAdes软件输出的结果进行解读,若有不准确之处敬请指正#

共输出5个文件夹及14个单独的文件,下面进行逐一解读:


5个文件夹:

  1. K49 和 K73:

    这些目录可能包含组装结果的子目录,分别使用不同的 k-mer 大小(例如,K49 和 K73)。这表明在组装过程中尝试了不同的 k-mer 大小,以找到最优的组装结果。
  2. misc:

    这个目录可能包含一些杂项文件,例如组装过程中生成的中间文件、统计信息或其他与组装相关的辅助文件。
  3. pipeline_state:

    该目录可能包含了组装过程的状态信息,记录了各个步骤的进行情况。这对于了解组装流程中是否发生了错误或者是否需要调整参数非常有用。
  4. tmp:

    临时目录通常包含在组装过程中产生的临时文件。这些文件在组装完成后可能会被删除,但它们对于了解组装的中间步骤和处理过程是有用的。

14个文件:

  1. assembly_graph.fastg:

    这个文件包含组装的de Bruijn图的信息,用于表示转录本的拼接关系。
  2. assembly_graph_after_simplification.gfa:

    这个文件可能是在组装过程中对de Bruijn图进行简化后的版本,以减少图的复杂性。
  3. assembly_graph_with_scaffolds.gfa:

    这个文件包含带有连接信息(scaffolds)的de Bruijn图,表示组装的更大结构。
  4. before_rr.fasta:

    这个文件可能包含在错误校正之前的转录本序列。
  5. dataset.info:

    这个文件可能包含与输入数据集相关的一些信息,例如样本来源、测序深度等。
  6. hard_filtered_transcripts.fasta:

    这个文件包含在某种过滤或过滤步骤中被认为是“硬过滤”的转录本。
  7. input_dataset.yaml:

    这个文件包含了有关输入数据集的配置信息,可能包括样本名称、测序文件路径等。
  8. params.txt:

    这个文件包含了组装过程中使用的参数设置,可能包括 k-mer 大小、内存限制等。
  9. run_spades.sh:

    这是一个脚本文件,用于运行rnaSPAdes的实际命令。
  10. run_spades.yaml:

    这个文件可能包含运行rnaSPAdes时使用的配置信息,类似于params.txt的作用。
  11. soft_filtered_transcripts.fasta:

    这个文件包含在某种过滤或过滤步骤中被认为是“软过滤”的转录本。
  12. spades.log:

    这是一个日志文件,记录了组装过程中的各种事件、进展和可能的问题。
  13. transcripts.fasta:

    这个文件包含组装后的转录本序列,是主要结果文件
  14. transcripts.paths:

    这个文件可能包含关于组装的路径信息,指示de Bruijn图中连接的路径,用于生成转录本。

## 扩展知识——de Bruijn图

de Bruijn图(De Bruijn graph)是一种用于表示序列数据的图形结构,特别适用于DNA序列的分析。它是由荷兰数学家尤恩·德布鲁因(Euler de Bruijn)首次引入的。在基因组学和生物信息学中,de Bruijn图被广泛用于DNA序列的拼装(assembly)和错误校正(error correction)。

de Bruijn图的构建基于k-mer,其中k是一个固定的整数,表示序列中的短片段长度。图中的节点代表所有可能的k-mer,而边则表示这些k-mer之间的相邻关系。每个节点的入度和出度都是k-1。

构建de Bruijn图的基本步骤如下:

  1. 将DNA序列分割成长度为k的不重叠的k-mer。
  2. 对每个k-mer,用它的前k-1个碱基作为一个节点,后k-1个碱基作为另一个节点,然后连接这两个节点的边上带有k-1个碱基。
  3. 如果两个k-mer有相邻的k-1个碱基,它们在de Bruijn图中就有一条边相连。

在组装过程中,de Bruijn图能够帮助将这些短序列片段重新组合成更长的序列,如基因组或转录本。通过遍历图的路径,可以获得组装后的序列信息。

de Bruijn图的应用不仅限于DNA序列的组装,它还在图形理论和计算生物学中有其他重要的应用,包括图形路径分析、错误校正、DNA测序和基因表达分析等。

在RNA转录组装中,de Bruijn图的构建与DNA转录组装的主要区别在于以下几点:

  1. 反义链: 在RNA中,一个基因通常会被转录成 mRNA,这个 mRNA 分子包含有反义链信息。在构建de Bruijn图时,需要考虑反义链,以便正确地捕获转录本的两个方向。

  2. 剪接事件: 由于RNA转录本可能包含剪接事件,因此de Bruijn图可能会包含多个路径,每个路径对应于一个不同的剪接变体。

  3. 表达水平: RNA转录组装通常还与基因表达水平相关,因此在处理 de Bruijn 图时可能需要考虑节点的表达量信息。

  4. 异构体: 由于RNA存在多种异构体,de Bruijn图可能会反映这种复杂性,特别是在处理不同剪接变体和外显子组合时。

在RNA转录组装软件(如SPAdes)中,这些差异通常会得到考虑,以便更好地处理RNA数据。结果文件中的转录本序列(如transcripts.fasta)可能包含了考虑了剪接变异的组装结果。

总体而言,de Bruijn图在RNA转录组装中仍然是一个有用的工具,它有助于将短序列片段重新组装成更长的RNA转录本,以便进一步的功能分析。


参考链接:宏基因组装软件mataSPAdes输出文件解读-CSDN博客

你可能感兴趣的:(Linux,生物信息学,组装,linux)