EDGE-pro: Estimated Degree of Gene Expression in Prokaryotic Genomes

introduction

转录组定量工具已经有很多了,为什么要专门做一个针对原核生物的工具?真核生物与原核生物的基因组有很大差异,而现有的工具主要针对真核生物基因组,不宜直接应用在原核生物基因组上,具体原因有:

  • 专门处理可变剪接的功能在原核生物中用处不大。
  • 现有的软件没有很好地处理比对到基因重叠部分的reads的分配问题。一项研究表明,原核生物中29%的基因与其他基因相互重叠,重叠的部分从几个碱基到上百个碱基以上。
  • 存在大量的rRNA。

这里还提到,由于重叠的部分可能是在同一条链上,也可能是在反义链上,所以链特异性的数据可以较好的处理比对到重叠部分的reads,然而下文并没有就这一点对程序进行改善。

先前的方法没有很好地处理比对到多个位点的reads。主要有两种处理方法:直接丢弃多比对的reads;把多比对的reads以小数的形式分配给多个位点或者整条read随机分配到其中一个位点。
另外,现有的表现较好的流程操作比较复杂,往往需要连续地使用多个软件,而且这些软件的输出文件可能需要经过一定转化之后才能作为下个软件的输入文件。
因此,开发了EDGE-pro。

Methods

该软件主要包括以下四步:

  1. reads比对到参考基因组上。这一步用的是bowtie2的默认参数。

  2. 过滤多比对的reads。基于bowtie的比对分数来对reads进行过滤:假设S是这个read在不同位置的比对分数的最高分,那么,分数大于min(1.15S,S-3)的alignment就被认为是good alignment,其他的reads都被丢弃。通过把S-3作为一个threshold,允许了3个低质量碱基或者1个中等质量碱基的错配。加上1.15S,就允许了S的值比较低的时候可以open gap。

  3. 计算单碱基覆盖度。对于比对到n个地方的good reads, 有两种处理方法:

    • 给每个地方分配1/n个count。
    • 随机挑选一个地方分配1个count。

    这样计算每个碱基的覆盖度的好处是可以为处理比对到overlapping上的read的分配打下基础,以及便于后期更进一步的分析。

  4. 计算RPKM。有两种情况:

    1. 两个基因部分重叠。对于比对到overlapping上面的reads,最简单的方法就是按照两个基因的非重叠部分的coverage来按比例分配。但是,这在coverage分布不均匀的基因上面对导致偏差。overlapping附近的100bp的window的coverage似乎更能够预测该基因在重叠部分的coverage(如图 1)。由于UTR的影响,所以需要通过一个预设的UTR长度来避免window中存在UTR(如图 2)。得到overlapping两端的window之后,使用这两个window的覆盖度按比例分配重叠部分的覆盖度。如果互相重叠的两个基因中,其中一个特别长,那么可以直接用这个基因的覆盖度来预测重叠部分覆盖度。


      图 1

      图 2
    2. 对于一个基因完全包含另外一个基因的情况,overlapping部分的表达量如果高于nonoverlapping部分,那么,多出来的部分就算是gene2的,如果低于的话,那就算是gene2没有表达(如图 3)。

      图 3

由于rRNA的数量主要是由RNA消除这一步骤决定的,而不是rRNA本来的表达水平决定的,所以去除这些read有助于样品之间的比较。EDGE-pro没有鉴定差异表达基因的功能,使用者可以使用我们提供的脚本把输出结果转化为DESeq的输入文件。

Results

使用已经发表的数据来测试这个软件的结果。是学名为 Campylobacter jejuni 的病菌, 株系为 NCTC11168。这套数据包含野生型和 rpoN 基因突变体,各两个重复。
把EDGE-pro鉴定出20个下调的表达基因,比Chaudhuri et al. 鉴定的多了3个。其中有11个是鞭毛相关的基因。如果把筛选条件改成5倍的倍数变化,那么就能刚好得到与之前一致的17个。
EDGE-pro的输出结果和之前的研究相一致,但是没有很大的差别。

你可能感兴趣的:(EDGE-pro: Estimated Degree of Gene Expression in Prokaryotic Genomes)