汇总 | 转录本表达矩阵 到 基因表达矩阵

写在前面

前天,我写了一个 TBtools 插件,意在让所有人都能自主分析转录组测序数据,进而获得 基因表达量矩阵(TPM) 和 基因读段计数矩阵(Count)。已经提过了,TPM 就直接可用,而 Count 矩阵本身可以在网络上找到各类差异表达基因分析平台,上传矩阵就可以做各种差异表达分析。
不过很多人可能还是没意识到,前述的 Kallisto 插件或者流程出来的结果,其实是 转录本水平的表达矩阵 而不是 基因表达矩阵。基于 Kallisto 的算法实现,我们不应该只分析基因的某个或者某几个代表转录本,因为这样可能会影响 Kmer Counts 的正确计算。
而事实上,不少人关注的还是基因水平,而不是转录本水平(取决于实验设计,精度,深度云云)。于是 ,我有写了一个小功能,可以用于汇总 转录本表达矩阵 为 基因表达矩阵 。

Trans Value Sum

想不到一个合适的名字,按照我的习惯,那么所以写一个。



从界面来看,输入文件有二:

  1. 转录本表达矩阵
  2. 转录本归属基因的信息表,格式为“转录本ID 基因ID”,注意,以制表符分隔。

输入输出均支持 文件 或 文本直接输入。为方便演示,下述直接使用文本输入输出模式。示例如下



可以看到,Tran1 和 Tran2 归属于 Gene1 ,于是值被加和,作为Gene1 的表达量。

一切看起来如此顺畅。那么问题可能就出现了。
转录本表达矩阵,我们当然可以轻松获得,但是转录本ID 和 基因ID 的对应关系,怎么搞?

GXF Position Extract

很久很久以前,我已经写过这个功能了。这里使用拟南芥的 GFF3 文件为示例。



只需要输入一个GFF3或者GTF文件,设置两个输出文件路径



点击 Start 可得

于是,在Excel里面或者使用 TBtools 表格工具就可以快速获得对应表格。

写在最后

轻轻松松,半小时写工具,半小时写推文...
今天也算周末,祝大伙科研顺利。
另,最近的推文阅读量似乎明显下载,一直保持在1000+。。。
我还是直白一点吧,该在看的就点再看,该转发的就转发。写着写着没多少人看了,我就不写了。

你可能感兴趣的:(汇总 | 转录本表达矩阵 到 基因表达矩阵)