生物信息学之rnaseq转录组分析流程--转换文件中的ensemble id到gene名

生物信息学之rnaseq转录组分析--转换文件中的ensemble id到gene名

    • 如何解决转录组分析中count之后遇到ensemble id的问题
    • 一个将ensemble id转换成gene名的python 脚本

如何解决转录组分析中count之后遇到ensemble id的问题

亲亲们好,我们做生物信息转录组分析的时候,可以走如下流程鸭:

获取fastq或者fasta原始文件;将下载好的序列文件比对到参考基因组上;得到bam后就要开始统计每个基因实际测到了多少reads:这里推荐htseq-count软件。计数之后应该生成一个txt文件包含样本名和ensemble id的矩阵了,比如下面ENSG开头的东西:
生物信息学之rnaseq转录组分析流程--转换文件中的ensemble id到gene名_第1张图片
ensemble id这个东西是数据库记录方便使用的,但对于我们来说是非常不友好的,因为我们对基因名是直观的,所以我们就需要将ensemble id转换成gene名字。

一个将ensemble id转换成gene名的python 脚本

很遗憾,市面上没有写好的ensemble id转换软件,所以我们只能自己动手咯。

你可能感兴趣的:(生物信息,python,算法)