【RNA-seq自学08】数据分析之表达定量 featureCount 、表达矩阵

featuresCounts

软件用于定量,不仅可以支持gene的定量,也支持exon, gene bodies, genomic bins, chromsomal locations的定量。

featureCounts 需要两个输入文件:

1)reads的比对情况,这种信息通常都用BAM/ SAM文件来存储

2)区间注释文件,支持两种格式

安装

conda install subread

运行

featureCounts -p -a 00ref/Araport11_GFF3_genes_transposons.201606.gtf \ #注释文件

-o our_counts.txt \ #输出文件

-T 6 -t exon \

-g gene_id sample*_Aligned.sortedByCoord.out.bam #对这部分文件进行定量

运行结果:产生两个文件out counts . txt和out_ counts.txt.summary

featureCounts运行

查看out counts . txt文件,里面包含有geneid,染色体位置,基因起始结束的位置以及基因的count数

out counts . txt

表达定量结果转换为表达矩阵

#构建矩阵

rsem-generate-data-matrix *.genes.results > output. matrix

矩阵输出结果

#删除未检测到表达的基因(剔除表达量为0的基因)

awk 'BEGIN{printf"geneid\ta1\ta2\tb1\tb2\n"}{if($2+$3+$4+$5>0)print $0}'

out.matrix > deseq2_input.tx

结果:查看文件的行数,删除未检测到表达基因的行数

###查看文件的行数

wc -l output.matrix

wc -l deseq2_input.txt

你可能感兴趣的:(【RNA-seq自学08】数据分析之表达定量 featureCount 、表达矩阵)