定量与标准化

基因课FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
听张旭东老师的课

需要的R软件包

  • Rsubread
  • limma
  • edgeR

featureCounts

  • featureCounts只能算出counts, FPKM值或TPM值需要自己根据公式标准化算

张老师的R定量package

  • run-featurecounts.R


    run-featurecounts.R
  • R脚本解释器(第一行)最好写 #!/usr/bin/env Rscript —— 功能,自动识别环境中的解释器
  • argparser软件包实现对代码的封装,自动解析要输入的参数及参数传递,并生成-help 界面(python中也有)
  • 运行命令
    Rscript script/run-featurecounts.R -b xxx.bam -g xxx.gtf -o xxx # 给个名字就好,不需要后缀,会自己加后缀;
    输出一个.count文件和一个.log文件

合并表达量矩阵

  • 新建文件夹,名为3.merge_result, 内含合并脚本
  • 合并readsCount矩阵
    输出gene.counts.matrix
    要用于差异分析(一般差异分析软件内部会进行标准化过程)
    可能有小数
  • 合并标准化后的矩阵
    输出genes.TPM.matrix
  • TPM+TMM标准化矩阵
    输出genes.TMM.EXPR.matrix文件
    TPM为样本内标准化
    TMM为样本间标准化
    所以标准化流程为 readsCount → TPM标准化 → TPM+TMM标准化
    用于差异分析外的分析:共表达分析、PCA分析、画Heatmap
  • 用小程序搞定
    • perl脚本 abundance_estimates_to_matrix.pl
    • 用法:
      perl abundance_estimates_to_matrix.pl --est_method featureCounts xxx1.count xxx2.count ...... xxxn,count
      perl abundance_estimates_to_matrix.pl --est_method featureCounts *.count
      或 将要读取的文件路径放在同一文件genes.quant_files.txt文件下,perl abundance_estimates_to_matrix.pl --est_method featureCounts --quant_files genes.quant_files.txt --out_prefix genes

run_TMM_scale_matrix.pl

接下来

  • 达到表达矩阵之后首先做的不是差异分析,应该先做样本关系分析,如样本聚类分析、样本相关性分析、PCA分析

题外话

  • 基因组与比较基因组注释
    Braker
    Maker
    PASA
  • bash 换行 “\”后面不能有空格
  • RSEM软件功能类似于featureCounts,有参无参都能用,通常用在无参转录组

你可能感兴趣的:(定量与标准化)