Bulk RNAseq上游比对1:大致流程与conda环境

Bulk RNAseq上游比对1:大致流程与conda环境 - (jianshu.com)
Bulk RNAseq上游比对2:下载数据、质控 - (jianshu.com)
Bulk RNAseq上游比对3:比对mapping - (jianshu.com)

image.png

要点一、大致流程

如上流程图所示,一般包括三大步骤:下载数据--质控--比对

1、下载数据

主要包括两类数据:一是测序fastq.gz数据,二是参考基因组及相关数据集

1.1 fastq.gz

  • 这里主要是指挖掘公共数据库的fastq.gz数据集;
  • 按照下载速度,依次推荐ascp的aspera途径、wget ftp方式、prefetch下载.sra文件三种方法。

1.2 参考数据

  • 基因组fasta文件(optional)
  • 基因组gtf注释文件
  • 比对软件的索引文件。

虽然可以自己构建索引,这里推荐直接使用refgenie:参考基因组下载商店 - (jianshu.com)建立好的各个比对软件的索引文件。其实,gtf文件与fasta文件也是可以从refgenie下载。

2、质控

这一步主要使用trim-galore软件对fastq.gz的reads测序文件进行质控、过滤,主要包括以下三个过程:

  • (1)reads的低质量测序碱基;
  • (2)reads的接头序列;
  • (3)经过上述两个步骤后,再进一步过滤长度过短的reads
    具体可参考帮助文档:https://github.com/FelixKrueger/TrimGalore/blob/master/Docs/Trim_Galore_User_Guide.md

3、比对

虽然各个比对软件(hisat2, star, bowtie2, bwa)具体调用方式不同,但基本是如下三个过程

  • (1)fastq.gz比对至参考基因组,生成sam文件
  • (2)使用samtools,sam转为bam
  • (3)featurecount从bam文件提取样本的基因表达信息

值得注意的是salmon软件的比对方式是基于转录本信息,可使用tximport R包定量基因表达信息

要点二、conda环境

结合个人使用经验与习惯,建立的两个conda环境

1、环境1:download

conda activate download

#ascp的aspera高速下载
conda install -c hcc aspera-cli
#prefech下载sra文件
conda install -c bioconda sra-tools 

# 基因组下载商店
# conda install refgenie

# QC质控
conda install -c bioconda trim-galore
conda install -c bioconda multiqc

2、环境2:fq_map

conda activate fq_map

#不同类型的比对软件
conda install -c bioconda hisat2
conda install -c bioconda star=2.7.1a
conda install -c bioconda bwa
conda install -c bioconda bowtie2
conda install -c bioconda salmon=1.5.2

# 汇总比对结果
conda install -c bioconda multiqc

# 基因组下载商店
# conda install refgenie

# sam2bam转换
conda install -c bioconda samtools

# 基因表达定量
conda install -c bioconda subread

如上,默认下载软件的最新版本即可,但结合尝试、探索,star与salmon比对软件的版本信息必须与构建对应索引文件的软件版本一致(refgenie构建)。因此安装了上述指定的版本。

你可能感兴趣的:(Bulk RNAseq上游比对1:大致流程与conda环境)