RNA-seq上游流程

1.数据下载

在ncbi找到要下载的sra样本,点击Accession List下载所需要样本名,会生成SRR_Acc_List.txt的文件,将这个文件上传到linux端,再用prefetch下载

ncbi

prefetch

cat SRR_Acc_List.txt | while read id ; do prefetch $id ; done

fast-dump

下载完成的数据是已.sra结尾的,使用fast-dump转换为fastq格式的文件

cat SRR_Acc_List.txt | while read id ; do fastq-dump --split-3 --gzip $id.sra ;done 

运行完成之后的文件以fastq.gz结尾

2.数据质控和过滤

fastp

fastp可以一步实现数据质控与过滤,相比fastqc+trim的流程更为方便迅速。这里演示单端数据的处理方法

cat SRR_Acc_List.txt | while read id ; do fastp -i $id.fastq.gz -o $id.fq.gz ; done

处理完成后会生成.fq.gz结尾的文件和fastp.html fastp.json的报告文件

3.数据比对

hisat2

hisat2比对需要使用参考基因组做索引文件,以拟南芥为例展示下载参考基因组的方法
点击refseq
下载标记的两个文件

参考基因组

wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Arabidopsis_thaliana/latest_assembly_versions/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.fna.gz 

注释文件(后面步骤会用到)

wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Arabidopsis_thaliana/latest_assembly_versions/GCF_000001735.4_TAIR10.1/GCF_000001735.4_TAIR10.1_genomic.gtf.gz

建立参考基因组的索引文件

hisat2-build GCF_000001735.4_TAIR10.1_genomic.fna GCF_000001735.4_TAIR10.1_genomic

hisat2比对

hisat2比对后会生成比较大的sam文件,需要用samtools转换为比较小的bam文件(演示的单端数据,双端数据需要更改-U参数)。
cat SRR_Acc_List.txt | while read id ; do hisat2 -q -x GCF_000001735.4_TAIR10.1_genomic -U $id.fq.gz | samtools sort -o $id.bam ; done

执行后会得到bam文件

定量

featureCounts

featureCounts需要用到参考基因组的注释文件,和上一步得到的bam文件

featureCounts -T 10 -t exon -g gene_id -a GCF_000001735.4_TAIR10.1_genomic.gtf.gz -o all.id.txt *.bam

featureCounts会生成txt的文件,用这个文件就可以去做下游的分析啦!

你可能感兴趣的:(RNA-seq上游流程)