Day4_2 RNA-seq实战

第一步:将下载的sra格式的数据转换成fastq格式的数据输出到./project

这一部免费的云服务器就已经扛不住了

fastq-dump --gzip --split-3 -O ./project ./SRR6168921.sra
##可以用循环语句
ls ./1.SRA/*sra | while read id; do (fastq-dump --gzip --split-3 -O ./project ./${id}); done

第二步:质控

##step1:
fastqc -t 2 -o ./ ./sample_1.fastq.gz ./sample_2.fastq.gz 
####双端测序sra数据转换成fastq文件的时候会生成两个文件:_1.fastq.gz  _2.fastq.gz
##step2:filter data # conda install trim-galore
trim_galore --phred33 \
-q 25 -e 0.1 \
--length 36 --stringency 3 \
--paired -o ./ \
./sample_1.fastq.gz \
./sample_2.fastq.gz

multiqc ./ # 整合结果,整合qc报告需要conda install multiqc

批量质控暂时还不会

第三步:比对

step1 创建hg38参考基因组索引(HISAT2的索引)
参考cui老师的,有各种软件创建索引的方法

 hisat2-build -p 4 ./hg38.fa hg38
###方法一:没有具体实践过
wget -c ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg38.tar.gz ####方法二:非常慢
构建参考基因组

step 2 RNA-seq选择HISAT2进行比对

hisat2 -p 10 -x
/public/reference/index/hisat/hg38/genome -1 \
./${id}_1_val_1.fq.gz -2 ./${id}_2_val_2.fq.gz | \
samtools sort -@ 5 -o ./${id}.sort.bam -
###10指的是10线程
###hisat2生成Sam文件,在用samtools 生bam文件
hg38参考基因组建立完索引后进行比对,箭头必须有genome,这个不是路径,而是建立索引完成后的文件分为genome1-8

第二个报错是samtools软件安装失败,需要下载官网的二进制版本安装。

第四步:差异分析featureCounts

featureCounts -T 5 -p -t exon -g gene_id \
-a /public/reference/gtf/gencode/gencode.v25.annotation.gtf.gz \
-o SRR1039$fn.counts.txt SRR1039$fn.hisat.sort.bam
###输出SRR1039$fn.counts.txt
###SRR1039$fn.hisat.sort.bam这个文件是hisat后的bam文件 
featureCounts结果解析

第一个报错:


fastq-dump 报错 图中~/tmp为输出文件,./SRR6168921.sra为输入文件

你可能感兴趣的:(Day4_2 RNA-seq实战)