小王的RNA-seq傻瓜学习教程

1、NCBI-原始SRA数据的下载

只会下到电脑上通过WinSCPC传到服务器,其他方法还没试过!后续要学一下滴


原始数据下载GEO


其实提供了不同格式的数据呢

2、SRA数据转fastq格式

首先明确是单端测序还是双端测序!!

fastq-dump .sra文件


然后压缩一下(因为节省空间)

grip SRR.fastq

3、质控及去接头trim_galore

自动检测adapter的质控软件,具体参数

--length(设定reads长度的一半)---唉嗨?长度咋查查 

zcat SRR.fastq.gz |head -n 10



--quality 25

--phred33  :代表采用phred33编码系统,默认为phred64,具体使用哪个要看你测序的机器和测序方法

--stringency:设定可以忍受的前后adapter重叠的碱基数,默认为1(非常苛刻)。可以适度放宽,因为后一个adapter几乎不可能被测序仪读到。

--paired:对于双!端!测序结果,一对reads中,如果有一个被剔除那么另一个会被同样抛弃,而不管是否达到标准。

--gzip:清洗后的数据zip打包或者不打包

--fastqc:质控

--output_dir 结果输出到哪个文件夹输入目录。需要提前建立目录,否则运行会报错。 命名为啥


trim_glore

!!!!师兄说了,不要全在一个文件夹里弄,分步分文件夹,清楚的很。trim之后的文件是trimmed.fq.gz

4、hisat2比对mapping

需要index!index是依据genome来自己build构建的。师兄直接给我传好他做的了。

怎么构建index可以查百度

hisat2-build -p 4 genome.fa genome

#genome是基因组的名字 比如人类是hg19 那么示例代码就是:hisat2-build -p 4 hg19.fa hg19

有index就可以mapping了

hisat2 -p 40(线程,越大越快) -x #index -U trimmed.fq.gz -S mapping完后输出文件加/输出文件的名字

看一下mapping结果,师兄说一般60往上也能使,那必然是越高越好呀


hisat2

5、mapping文件排序sam转bam

需要用到samtools

samtools sort -O bam -@25 SRR.sam -o /hissat2_dir/SRR.sort.bam

-O 大写O是指定输出文件格式为bam 

-o 输出文件夹及名字

 -@ 25 线程

samtools sort

6、featureCounts算count

软件是subread


featureCounts -T 40   -g gene_id -a ~/注释文件.gtf -o ./输出文件夹/及名字count.txt /*bam(操作哪些bam文件,*bam是一起对所有的文件处理生成在一个txt里)

-a 输入GTF/GFF基因组注释文件(师兄传给我了)

ensmble里面下,选最短的那个


-p 这个参数是针对paired-end数据

-F 指定-a注释文件的格式,默认是GTF

-g 从注释文件中提取Meta-features信息用于read count,默认是gene_id

-t 跟-g一样的意思,其是默认将exon作为一个feature

-o 输出文件名称

-T 线程数目

撒花结束。count就拿到了!服务器上的操作就结束了

你可能感兴趣的:(小王的RNA-seq傻瓜学习教程)