RNA-seq实战分析流程

一、下载测序数据

①SRA数据库[存储二代测序的原始数据]
②在进行上游分析时,数据格式转换过程概述如下:
sra

FASTQ

bam

counts
③质控处理的相关软件:
• fastqc
• cutadapt
• Trim Galore

二、比对

①目的:
• 将打断测序的reads比回参考基因组
• samtools将比对结果排序后得到sort的bam,用于后续分析
②工具:
hisat2
bowtie2
•bwa

一步一步来,上半部分是辣个样子的。得到bam数据格式后,利用samtools

samtools

③参考基因组及注释文件
•基因组储存网站:ENSEMBL、UCSC、NCBI
•基因组注释文件:gencode数据库、ENSEMBL

④输出结果
bam[数据格式]

⑤输出水平:
•gene水平
•转录本水平
•snp

三、IGV可视化

将得到的结果经过xftp传输到本地,打开IGV软件进行可视化分析

四、对bam文件进行sort,最后建立索引

对bam文件进行排序,默认染色体位置

for ((i=2;i<=5;i++));do samtools sort SRR31621${i}.bam
-o SRR31621${i}_sorted.bam;done

建立索引

for ((i=2;i<=5;i++));do samtools index SRR31621${i}_sorted.bam;done
五、reads计数,合并矩阵并进行注释

bam文件按reads name排序

for ((i=2;i<=5;i++));do samtools sort -n SRR31621${i}.b
am -o SRR31621${i}_nsorted.bam;done

reads计数,得到表达矩阵htseq-count

cd ../data/matrix
gunzip /mnt/f/rna_seq/data/reference/annotation/hg19/gencode.v19.annotation.gt.gz && rm -rf gencode.v19.annotation.gtf.gz
for ((i=2;i<=5;i++));do htseq-count -r name -f bam /mnt/f/rna_seq/aligned/SRR31621${i}_nsorted.bam /mnt/f/rna_seq/data/reference/annotation/hg19/gencode.v19.an
notation.gtf > SRR31621${i}.count; done
ls -al *.count
-rwxrwxrwx 1 root root 1197426 Aug  7 16:25 SRR316212.count
-rwxrwxrwx 1 root root 1186189 Aug  7 17:16 SRR316213.count
-rwxrwxrwx 1 root root 1200305 Aug  7 22:51 SRR316214.count
-rwxrwxrwx 1 root root 1187596 Aug  7 23:32 SRR316215.count

上游分析的输出结果为表达矩阵

上游分析的流程到此结束


下游分析[R]

六、把fasta序列读入到R中

参考:https://www.jianshu.com/p/93e40b02d630 【来源于生信菜鸟团】

七、提取表达矩阵和临床信息
八、提取分组信息grouplist
九、 数据检查PCA|热图
十、差异分析、ID转换
十一、可视化:火山图和热图
十二、富集分析KEGG、GO

【下游分析在这里不过多赘述,之前有总结,查阅即可】

你可能感兴趣的:(RNA-seq实战分析流程)