RNA-seq流程报告


一、摘要

实验旨在了解RNA-seq的基本原理。通过模仿文献《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,学会利用NCBI和EBI数据库下载数据,熟悉Linux下的基本操作,并使用R语言画图,用Python或者shell写脚本进行基本的数据处理,使用FastQC等软件进行数据处理,学习Hisat2+StringTie+Ballgown的RNA-seq分析流程,并对结果进行分析讨论。

二、材料

1、硬件平台

处理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz

安装内存(RAM):16.0GB

2、系统平台

Windows 8.1,Ubuntu 

3、软件平台

① Aspera connect ② FastQC ③ Hisat2

④ StringTie ⑤ Ballgown

4、数据库资源

NCBI数据库:https://www.ncbi.nlm.nih.gov/;

EBI数据库:http://www.ebi.ac.uk/;

5、研究对象

加入H3K27Ac 抗体处理过的TE7细胞系测序数据和其空白对照组

加入H3K27Ac 抗体处理过KYSE510细胞系和其空白对照组

背景简介:食管鳞状细胞癌(OSCC)是一种侵袭性的恶性肿瘤,本文章通过高通量小分子抑制剂进行筛选,发现了一个高度有效的抗癌物,特异性的CDK7抑制剂THZ1。RNA-Seq显示,低剂量THZ1会对一些致癌基因的产生选择性抑制作用,而且,对这些THZ1敏感的基因组功能的进一步表征表明他们经常与超级增强子结合(SE)。Chip-seq解读在OSCC细胞中,CDK7的抑制作用的机制。

本文亮点:确定了在OSCC细胞中SE的位置,以及识别出许多SE有关的调节元件;并且发现小分子THZ1特异性抑制SE有关的转录,显示强大的抗癌性。

文章PMID: 27196599

三、方法

1Aspera软件下载及安装

进入Aspera官网的Downloads界面,选中aspera connect server,点击Wwindows图标,选择v3.6.2版本,点击Download进行下载。

 RNA-seq流程报告_第1张图片

图表 1 aspera的下载

Linux下的安装配置参考博文:

http://blog.csdn.net/likelet/article/details/8226368

2RNA-Seq数据下载

1)选择NCBIGEO DataSets数据库,输入GSE76861,打开GSM2039114、GSM2039119GSM2039120GSM2039125获取它们对应的SRX序列号。(此处仅仅做了KYSE510TE7细胞系加入THZ10hr12hrRNA-seq数据)

 RNA-seq流程报告_第2张图片

图表 2 RNA-seq数据

 

图表 3 获取SRA编号

2)进入EBI,获取ascp下载地址

 

 

RNA-seq流程报告_第3张图片 

RNA-seq流程报告_第4张图片

RNA-seq流程报告_第5张图片

图表 4 ascp下载地址

3)使用aspera下载并解压

aspera下载命令及gunzip解压命令(nohup+命令+& 可以后台运行)

 RNA-seq流程报告_第6张图片

3FastQC质量检查

3.1 FastQC的安装

Ubuntu软件包内自带Fastqc

故安装命令apt-get install fastqc

3.2使用FastQC进行质量检查

fastqc命令:

fastqc -o . -t 5 SRR3101238_1.fastq.gz &

-o . 将结果输出到当前目录

-t 5 表示开5个线程运行

(要分别对fastq文件执行八次)

4、使用Hisat2Reads进行Mapping

4.1 Hisat2的安装

进入Hisat2官网http://ccb.jhu.edu/software/hisat2/index.shtml下载二进制程序,再配置环境变量即可

 RNA-seq流程报告_第7张图片

图表 5 Hisat2下载与安装

4.2下载人类参考基因组和注释文件

人类参考基因组:Hisat2官网上有Ensemble GRCh38的基因组索引,可以直接下载使用

RNA-seq流程报告_第8张图片 

图表 6 Hisat2建立的GRCh38索引

注释文件:下载自ensemble数据库ftp://ftp.ensembl.org/pub/release-86/gtf/homo_sapiens

 RNA-seq流程报告_第9张图片

图表 7 Ensemble注释文件

 

PS:如果是想自己下载基因组,然后自己建立索引,需要使用Hisat2包里面的python脚本

extract_splice_sites.pyextract_exons.py,从注释文件里面抽取出剪切位点和外显子信息

First, using the python scripts included in the HISAT2 package, extract splice-site and exon information from the gene annotation file:

 

extract_splice_sites.py chrX_data/genes/chrX.gtf >chrX.ss

extract_exons.py chrX_data/genes/chrX.gtf >chrX.exon

 

Second, build a HISAT2 index:

 

hisat2-build --ss chrX.ss --exon chrX.exon chrX_data/genome/chrX.fa chrX_tran

 

The --ss and --exon options can be omitted in the command above if annotation is not available.

 

4.3 Hisat2比对

RNA-seq的测序reads使用hisat2比对

 

5samtools文件格式转化

samtoolssam文件转成bam,并且排序,为下游分析做准备

 RNA-seq流程报告_第10张图片

6stringtie转录本处理

6.1stringtie组装转录本

stringtie对每个样本进行转录本组装

 

6.2stringtie合并转录本

stringtie 将所有样本的转录本进行合并

注意:此处的mergelist.txt是自己创建的,需要包含之前SRR3101238.gtfSRR3101242.gtfSRR3101244.gtfSRR3101248.gtf的路径

stringtie --merge -p 4 -G Homo_sapiens.GRCh38.86.chr_patch_hapl_scaff.gtf -o stringtie_merged.gtf mergelist.txt;

6.3 stringtie评估表达量

计算表达量并且为Ballgown包提供输入文件

 

7Ballgown表达量分析

7.1 Ballgown的安装

source("http://bioconductor.org/biocLite.R")

biocLite("ballgown")

 

7.2 文件准备与分析

将数据的分组信息写入一个csv文件,此处phenodata.csv文件

 

phenodata.csv文件内容

sampleid,celllines,time

SRR3101238,KYSE,0hr

SRR3101242,KYSE,12hr

SRR3101244,TE7,0hr

SRR3101248,TE7,12hr

接下来就可以用ballgown愉快地进行分析了。

此处只做了四个样本,然后在Ballgown包里用stattest是无法计算出P值的,样本稍微多一些才可以检验。

四、结果

1RNA-Seq数据下载

RNA-Seq数据下载结果

 RNA-seq流程报告_第11张图片

图表 8 RNA-Seq数据

 

2FastQC质量检查

数据质量检查

 RNA-seq流程报告_第12张图片

图表 9 质量检查文件

 RNA-seq流程报告_第13张图片RNA-seq流程报告_第14张图片

 

图表 10 质量检查结果

3、使用Hisat2对Reads进行Mapping

3.1基因组文件

 RNA-seq流程报告_第15张图片

图表 11人类参考基因组GRCh38索引

3.2 Mapping结果

 RNA-seq流程报告_第16张图片

图表 12 Mapping整体结果

4samtools结果

samtools结果文件

 RNA-seq流程报告_第17张图片

图表 13文件转化结果

 

5stringtie结果

5.1组装转录本

 

 RNA-seq流程报告_第18张图片

图表 14 组装转录本

5.2 合并转录本

 RNA-seq流程报告_第19张图片

图表 15合并转录本

5.3评估表达量

 RNA-seq流程报告_第20张图片

图表 16评估表达量

6Ballgown分析结果

剪切方式分析

 RNA-seq流程报告_第21张图片

图表 17 某个基因的剪切方式

 RNA-seq流程报告_第22张图片

图表 18某个基因的剪切方式

五、分析与讨论

FastQC质量检查

 RNA-seq流程报告_第23张图片RNA-seq流程报告_第24张图片

图表 10 质量检查结果显示,测序质量挺好,Per base sequence content、Sequence Duplication Levels、Kmer Content出现警告更可能是由于测序方法本身存在的固有误差

 Hisat2整体覆盖度

 RNA-seq流程报告_第25张图片

图表 12 Mapping整体结果可以看出四个fastq文件Mapping整体覆盖率都在98%左右,从另一方面说明数据质量很好

可变剪切方式分析

 RNA-seq流程报告_第26张图片

初步绘制了几个基因的剪切方式图,发现在可变剪切中,确实会有某一种方式占据主导地位。

表达量热力图

 RNA-seq流程报告_第27张图片

图表 19 KYSE510细胞系

 RNA-seq流程报告_第28张图片

图表 20 TE7细胞系

 

图表 19 KYSE510细胞系图表 20 TE7细胞系的基因表达图的计算方式为

加药12hr表达量÷0hr表达量,再取log2后的值;

由于表达量信号值小于1不显著,故筛去,仅留下信号值都大于1的基因。

从图中绿色较多,可以看出加入THZ112hr后,明显抑制了基因的表达。

RNA-SeqChip-Seq结合分析

 RNA-seq流程报告_第29张图片

图表 21 KYSE510结合分析

 RNA-seq流程报告_第30张图片

图表 22 TE7结合分析

图表 21 KYSE510结合分析显示,KYSE510细胞系差异表达基因中,有363个与Chip-seq分析流程中鉴定出的SuperEnhancer相重叠。

图表 22 TE7结合分析显示TE7细胞系差异表达基因中,有165个与Chip-seq分析流程中鉴定出的SuperEnhancer相重叠。

Kobas注释分析

 RNA-seq流程报告_第31张图片

图表 23 TE7结合分析基因注释

 RNA-seq流程报告_第32张图片

图表 24 KYSE510结合分析基因注释

对于Chip-seqSuperEnhancerRNA-seq差异表达基因overlap的部分,先用Ensemble数据库的Biomart,将GeneSymbol转成EnsembleID,再输入至Kobas注释注释选用OMIM、KEGG DISEASE、NHGRI GWAS Catalog数据库图表 23 TE7结合分析基因注释图表 24 KYSE510结合分析基因注释结果来看与癌症相关

参考文献

[1] Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma PMID: 27196599

 

 

你可能感兴趣的:(RNA-seq,Hisat2,stringtie,Ballgown,Kobas,分析流程)