一、摘要
实验旨在了解RNA-seq的基本原理。通过模仿文献《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,学会利用NCBI和EBI数据库下载数据,熟悉Linux下的基本操作,并使用R语言画图,用Python或者shell写脚本进行基本的数据处理,使用FastQC等软件进行数据处理,学习Hisat2+StringTie+Ballgown的RNA-seq分析流程,并对结果进行分析讨论。
二、材料
处理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz
安装内存(RAM):16.0GB
Windows 8.1,Ubuntu
① Aspera connect ② FastQC ③ Hisat2
④ StringTie ⑤ Ballgown
NCBI数据库:https://www.ncbi.nlm.nih.gov/;
EBI数据库:http://www.ebi.ac.uk/;
加入H3K27Ac 抗体处理过的TE7细胞系测序数据和其空白对照组
加入H3K27Ac 抗体处理过的KYSE510细胞系和其空白对照组
背景简介:食管鳞状细胞癌(OSCC)是一种侵袭性的恶性肿瘤,本文章通过高通量小分子抑制剂进行筛选,发现了一个高度有效的抗癌物,特异性的CDK7抑制剂THZ1。RNA-Seq显示,低剂量THZ1会对一些致癌基因的产生选择性抑制作用,而且,对这些THZ1敏感的基因组功能的进一步表征表明他们经常与超级增强子结合(SE)。Chip-seq解读在OSCC细胞中,CDK7的抑制作用的机制。
本文亮点:确定了在OSCC细胞中SE的位置,以及识别出许多SE有关的调节元件;并且发现小分子THZ1特异性抑制SE有关的转录,显示强大的抗癌性。
文章PMID: 27196599
三、方法
进入Aspera官网的Downloads界面,选中aspera connect server,点击Wwindows图标,选择v3.6.2版本,点击Download进行下载。
图表 1 aspera的下载
Linux下的安装配置参考博文:
http://blog.csdn.net/likelet/article/details/8226368
1)选择NCBI的GEO DataSets数据库,输入GSE76861,打开GSM2039114、GSM2039119、GSM2039120、GSM2039125获取它们对应的SRX序列号。(此处仅仅做了KYSE510和TE7细胞系加入THZ1后0hr和12hr的RNA-seq数据)
图表 2 RNA-seq数据
图表 3 获取SRA编号
2)进入EBI,获取ascp下载地址
图表 4 ascp下载地址
3)使用aspera下载并解压
aspera下载命令及gunzip解压命令(nohup+命令+& 可以后台运行)
Ubuntu软件包内自带Fastqc
故安装命令apt-get install fastqc
fastqc命令:
fastqc -o . -t 5 SRR3101238_1.fastq.gz &
-o . 将结果输出到当前目录
-t 5 表示开5个线程运行
(要分别对八个fastq文件执行八次)
进入Hisat2官网http://ccb.jhu.edu/software/hisat2/index.shtml下载二进制程序,再配置环境变量即可。
图表 5 Hisat2下载与安装
人类参考基因组:Hisat2官网上有Ensemble GRCh38的基因组索引,可以直接下载使用
图表 6 Hisat2建立的GRCh38索引
注释文件:下载自ensemble数据库ftp://ftp.ensembl.org/pub/release-86/gtf/homo_sapiens
图表 7 Ensemble注释文件
PS:如果是想自己下载基因组,然后自己建立索引,需要使用Hisat2包里面的python脚本
extract_splice_sites.py和extract_exons.py,从注释文件里面抽取出剪切位点和外显子信息
First, using the python scripts included in the HISAT2 package, extract splice-site and exon information from the gene annotation file:
extract_splice_sites.py chrX_data/genes/chrX.gtf >chrX.ss
extract_exons.py chrX_data/genes/chrX.gtf >chrX.exon
Second, build a HISAT2 index:
hisat2-build --ss chrX.ss --exon chrX.exon chrX_data/genome/chrX.fa chrX_tran
The --ss and --exon options can be omitted in the command above if annotation is not available.
将RNA-seq的测序reads使用hisat2比对
samtools将sam文件转成bam,并且排序,为下游分析做准备
stringtie对每个样本进行转录本组装
stringtie 将所有样本的转录本进行合并
注意:此处的mergelist.txt是自己创建的,需要包含之前SRR3101238.gtf,SRR3101242.gtf,SRR3101244.gtf,SRR3101248.gtf的路径
stringtie --merge -p 4 -G Homo_sapiens.GRCh38.86.chr_patch_hapl_scaff.gtf -o stringtie_merged.gtf mergelist.txt;
计算表达量并且为Ballgown包提供输入文件
source("http://bioconductor.org/biocLite.R")
biocLite("ballgown")
将数据的分组信息写入一个csv文件,此处phenodata.csv文件
phenodata.csv文件内容
sampleid,celllines,time
SRR3101238,KYSE,0hr
SRR3101242,KYSE,12hr
SRR3101244,TE7,0hr
SRR3101248,TE7,12hr
接下来就可以用ballgown愉快地进行分析了。
此处只做了四个样本,然后在Ballgown包里用stattest是无法计算出P值的,样本稍微多一些才可以检验。
四、结果
RNA-Seq数据下载结果
图表 8 RNA-Seq数据
数据质量检查
图表 9 质量检查文件
图表 10 质量检查结果
图表 11人类参考基因组GRCh38索引
图表 12 Mapping整体结果
图表 13文件转化结果
图表 14 组装转录本
图表 15合并转录本
图表 16评估表达量
图表 17 某个基因的剪切方式
图表 18某个基因的剪切方式
五、分析与讨论
图表 10 质量检查结果显示,测序质量挺好,Per base sequence content、Sequence Duplication Levels、Kmer Content出现警告更可能是由于测序方法本身存在的固有误差。
由图表 12 Mapping整体结果可以看出,四个fastq文件Mapping整体覆盖率都在98%左右,从另一方面说明数据质量很好
初步绘制了几个基因的剪切方式图,发现在可变剪切中,确实会有某一种方式占据主导地位。
图表 19 KYSE510细胞系
图表 20 TE7细胞系
图表 19 KYSE510细胞系和图表 20 TE7细胞系的基因表达图的计算方式为:
加药12hr表达量÷0hr表达量,再取log2后的值;
由于表达量信号值小于1不显著,故筛去,仅留下信号值都大于1的基因。
从图中绿色较多,可以看出加入THZ1的12hr后,明显抑制了基因的表达。
图表 21 KYSE510结合分析
图表 22 TE7结合分析
图表 21 KYSE510结合分析显示,KYSE510细胞系差异表达基因中,有363个与Chip-seq分析流程中鉴定出的SuperEnhancer相重叠。
图表 22 TE7结合分析显示,TE7细胞系差异表达基因中,有165个与Chip-seq分析流程中鉴定出的SuperEnhancer相重叠。
图表 23 TE7结合分析基因注释
图表 24 KYSE510结合分析基因注释
对于Chip-seq中SuperEnhancer和RNA-seq差异表达基因overlap的部分,先用Ensemble数据库的Biomart,将GeneSymbol转成EnsembleID,再输入至Kobas注释,注释选用OMIM、KEGG DISEASE、NHGRI GWAS Catalog数据库,由图表 23 TE7结合分析基因注释和图表 24 KYSE510结合分析基因注释结果来看,与癌症相关。
参考文献
[1] Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma PMID: 27196599