一、摘要
实验旨在了解Chip-seq的基本原理。通过模仿文献《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,学会利用NCBI和EBI数据库下载数据,熟悉Linux下的基本操作,并使用R语言画图,用Python或者shell写脚本进行基本的数据处理,通过FastQC、Bowtie、Macs、samtools、ROSE等软件进行数据处理,并对预测结果进行分析讨论。
二、材料
处理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz 2.50GHz
安装内存(RAM):16.0GB
Windows 8.1,Ubuntu
① Aspera connect ② FastQC ③ Bowtie
④ Macs 1.4.2 ⑤ IGV ⑥ ROSE
NCBI数据库:https://www.ncbi.nlm.nih.gov/;
EBI数据库:http://www.ebi.ac.uk/;
加入H3K27Ac 抗体处理过的TE7细胞系测序数据和其空白对照组
加入H3K27Ac 抗体处理过的KYSE510细胞系和其空白对照组
背景简介:食管鳞状细胞癌(OSCC)是一种侵袭性的恶性肿瘤,本文章通过高通量小分子抑制剂进行筛选,发现了一个高度有效的抗癌物,特异性的CDK7抑制剂THZ1。RNA-Seq显示,低剂量THZ1会对一些致癌基因的产生选择性抑制作用,而且,对这些THZ1敏感的基因组功能的进一步表征表明他们经常与超级增强子结合(SE)。ChIP-seq解读在OSCC细胞中,CDK7的抑制作用的机制。
本文亮点:确定了在OSCC细胞中SE的位置,以及识别出许多SE有关的调节元件;并且发现小分子THZ1特异性抑制SE有关的转录,显示强大的抗癌性。
文章PMID: 27196599
三、方法
进入Aspera官网的Downloads界面,选中aspera connect server,点击Wwindows图标,选择v3.6.2版本,点击Download进行下载。
图表 1 aspera的下载
Linux下的安装配置参考博文:
http://blog.csdn.net/likelet/article/details/8226368
1)选择NCBI的GEO DataSets数据库,输入GSE76861,打开GSM2039110、GSM2039111、2039112、GSM2039113获取它们对应的SRX序列号。
图表 2 Chip-seq数据
图表 3 获取SRA编号
2)进入EBI,获取ascp下载地址
图表 4 ascp下载地址
3)使用aspera下载并解压
aspera下载命令及gunzip解压命令(nohup+命令+&可以后台运行)
Ubuntu软件包内自带Fastqc
故安装命令apt-get install fastqc
fastqc命令:
fastqc -o . -t 5 -f fastq SRR3101251.fastq &
-o . 将结果输出到当前目录
-t 5 表示开5个线程运行
-f fastq SRR3101251.fastq 表示输入的文件
(要分别对四个fastq文件执行四次)
Ubuntu软件包内自带bowtie
故安装命令apt-get install bowtie
文献说序列比对到了人类参考基因组GRCh37/hg19上
bowtie官网上面有人类参考基因组hg19已经建好索引的文件
图表 5 bowtie hg19建好的索引
再执行解压缩命令:unzip hg19.ebwt.zip
bowtie命令:
至刘小乐实验室网站下载http://liulab.dfci.harvard.edu/MACS/Download.html
解压后,切换到文件夹目录,执行
python setup.py install
MACS命令:
编写python程序对wig文件进行normalised
对TE7_H3K27Ac和KYSE510_H3K27Ac的wig文件(即MACS后生成的treat文件夹里的wig文件)计算RPM
RPM公式:(某位置的reads数目÷所有染色体上总reads数目)×1000000
从IGV官网下载windows版本http://software.broadinstitute.org/software/igv/download根据提示安装
直接点击打开igv.jar或者对bat文件以管理员身份运行
首先,载入hg19基因组;接着载入两个normalised后的bw文件即可
ROSE程序可以到http://younglab.wi.mit.edu/super_enhancer_code.html下载,并且有2.7G的示例数据
图表 6 TE7.r程序
图表 7 KYSE510.r程序
四、结果
Chip-Seq数据下载并解压结果
图表 8 Chip-Seq数据
数据质量检查
图表 9 质量检查文件
图表 10 质量检查结果
图表 11人类参考基因组HG19索引
图表 12 Mapping整体结果
图表 13 生成的sam文件
图表 14 TE7实验对照组结果
图表 15 KYSE510实验对照组结果
Peaks.xls从左至右依次是:峰所在的染色体名称,峰的起始位置,峰的结束为止,峰的长度,峰的高度,贴上的reads标签个数,pvalue(表示置信度),峰的富集程度,FDR假阳性率(越小则峰越好)
图表 16 Peaks.xls文件
negative_peaks.xls当有对照组实验存在时,MACS会进行两次peak calling。第一次以实验组(Treatment)为实验组,对照组为对照组,第二次颠倒,以实验组为对照组,对照组为实验组。这个相当于颠倒过后计算出来的文件
图表 17 negative_peaks.xls
Peaks.bed文件相当于Peaks.xls的简化版,从左至右依次是:峰所在的染色体名称,峰的起始位置,峰的结束为止,峰的MACS名称,pvalue(表示置信度)
图表 18 Peaks.bed文件
summits.bed是峰顶文件,从左至右依次是:峰所在的染色体名称,峰顶的位置,峰的MACS名称,峰的高度
图表 19 summits.bed文件
MACS_wiggle文件夹下面分为control文件夹和treat文件夹,里面分别存了control组和treat组每隔50bp,贴上的reads数目。第一列为染色体上的位置;第二列为从第一列对应的位置开始,延伸50bp,总共贴上的标签(reads)个数。
图表 20 wiggle文件夹下afterfiting_all.wig文件
model.r文件可以使用R运行,绘制双峰模型的图片PDF
图表 21 model.r文件
图表 22 TE7双峰模型 图表 23 KYSE510双峰模型
图表 24 peaks整体统计比较
图表 25 IGV可视化
Samtools将sam文件转化为bam文件,并且排序,再建立索引
图表 26 bam文件和bai索引
图表 27 TE7 Enhancer分类结果
图表 28 KYSE510 Enhancer分类结果
peaks_AllEnhancers.table.txt文件从左到右分别是,Enhancer区域名称ID,染色体位置,Enhancer起始位置,结束位置,由多少个Enhancer缝合连接而成,Enhancer大小,Treat组峰高度,Control组峰高度,Enhancer大小排名,是否为Super Enhancer
图表 29 peaks_AllEnhancers.table.txt文件
peaks_Plot_points.png图片,纵坐标为peaks_AllEnhancers.table.txt中G,H列相减结果,及减掉对照组峰后的高度,横坐标为全部Enhancer的排名,越可能是SuperEnhancer则越靠图的右边。
图表 30 TE7_peaks_Plot_points.png图表 31 KYSE510_peaks_Plot_points.png
AllEnhancers_ENHANCER_TO_GENE.txt第J列开始为离Enhancer最近的基因名称
AllEnhancers_GENE_TO_ENHANCER.txt第1列为基因名,后面为邻近峰的名称
图表 32 AllEnhancers_ENHANCER_TO_GENE.txt文件
图表 33 AllEnhancers_GENE_TO_ENHANCER.txt
五、讨论和结论
FastQC 版本和机房小型机不同,为v0.10.1,因此检测结果略有区别。图表 8 质量检查结果显示,测序质量挺好,Per base sequence content、Per sequence GC content、Kmer Content出现警告更可能是由于测序方法本身存在的固有误差。
由图表 10 Mapping整体结果可以看出,四个fastq文件Mapping整体覆盖率都在90%以上,从另一方面说明数据质量很好
由图表 29 TE7_peaks_Plot_points.png图表 28 KYSE510_peaks_Plot_points.png可以看出,在TE7细胞系中,找出了439个Super Enhancer,在KYSE510细胞系中,找出了823个Super Enhancer。
由IGV可视化图可以看出,峰的高度和位置基本和文献相同。
图表 34 IGV可视化图
再用R程序根据ROSE程序结果,绘制和文献相同的图片,与文献的图片进行比较,可以看出来,基因的分布是相似的,就是具体位置和文献不是很一样。
图表 35 本流程结果
图表 36 文献结果
在MACS结果中,有些很窄的峰高度明显比文献要低,这可能是因为bowtie时候,设置的参数使得多条reads比对上仅输出一次,使得峰高度减小。
在ROSE结果中,MIR205HG没有标注出来,而文献中有此基因,经过检查,在相似位置ROSE程序有找到MIR205基因,这可能是基因注释文件和文献不同导致的。
参考文献
[1] Targeting super-enhancer-associated oncogenes in oesophageal squamous cell carcinoma PMID: 27196599