ChIP实验操作以及Chip-seq数据分析

ChIP(Chromatin immunoprecitation)是研究体内DNA与蛋白质相互作用的重要工具。


在生物体内DNA与蛋白质形成复杂结合体

“染色质”就是由“组蛋白和DNA”组成的物质;“免疫”就是通过抗体和靶蛋白(抗原)特异性结合,这里指用商品化或自制抗体和染色质中组蛋白结合,形成复合物;“共沉淀”就是2-3种物质形成的复合物通过沉淀的方法来分离。所以ChIP技术就是“利用染色质中组蛋白和外源抗体的特异性结合,将染色质沉淀下来并进行分离“。

ChIP实验技术的应用范围已经从研究目的蛋白与已知靶序列间的相互作用, 发展到研究目的蛋白与整个基因组的未知序列的相互作用;从研究一个目的蛋白与DNA的相互作用, 发展到研究两个蛋白与DNA共同结合的相互作用;从研究启动子区域的组蛋白的修饰,发展到 研究结合在DNA序列上的蛋白复合物。ChIP技术的应用 ChIP技术近年来广泛应用于研究体内转录调控因子与特定 染色质序列的结合,并逐渐成为染色质水平基因表达调控 研究的重要方法。


ChIP实验流程

总体来说,一个完整的ChIP实验大体流程是:

样品甲醛固定->核提取->核破碎/染色质提取->片段化->加入抗体免疫共沉淀->样品解交联->DNA纯化

前置实验使用Merck-Millipore品牌的货号为16-663的磁珠(Magna ChIP™ Protein A+G Magnetic Beads)


磁珠与凝胶珠相比更加方便易用

使用转基因的带有HA标签的转录因子融合蛋白表达株系(拟南芥)以及CST的ChIP-grade的Anti-HA抗体。

其中样品甲醛固定+染色质提取+超声波片段化,参考了冷泉港实验室。
甲醛固定组织以及使用甘氨酸Glycine淬灭甲醛的过程中,使用真空泵制造真空环境以保证固定效果。

样品甲醛固定+染色质提取+超声波

核的提取使用了蔗糖梯度密度离心法(所需NEB1/2/3缓冲液参考冷泉港实验室在线Protocol),全程保持液体体系中存在蛋白酶抑制剂(很重要)。
超声波破碎使用手持超声波仪,超声三次后跑胶检测片段大小,如果片段大小没有达到计划大小,继续超声,直到片段大小分布至100-500bp(这一步很重要)。
示例胶图100-500bp

从使用磁珠开始ChIP实验,所用缓冲液参考plant method上发表的protocol(Plant Method文章)。
实验步骤参考磁珠说明书(说明书下载),这里感谢陶晓园老师的建议。

接下去的ChIP步骤

实验完成后,使用QIAGEN的MinElute PCR Purification Kit试剂盒回收ChIP产物。
完成试验后,使用Qubit Fluorometric Quantitation和Agilent Bioanalyzer 2100对样品进行质检。

这个给你们一个经验提示。
一般情况下,如果做一些常见看家基因的ChIP实验,比如组蛋白H3K9me3或者H3K9me27等。
只要样品量足够,其实很容易获得足够量的DNA产物(>5~10ng)。

但是现在大家做功能越来越细,开始做特定转录因子的功能。
那么就要注意,一般即使是强启动子驱动的过量表达,实际获得的活性蛋白产物也很难达到组蛋白的水平。
(可能低于正常得率一到两个数量级)
因此做这类ChIP实验获得的DNA产物远低于商业公司的建库要求水平其实是很正常的。

这个时候不要崩溃,首先多做几批ChIP,积攒一些样品。
然后通过qPCR对样品进行简单的检测,比如设定合理对照。
再送往公司采用微量建库的方法建库测序。


ChIP-seq测序数据分析

以下程序运行在ubuntu环境。
数据分析过程主要使用测序获得的fastq原始文件进行下一步分析。

下图表示的是通常情况下,一组高通量测序的数据流转流程。


通常的数据流转流程

第一步安装anaconda3

mkdir src        #新建SRC文件夹
cd src           #进入SRC文件夹
~/src$ wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.1-Linux-x86_64.sh   #下载anaconda3源代码
~/src$ bash Anaconda3-5.3.1-Linux-x86_64.sh  #运行anaconda3源代码进行安装

Welcome to Anaconda3 5.3.1

In order to continue the installation process, please review the license
agreement.
Please, press ENTER to continue
>>>
===================================
Anaconda End User License Agreement
===================================
Do you accept the license terms? [yes|no]
Please answer 'yes' or 'no'
===================================
>>> yes                  #确认同意协议
Anaconda3 will now be installed into this location:
/home/user/anaconda3

  - Press ENTER to confirm the location
  - Press CTRL-C to abort the installation
  - Or specify a different location below

[/home/uesr/anaconda3] >>>
PREFIX=/home/bohan/anaconda3
installing: python-3.7.0-hc3d631a_0 ...
Python 3.7.0
===================================

~/src$ source ~/anaconda3/bin/activate          #激活anaconda3环境
~/src$ conda search bwa                                #检测bwa管道是否加入
~/src$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/          #添加channel     
~/src$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/          #添加channel     
~/src$ conda config --set show_channel_urls yes                                                      #显示channel的url   
~/src$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/       #添加channel     
~/src$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/          #添加channel     
~/src$ vim ~/.condarc                                  #检查channel描述文件
~/src$ conda install bwa -y                            #安装bwa
~/src$ conda install fastqc trimmomatic                #安装fastqc和trimmomatic包

~$ cd chipdata
~/chipdata$ fastqc *.fastq                             #对获得的fastq原始数据进行qc并输出报告
Started analysis of chip.fastq
Approx 5% complete for chip.fastq
Approx 10% complete for chip.fastq
Approx 15% complete for chip.fastq
Approx 20% complete for chip.fastq
Approx 25% complete for chip.fastq
Approx 30% complete for chip.fastq
Approx 35% complete for chip.fastq
Approx 40% complete for chip.fastq
Approx 45% complete for chip.fastq
Approx 50% complete for chip.fastq
Approx 55% complete for chip.fastq
Approx 60% complete for chip.fastq
Approx 65% complete for chip.fastq
Approx 70% complete for chip.fastq
Approx 75% complete for chip.fastq
Approx 80% complete for chip.fastq
Approx 85% complete for chip.fastq
Approx 90% complete for chip.fastq
Approx 95% complete for chip.fastq
Analysis complete for chip.fastq

检查QC报告

以下是范例:

Basic Statistics

Measure Value
Filename chip.fastq
File type Conventional base calls
Encoding Sanger / Illumina 1.9
Total Sequences 13720520
Sequences flagged as poor quality 0
Sequence length 25-632
%GC 42

Per sequence quality scores

序列质量得分分布

Sequence Length Distribution

序列长度分布频率

Sequence Duplication Levels

序列重复频率

Produced by FastQC (version 0.11.8)

开始序列比对

~/chipdata$ conda install -y bowtie2                                   #安装bwa
~/chipdata$ conda install -y samtools                                  #安装smatools
~/chipdata$ bowtie2-build arabidopsisDNA.fa arabidopsisindex           #针对参考基因组建立index文件,并指定前缀名称为arabidopsisindex
bowtie2 -p 6 -3 5 --local -x /home/user/chipdata/arabidopsisindex -U chip.fastq | samtools sort -O bam -o /home/user/chipdata/aligned/gis.bam &          #比对chip数据至参考基因输出BAM文件到指定目录
bowtie2 -p 6 -3 5 --local -x /home/user/chipdata/arabidopsisindex -U IGG.fastq | samtools sort -O bam -o /home/user/chipdata/aligned/IGG.bam &          #比对对照试验数据至参考基因输出BAM文件到指定目录/home/user/chipdata/arabidopsisindex是index文件指示前缀,chip.fastq是测序数据,/home/user/chipdata/aligned/gis.bam是输出文件目录及名称
-------------------------------------
示例数据:
13720520 reads; of these:
  13720520 (100.00%) were unpaired; of these:
    5197184 (37.88%) aligned 0 times
    3396516 (24.76%) aligned exactly 1 time
    5126820 (37.37%) aligned >1 times
62.12% overall alignment rate
[bam_sort_core] merging from 7 files and 1 in-memory blocks...
--------------------------------------------------------------------------------------------
conda install macs2                                                                                 #安装macs2包
macs2 callpeak -c IGG.bam -t gis.bam -q 0.05 -f BAM -n gis &                                        #MACS2获取Chip-seq富集区

这一步完成会获得四个文件:
gis_model.r
gis_peaks.narrowPeak
gis_peaks.xls
gis_summits.bed
把这几个文件复制到个人电脑可以进行下一步作图分析



以下程序转到windows的anaconda3下Rstudio环境

使用ChIPseeker将数据可视化

R version 3.6.0 (2019-04-26) -- "Planting of a Tree"
Copyright (C) 2019 The R Foundation for Statistical Computing
Platform: x86_64-w64-mingw32/x64 (64-bit)

R is free software and comes with ABSOLUTELY NO WARRANTY.
You are welcome to redistribute it under certain conditions.
Type 'license()' or 'licence()' for distribution details.

R is a collaborative project with many contributors.
Type 'contributors()' for more information and
'citation()' on how to cite R or R packages in publications.

Type 'demo()' for some demos, 'help()' for on-line help, or
'help.start()' for an HTML browser interface to help.
Type 'q()' to quit R.

> BiocManager::install("ChIPseeker")       #安装ChIPseeker包
> BiocManager::install("org.At.tair.db")      #安装拟南芥参考基因组数据包
> BiocManager::install("TxDb.Athaliana.BioMart.plantsmart28")        #安装拟南芥参考基因组注释数据包
> BiocManager::install("clusterProfiler")      #安装clusterProfiler包
> library("ChIPseeker")          #加载ChIPseeker包
> library("org.At.tair.db")          #加载拟南芥参考基因组数据
> library("TxDb.Athaliana.BioMart.plantsmart28")        #加载拟南芥参考基因组注释数据包
> library("clusterProfiler")        #加载clusterProfiler包

> txdb <- TxDb.Athaliana.BioMart.plantsmart28

> setwd("D:/chipaligned")
> gis<-readPeakFile("gis_peaks.narrowPeak")
> covplot(gis,weightCol=5)
输出的是这样的图片,指示的是在每条染色体上的富集程度
> promoter <- getPromoters(TxDb=txdb, upstream=3000, downstream=3000)
> tagMatrix <- getTagMatrix(gis, windows=promoter)
> plotAvgProf(tagMatrix, xlim=c(-3000, 3000),
+             conf=0.95,resample = 1000,
+             xlab="Genomic Region (5'->3')", ylab = "Read Count Frequency")
转录因子(ChIP)结合偏好分布
> tagHeatmap(tagMatrix, xlim=c(-3000, 3000), color="red")
上图类似的分布图

针对比对出的ChIP数据peak,注释在peak附近的基因信息

> peakAnno <- annotatePeak(gis, tssRegion=c(-3000, 3000),TxDb=txdb, annoDb="org.At.tair.db",level="gene")         #针对比对出的ChIP数据peak,注释在peak附近的基因信息
注释结果示例

可以通过excel进行简单的数据筛选后,将基因进一步进行GO分类,进一步处理。



针对具体基因区段的可视化,后续使用了赵博推荐的IGV工具作图Integrative Genomic Viewer(IGV)官网

首先排序并索引BAM文件,导入IGV

~/chipdata/aligned$ samtools sort -o gis.sort.bam gis.bam
~/chipdata/aligned$ samtools index gis.sort.bam

可以很直接的显示在基因组上的富集程度

你可能感兴趣的:(ChIP实验操作以及Chip-seq数据分析)