chip-seq是用来分析蛋白和DNA互作的方法。chip-seq结合染色质免疫共沉淀和高通量测序技术来找到DNA和蛋白的结合位点。它可用于精确定位任何感兴趣的蛋白质在全基因组上的结合位点。
chip-seq主要是用来研究转录因子和别的一些染色质相关蛋白对表型影响的分子机制

chip-seq实验的前期准备

实验步骤

chip-seq中的一些名词

样本组，如果在pcr反应中条带亮度超过input，很可能在免疫沉淀中存在非特异性结果，带来假阳性结果；如果在pcr反应中条带亮度低于或与lgg相当，很可能带来假阴性结果；input作为阳性对照，如果在pcr反应中无条带或条带与lgg一样弱，很可能会导致假阴性结果产生；lgg作为阴性对照，如果在pcr反应中条带很明显，甚至与input或样本组无差别，很可能会带来假阳性结果；blank作为pcr反应的空白对照，如果出现条带，则说明存在假阳性结果，这个最容易分析，肯定是pcr反应条件或反应体系出现问题。

input 是指断裂后的基因组dna，它需要与沉淀后的样品dna一起经过逆转交联，dna纯化，以及最后的pcr或其他方法检测，但是不进行免疫沉淀。任何ha-tagged protein对染色质状态的影响都会在input中呈现出来。

如果是input chip-seq，结果中会不会有我们想要看到的真的位点呢？是有的，因为它就是整个基因组上被打断的未经特异性选择过的随机（理论上）片段。如果用pcr来做的话，也同样可能在我们想看的位置看到条带，因为它有基因组上的所有位置。但是，在chip-seq中，input阳性位点的相对表达量应该比我们的实验组中低得多得多，毕竟实验组的那些位点是我们特意富集出来的结果。通过input对照排除因本底表达水平高或一些非特异性结合所造成的假阳性peaks。而所谓的lgg mock 是说找非特异抗体作为阴性对照，其理论上不会chip下来任何dna片段。但是近来也有很多文章认为用它是有问题的，最好还是用input来作为对照。如果没有input对照怎么办呢？其实通过对大量的公用数据input组进行分析，我们可以发现在拟南芥中总有那么一百多个位点，不管是什么实验的input都会出现peaks，通常我们会把这些位置列为黑名单不予考虑。 (每个物种的peaks黑名单都是可以谷歌搜索到下载的)

参考
Question: chip-seq "mock" and "control"
Introduction to ChIP-Seq

数据分析

我会使用GoldCLIP: Gel-omitted Ligation-dependent CLIP这篇文章上的数据和方法进行练习学习，我会先将流程走一遍然后再去讨论中间的细节

image.png

下载测序数据

我是使用aspera来下载数据的，aspera的使用请看安装虚拟机遇到问题，下面是aspera.sh的脚本

#下载文件
for i in `seq 6 9`
do 
    ascp -T -l 200M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --host=ftp-private.ncbi.nlm.nih.gov --user=anonftp --mode=recv /sra/sra-instant/reads/ByRun/sra/SRR/SRR680/SRR680630$i/SRR680630$i.sra ./data/
    fastq-dump --split-3 ./data/SRR680630$i.sra -O ./data/
    rm ./data/SRR680630$i.sra
done

for i in `seq 10 13`
do 
    ascp -T -l 200M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --host=ftp-private.ncbi.nlm.nih.gov --user=anonftp --mode=recv /sra/sra-instant/reads/ByRun/sra/SRR/SRR680/SRR68063$i/SRR68063$i.sra ./data/
    fastq-dump --split-3 ./data/SRR68063$i.sra -O ./data/
    rm ./data/SRR68063$i.sra
done

数据的过滤

使用cutadapt进行过滤和去接头下面是cutadapt.sh的脚本

for i in `seq 6 9`
do
   cutadapt -a=AGATCGGAAGAGCGGTTCAG --error-rate=0.2 --quality-cutoff=20 --minimum-length=24 -o data/SRR680630"$i"_cutadapt.fastq data/SRR680630"$i".fastq
done

for i in `seq 10 13`
do
   cutadapt -a=AGATCGGAAGAGCGGTTCAG --error-rate=0.2 --quality-cutoff=20 --minimum-length=24 -o data/SRR68063"$i"_cutadapt.fastq data/SRR68063"$i".fastq
done

比对

安装macs2

因为macs2需要python2.7的版本，所以就用conda重新创建一个环境

conda create -n env_name python=2.7
# To activate this environment, use:
# > source activate env_name
#
# To deactivate an active environment, use:
# > source deactivate

然后激活python2.7环境并下载macs2

source activate env_name
conda install macs2

使用macs2进行peak calling

macs2 callpeak -t N_ChIP.fastq.sam.bam -c N_input.fastq.sam.bam -f BAM -B -g 3.5e6 -n xu_mut_rep1 --bw 200 --nomodel --shift 0

参考
ChIP-seq阴阳-正负对照
Hands-on introduction to ChIP-seq analysis - VIB Training

chip-seq实验方法及数据分析