ChIP-seq数据分析学习资源总结

首先这个名字要写对:ChIP-seq,有很多论文没注意大小写,其实没理解每个字母所代表的含义。
ChIP-seq大致原理看一看:

image.png

Figure 1: Workflow of a ChIP-seq analysis: Chromatin in the nucleus (1) is cross-linked and sheared (2), followed by
enrichment of complexes containing the target protein using immunoprecipitation (3). Short reads obtained from
massively parallel sequencing (4) are mapped to a reference genome (5) yielding in a distribution of tags on the
genome (adapted from http://en.wikipedia.org/wiki/File:Chip_sequencing2.png 2008 - 02-29)
一句话说完,其实就是探索你要研究的蛋白在全基因组范围内的结合位点。
先用甲醛把细胞内蛋白和DNA结合的生理状态固定,类似照相机拍摄画面。之后就是打断这些DNA,再用你研究的蛋白抗体富集你研究的蛋白和DNA结合的这些碎片。获得这些碎片后再把蛋白和DNA解开交联。之后就是测序建库测序。

要看的论文很多。看过的先记录一下:
1,Practical Guidelines for the Comprehensive Analysis of
ChIP-seq Data
文章从数据质控,比对,peak calling,peak注释,motif分析都给出了注意点,值得一读
论文从数据的质控到最后的peak注释都给了很多说明。

2,硕士论文
基于ChIP-seq全基因组识别毛竹笋尖与鞭笋尖组蛋白修饰位点
文章使用了组蛋白修饰做了chip-seq,从实验流程到数据分析,详细。值得一看。特别是MACS的使用方法

3,视频教程
B站的https://www.bilibili.com/video/BV1Yx411x7kE

4,网上别人的实践
拟南芥的数据,准备实践一下
https://www.jianshu.com/p/78571f87bef9

MACS2 callpeak原理
https://www.plob.org/article/7227.html
https://hbctraining.github.io/Intro-to-ChIPseq/lessons/05_peak_calling_macs.html

记录一下笔记:
富集倍数:
实验样本的富集倍数要比对照组要大于2倍到50倍之间,太大倍数会被认为是建库时的PCR重复


image.png

两个图的含义


image.png
image.png

下面这张图是形象化地解释了上面这个图。视频亮点之一,其他跑流程的教程没有把图说明白。

左边曲线图是在整个基因组范围内,求出每段区间覆盖的reads数目的平均值,然后以X轴为为基因区间,Y轴为覆盖在某个区段的reads数,连成曲线图绘制。

右边热图是把基因组所有基因,每个基因内的TSS上下游区间内的所有reads数目加和,然后按照大小排序,再把每个区间内的reads按照示意图的表示给画出来。

实际两张图表示的一个意思,都是在全基因组范围内查看TSS上下游区间内的reads分布,也就是这个蛋白的富集区间就是在大部分基因的TSS周围。

(下次再忘记可以翻翻视频,43:28处开始讲这两个图含义)

一般来说,基因结合基因TSS位置,可能是结合很多基因,也就是广谱调控。

接下来视频是讲实际操作:


image.png

1,下载数据
1)下载数据的脚本
最好把下载的数据链接写在一个脚本里面。然后记录好数据的各种信息,方便日后查看。
2)文件改名的脚本,也可以写在一起,放进一个脚本


image.png

命名的规范:
命名之前的文件名字是啥。重新命名后的文件名字是啥。

要在过段时间后,还能知道这个文件当初是用来干嘛的。
举例:


image.png

293是细胞系
chip-seq是数据类型
control是对照
rep1是重复1
R1是PE测序的read1文件
fasq是文件类型
gz是压缩文件

2,质控
fastqc
可以把建立文件夹,质控等步骤的命令写在一个bash文件内,一起执行

3,比对
重点学习这部分,批处理脚本


image.png

比对结果


image.png

for循环嵌套:

外层循环每做一次,内层便全部做一次。

ps grep cut xargs -i kill -9
组合使用杀掉多个进程
4,过滤掉map质量分数低的reads

比对完后做mapQ>20的过滤,sam转为bam
异步操作就可以

samtools view -q 20 -h -b -o sam_file &
-q 仅仅保存质量分数大于多少的reads
-h保留头文件
-b输出bam
-o输出文件
bam文件名字
-@ 核心数
sam文件名字

5,sort bam
6 peak calling
使用MACS2

90:50左右开始说MACS

完结-

视频有些是口误,自己鉴别。学到不少东西。下面自己要把循环脚本和代码规范练习一下。只记录了自己认为重要的东西。如果想学习,最好还是要看视频。

你可能感兴趣的:(ChIP-seq数据分析学习资源总结)