ATAC-seq 质控

1. 写在前面

  • 1 年前看技能树在的文字教程第一次跑 ATAC-seq 分析流程,当时还很懵懂,以为每一步只有一个工具,现在通过技能树刚发在 b 站的视频再次学习 ATAC-seq 分析流程,感觉眼界更开阔了,同时看视频总是能偷学到很多 Jimmy 老师的小技巧,简直血赚。
  • 视频链接:https://www.bilibili.com/video/BV1C7411C7ez
  • 总的一些标准在:https://www.encodeproject.org/atac-seq/
  • 涉及的名词解释:https://www.encodeproject.org/data-standards/terms/

2. replicates

  • 2 个及以上生物学重复
  • 对于无法做生物学重复的样本至少 2 技术重复

3. 总 reads 数

  • 单端 25 百万
  • 双端 50 百万
  • 去重、去线粒体

4. 比对率

  • > 95%,可以低至 80%

5. IDR 计算重复情况

  • 全称为 Irreproducible Discovery Rate
  • 标准:both rescue and self consistency ratios are less than 2
  • 目前没需求,先码一下教程:https://www.jianshu.com/p/d8a7056b4294

6. 文库复杂度

  • 两个指标
    • Non-Redundant Fraction (NRF) > 0.9
    • PCR Bottlenecking Coefficients 1 and 2, PBC1 > 0.9, PBC2 > 3
  • 保姆教程中有:https://doi.org/10.1186/s13072-020-00342-y

7. peak 数量

  • The number of peaks within a replicated peak file should be >150,000, though values >100,000 may be acceptable.
  • The number of peaks within an IDR peak file should be >70,000, though values >50,000 may be acceptable.

8. nucleosome free region (NFR)

  • 目前没有找到教程,待补充

9. 插入片段长度统计(单核小体峰)

  • 标准:在 147bp 以上,147*2bp 以下处有峰
  • 首先从 bam 文件中抓取插入片段长度信息
cd align/
samtools view WT.last.bam|cut -f9>wt_insert_length.txt
  • 然后读入 R 画 hist 图即可
a=read.table("wt_insert_length.txt")
hist(abs(a[,1])))
  • 数据质量不佳,200bp 的峰不够显著

10. 计算 FRiP 值

  • 全称 Fraction of reads in peaks,即位于 peak 坐标范围内的 reads 占总 reads 的比例
  • 标准:FRiP >0.3,可以低至 0.2
  • 通过 shell 脚本计算
cd callpeaks/
ls *narrowPeak|while read id;
do
echo $id
bed=../bed/$(basename $id "_peaks.narrowPeak").bed
ls -lh $bed
# a中哪些在b中
ReadsinPeaks=$(bedtools intersect -a $bed -b $id|wc -l|awk '{print $1}')
totalReads=$(wc -l $bed|awk '{print $1}')
echo $ReadsinPeaks $totalReads
echo 'FRiP:' $(bc <<< "scale=2;100*$ReadsinPeaks/$totalReads")'%'
done
  • 输出
    • 3391770 25099448 FRiP: 13.51%
    • 7779551 30565190 FRiP: 25.45%
  • 视频中 Jimmy 老师认为应该使用去重和去线粒体之前的 bam 转出来的 bed 来计算 FRiP,这个有待进一步考证

11. TSS 富集程度

  • 在衡量背景噪音水平上比 FRiP 更关键
  • 标准:
  • 教程待补充

友情宣传

  • 生信爆款入门-全球听(买一得五)(第5期)(可能是最后一期),你的生物信息学入门课
  • 数据挖掘第3期(两天变三周,实力加量),医学生/临床医师首选技能提高课
  • 生信技能树的2019年终总结,你的生物信息学成长宝藏
  • 2020学习主旋律,B站74小时免费教学视频为你领路

你可能感兴趣的:(ATAC-seq 质控)