关于NGS数据处理中的PCR Duplicate

最近在学ChIP-seq数据分析，遇到一个之前没遇到过的问题，关于PCR Duplicates的问题，记录一下自己搜索的答案和思考

在做转录组数据分析质控那一项的过程中，利用Fastqc质检得到的html结果文件中会出现一项指标——Sequence Duplication levels。具体可以参考fastQC对RNA-seq质控。这项指标统计了reads的重复水平。其中就谈到，如果折线图重复出现峰值，就可能是建库过程中PCR导致的duplication过多。PCR duplication也就是多个一模一样的reads(匹配到基因组的起始，终止位置相等，碱基序列相同，在同一条链上）是由于在建库过程中，由于本身提的RNA量比较少，需要PCR扩增才能进行后续的测序。因此，duplicates的出现是非常正常的。但是对于不同的技术，是否需要remove duplicates在网上讨论的非常多。下面是我的一点总结和思考：

1.实验方法的控制

在建库过程中，严格控制PCR的循环数，一般控制在6以内，在保证得到足够的测序所需的量的同时又保持文库足够的复杂性，将PCR duplicates rates 保持在低于4%的水平，所以获得足够多的DNA/RNA的量就能在很低的循环数下达到测序所需的量。本段内容参考lCureFFl.org

2.各种技术中对 remove duplicates的要求

2.1 RNA-seq

在biostars 和 seqanswer 都有讨论，总结如下：
在RNA-seq情况中，有重复片段，更有可能是一些基因有着很高的表达量。因此一般不处理，但是如果有证据证明确实是PCR duplicate而不是高表达的基因，那么就可以去除，能够去除重复的质控软件可以参考这篇hope。

2.2 ChIP-seq

ChIP-seq中出现的duplicates,两种情况

Bad kind of duplicates：PCR duplicates，或者是所谓的 blacklisted region(富含高度重复序列的区域，如着丝粒，端粒等）产生的；
good kind of duplicates：但测序深度加深后，Peaks 数量也会增加，如果去除，就会低估了Peaks signal。
综上所述：要根据你的富集效率和测序深度来具体分析，但是一般情况下由于我们无法区分上述两种情况，best practics is to remove duplicates prior to peak calling。因为前提假设是这样的：在破碎过程中，DNA片段是随机打碎的，因此同一个位置被同样的打碎的情况概率非常小，那么出现的一模一祥的reads一般认为就是PCR duplicates。

2.3.DNA-seq

全基因组重测序（WGS）中，如果要检测SNV（single nucleotide variant），如果PCR duplicates很多，就会影响检测的准确度。具体参考stackchange 和知乎中的回答。

网上还有其他人做的分析与总结，也是不错的，可以参考sam'note