ChIP-Seq数据挖掘系列-6: 怎么选择HOMMER结果中的motif

HOMER 是一套用于Motif查找和二代数据分析的工具。hommer结果中一般包含已知motif富集情况,并且也会对用户提供的序列进行重头预测motif。

很多同学在拿到这个结果后都是一脸懵,尽管Homer motif Results是有排序的,排名第一的可能并不是用户的期望,后面的结果也是可以选择的,但是如何评价及选择这些结果?

#先来看一个例子

motif results example
  • 预测的这个motif的显著性已经很高了。
  • 点击More Information可以查看序列与mitof的比对信息,
motif alignment

这段序列比对到了已知motif(YY1),但是我们可以发现比对上的位置并不是YY1 motif (CAAGATGGC)的中心区域。因此YY1 motif 并不是完整的motif在用户的数据中富集,因此这个结果是不太可信的。

注:记住, Hommer是一个重投预测motif 的工具,因此对于Hommer结果,用户需要查看所选择序列与motif的匹配情况,获得充足的证据来支持自己的选择,而不是盲目相信HOMER 的排序。

在许多情况下,HOMER 结果有很显著的p值,但是motifs 却不是好的。

因此,在选择motif的时候,用户需要注意以下的原则:

#低复杂度的Motifs

  • (Low Complexity Motifs)(less of a problem with the v3.0+)

低复杂度的motif序列的核苷酸倾向于都是同一种核苷酸,从而导致GC含量异常。

low complexity motif

当目标序列和背景库中序列之间存在系统性偏差时会导致这样的结果。通它们的GC含量非常高。在这种情况下,您可以在motif分析命令中添加参数“-gc”,从而使运算按总GC含量而不是CpG岛含量进行标准化。

其它情况,当分析多样的基因组序列时,这是很难在背景中控制的。例如,将一个启动子序列比对到某些物种随机基因组背景序列,结果会对嘌呤或嘧啶的偏好。HOMER非常敏感,所以如果序列的组成有偏差,HOMER 很可能会发现。新版本中的Autonormalization可以尽量减小这个问题的发生。

#简单重复序列

  • (Simple Repeat Motifs)(less of a problem with the v3.0+)

motifs 有时候会出现一些序列模式的重复

repeat motif

这种motifs 一般会有数个差不多序列的motifs。除非有充分的理由相信这些可能是真实的,否则背景序列可能有问题。如果你的目标序列在外显子和其他类型的序列上高度富集,就会出现这种情况;并且如果"-gc"参数也不能改善结果,用户就需要考虑自己正在分析序列的类型以及怎么去匹配他们。

#低质量和低重复的Motifs

  • (Small Quantity Motifs / Repeats)

这种发生在motif看起来很靠谱,但是在序列中出现的百分比缺失很低的。例如,寡核苷酸和重复序列在用户序列中出现从而导致极高的显著性。统计上使显著的,但是事实上却并不是。一些调节基因的启动子序列会发生这样的事情。原则上,motif 在不到5%的靶序列中存在的话,这个motif不太可信。

# 其它问题

  • (Leftover Junk)
    一些高质量的motifs 可能会出现在结果的后面。如果一个motif在序列中高度富集, HOMER 会发现他们,然后继续寻找新的motif。后续的motifs 可能会掩盖先前找的motif。

排名第一的motif:


top pu.1 motif

后续的motif:

PU.1 example 4

这种情况不一定是坏的,但是也需要考虑;常常发生于ChIP-Seq数据中,免疫沉淀的蛋白高表达以及与大量的结合位点紧密结合。这些motifs 可能结合PU.1,但是亲和性不高。处理这种情况的方法是重复motif 分析的过程,但是丢掉 the top motif(排名靠前的),添加参数-mask 就可以在motif分析过程中忽略这些top motif 。

#原文

How to Judge the Quality of the Motifs Found

ChIP-Seq 数据挖掘系列文章目录:
ChIP-Seq数据挖掘系列-1:Motif 分析(1)-HOMER 安装
ChIP-Seq数据挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步骤
ChIP-Seq数据挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq结果在基因组区域中寻找富集的Motifs
ChIP-Seq数据挖掘系列-4: liftOver - 基因组坐标在不同基因组注释版本间转换
ChIP-Seq数据挖掘系列-5.1: ngs.plot 可视化ChIP-Seq 数据
ChIP-Seq数据挖掘系列-5.2: ngs.plot 画图工具ngs.plot.r 和 replot.r 参数详解

你可能感兴趣的:(ChIP-Seq数据挖掘系列-6: 怎么选择HOMMER结果中的motif)