motif到底是什么

https://mp.weixin.qq.com/s/bCkZ4L9IJTJTFUWKJMsuFw

来自联川生物

什么是motif?

有特征的短序列,一般认为它是拥有生物学功能保守序列

并不局限于基因组DNA序列还是RNA序列,甚至蛋白质序列也可以提取出相应的motif

当某一个大类的序列中,大量重复出现相同的序列结构的时候,就可能存在探索它意义的价值


可能包含特异性的结合位点,或者是涉及某一个特定生物学过程的有共性的序列区段。

比如蛋白质的序列特异性结合位点,如核酸酶转录因子转录因子的结合位点,其motif往往意味着某蛋白结构域DNA碱基序列的相互作用。

基于motif序列的提取,我们可以预测潜在的结合位点

什么是 domain?

Protein domain是一种结构实体,通常代表蛋白质结构中独立折叠和行使功能的一部分


motif的展示形式


a.logo展示图:这样的logo经常用于描述序列特征,如DNA中的蛋白质结合位点等。motif logo由每个位置的一堆字母组成。字母的相对大小表示它们在序列中的频率。每个字母的高度与该位置的相应碱基的出现频率成正比,常以bits为单位。每个位置的字母按照保守性从大到小排列,可以方便的从顶端的字母识别保守序列


b.一致性序列:用一段序列来描述所有序列的碱基组成,称之为一致性序列。当一个位置涉及到多个碱基出现的时候,这里就涉及到简并碱基的使用。


c.PFM矩阵:(position  frequency matrix),用于代表motif的碱基分布频数

和FASTA文件类似,有一个“>”开头的ID信息。下面的每一行分别代表4个碱基,每一列分别代表一个位置。矩阵信息的即表示A, C, G, T 4种碱基在每个位置的频数分布。

你可能感兴趣的:(motif到底是什么)