微生信喊你升级motifStack了

什么是motif?

在DNA或蛋白的同源序列中,不同位点的保守程度是不一样的,一般来说,对DNA或蛋白质功能和结构影响比较大的位点会比较保守,其它位点则不是很保守。这些保守的位点就称为“模体(motif)”

Motif展示

最简单的是使用consensus sequence表示,例如m6A的motif,RRACH

微生信喊你升级motifStack了_第1张图片

 position weight matrix(或者频数/率矩阵)来表示如下图所示

微生信喊你升级motifStack了_第2张图片

                                                                    图1. Pwm

其对应的motif图为:

微生信喊你升级motifStack了_第3张图片

                                                                      图2  Motif

Bit计算公式如下:

 使用R语言

library(entropy)

pos_bits = log2(4) - entropy(c(0, 0.5, 0, 0.5), unit="log2")     # 第一个位置,bits = 1

pos_bits = log2(4) - entropy(c(0, 0.75, 0, 0.25), unit="log2")   # 第二个位置,bits=1.1887

pos_bits = log2(4) - entropy(c(0, 0, 0, 1), unit="log2")        # 第二个位置,bits=2

注意:公式中前面的2是log2(4),因为有4种碱基。若是蛋白质则为log2(20)

深入的理论请搜索“信息熵

motifStack介绍

motifStack包旨在为图形化展示motif而设计,可以处理DNA、RNA序列motif和氨基酸motif。此外,它提供了颜色,字体等参数。非常方便使用。

motifStack 低版本小bug

微生信喊你升级motifStack了_第4张图片                                                                 图3 旧版图和新版图

 大家可以仔细看下除了颜色外,旧版和新版有什么不同之处。

细心的小伙伴可能已经发现,它们的Y坐标轴的刻度是不一样的,旧版0到0.5是6个刻度,而新版0到0.5是5个刻度。很显然,旧版的刻度有bug。

因此,我们给该包的作者反馈了这个bug,作者好像是中国人,我们直接给写的中文邮件,^_^),很快就收到了作者的回复。

微生信喊你升级motifStack了_第5张图片

                                                             图4  作者回复

 motifStack新版

很快motifStack就更新了,目前最新版本是1.38.0。微生信建议大家都更新到最新版(需要R4.1+版本哦),不更新的话,就自带bug,打开可以搜索下网上现有教程,全是bug版的!

微生信motifStack在线绘图实操

首先使用浏览器打开微生信在线motif绘图链接:微生信-在线motifStack绘制DNA,RNA,Protein motif logo

微生信喊你升级motifStack了_第6张图片

                                                    图5 微生信motif作图页面

2,准备输入数据

按照右侧示例准备数据,其中第一行是>name1表示名字(输入数据中必需有,后期不需要的话,可以编辑掉),第2-5行是4种DNA/RNA碱基每个位置对应的碱基频率(碱基顺序无所谓,但是必需是4种),这里有7个位置,因此画出来的图就有7列。

而每个位置的4种碱基频率之和就是1,即每一列竖着加起来正好等于1。

微生信喊你升级motifStack了_第7张图片

                                                           图6  Motif输入数据

3,选择参数

包括颜色,scale与否等

4,点击提交即可出图

微生信喊你升级motifStack了_第8张图片

 惊艳的motifStack可视化

最后,我们来欣赏下这个包出的惊艳图吧

微生信喊你升级motifStack了_第9张图片 微生信喊你升级motifStack了_第10张图片

 微生信喊你升级motifStack了_第11张图片

 微生信助力发文章,谷歌引用640+,知网引用480+

你可能感兴趣的:(r语言,开发语言,R语言,数据分析)