R - 序列标识图(sequence logo)

在生物信息分析中,经常需要做序列标识图(sequence logo)。例如,突出序列比对中的保守位置,用于研究结构域序列相似性;临床上可视化DNA、RNA和蛋白质结合位点(激酶,SH2 / SH3域,转录因子(TFs),RNA结合蛋白,核酸酶,核糖核蛋白等)探索突变对重大疾病的影响。

ggseqlogo是一种非常理想的序列标识可视化软件,它不仅能够生成高质量的待发表的序列标识图,而且能够灵活地处理不同的输入格式。由于基于ggplot2包,因此具有高度可定制化性(允许使用定量和定性的配色方案,图例,不同的字体和视觉注释),并且允许与其他图形叠加。

数据类型

ggseqlogo能够接收和识别三种数据类型:

  1. 序列:Amino acids, DNA and RNA sequence types,一般ggseqlogo能猜测输入序列的类型,也可以用seq_type指定。自己制定的字母、数据、符号等。

  2. 矩阵:行是序列字母,列是序列位置的位置频率矩阵。

  3. 如果每个字母已经有了高度变量,只需创建一个矩阵,列名字序列字母,每个单元格都是高度变量,然后将方法设置为custom。(例:custom_mat = matrix( rnorm(20), nrow=4, dimnames=list(c('A', 'T', 'G', 'C'))) )

    R - 序列标识图(sequence logo)_第1张图片
    custome_matrix.png

例子

R - 序列标识图(sequence logo)_第2张图片
R - 序列标识图(sequence logo)_第3张图片
sequence logo.png

see the full tutorial here

你可能感兴趣的:(R - 序列标识图(sequence logo))