interpro 注释结果简单分析及可视化

Interpro数据库

Interpro是集成了蛋白质家族、结构域和功能位点的非冗余蛋白质特征序列数据库, Interpro数据库成员包括Coils 、Gene3D、Pfam、PRINTS、ProSitePatterns、 ProSiteProfiles、 SMART、 SUPERFAMILY、 TIGRFAM、 ProDom、 PIR 数据库。采用 interproscan 软件可以对新蛋白质序列通过序列比对或者 HMM 算法等搜索与 interpro 蛋白质特征序列匹配预测蛋白质各种结构功能域、信号肽、跨膜特征、蛋白质螺旋结构等,interproscan 结果文件见下图:


interpro 注释结果简单分析及可视化_第1张图片
Interproscan注释结果

interpro 结构功能域或者功能位点计数分析

将注释结果(文件链接http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.interpro)导入到R中进行结构功能域或者功能位点计数分析,代码如下

```

#导入R包

library(tidyverse)

library(ggpubr)

# 读取结果文件并去掉有缺失值的行

interpro <- read_tsv("all.interpro",na = "N/A") %>% na.omit()

# 统计蛋白质家族、结构域和功能位点的比例等

ipr <- interpro %>% select(model,ipr_acc,ipr_desc) %>% group_by(model, ipr_acc) %>%

  summarise(ipr_desc = ipr_desc[[1]]) %>% group_by(ipr_acc, ipr_desc) %>% summarise(Count=n())%>%

  arrange(desc(Count)) %>% ungroup() %>%mutate(Percent = Count/sum(Count))

# 绘制前20的结构功能域或者功能位点

p <- ggplot(ipr) +

  geom_bar(aes(x = ipr_desc, y = Percent, fill = ipr_desc), stat = "identity") +

  scale_y_continuous(labels = scales::percent, limits = c(0, 0.08),name = "Percent of Domain") +

  scale_x_discrete(limits = ipr$ipr_desc[1:20], name = NULL) + scale_fill_discrete(guide = FALSE)+

  theme_pubr() +

  theme(axis.text.x=element_text(angle=60,vjust=1, hjust=1))

#展示图片

p

#保存图片

ggsave("interpro.pdf", p, width = 16, height = 10)

ggsave("interpro.png", p, width = 16, height = 10)

```

ipr数据如下:


interpro 注释结果简单分析及可视化_第2张图片
结构功能域或者功能位点计数

可视化结果:


interpro 注释结果简单分析及可视化_第3张图片
interproscan 结构功能域或者功能位点(top20)计数柱状图

你可能感兴趣的:(interpro 注释结果简单分析及可视化)