KEGG信号通路富集分析

KEGG信号通路富集分析

当我们手头有转录组测序后的差异分析数据后,想更进一步的去分析这些差异基因在信号通路富集情况,其中一种办法是使用KEGG网站进行信号通路富集分析。以下是基于KEGG信号通路富集分析的具体步骤。
KEGG信号通路富集分析_第1张图片

1. 通过uniprot将Gene name转换为GeneID

UniProt网站中的ID mapping具有强大的各类数据ID互相映射转换功能,支持多个数据库之间的互联互通和一次性多条数据ID的转换。因此,我们通过uniprot将原始数据种的Gene name转换为GeneID。
:大多数比较古早的教程都是把Gene name转换为UniProt ID,但是最新版本(version 5 of KEGG Mapper)的KEGG的标识符已经不直接支持UniProt ID,而是KEDD ID或者GeneID。但是为什么不选KEGG ID是因为在ID mapping的过程中,KEGG ID缺失的情况要比GeneID缺失的情况更严重,因此为了保留更多的数据,我们选择了兼容性更好的GeneID。不过,KEGG也有自己映射工具Convert ID,有兴趣的可以自己尝试下。

1.1 ID mapping:数据导入

  • 可以直接将原始数据的中的Gene name列直接复制进ID mapping的输入框。如果基因数量较多,可以将Gene
    name列单独保存成单个文件,从load from text file出导入。
  • From database选择第一个UniProt的子项“Gene Name”。
  • To database则可默认选择UniProtKB,GeneIDKEGG的ID可以通过UniProtKB链接的相关信息所得。
  • 最重要的是不要忘记填写物种信息,图中展示的为小鼠,不然需要在获得映射数据后再次将物种信息过滤一次。
  • 最后点击Map 15 IDs
    KEGG信号通路富集分析_第2张图片

1.2 下载设置

确认输入的ID是Gene name,否则无法获得成功映射。上一步提交后,可获得UniProt任务列表,状态栏Status显示Completed后,点击下方链接预览ID映射的结果。
KEGG信号通路富集分析_第3张图片
在结果预览页面中,点击Download。(数量较少也可以直接在该页面直接筛选目标信息)
KEGG信号通路富集分析_第4张图片
下载Excel或者其他自己熟悉处理的数据文件格式。并注意选择外部链接(External links),其中就包含了我们需要的GeneID , KEGG
KEGG信号通路富集分析_第5张图片

输出内容除了默认6项外,在外部链接(External links)中的基因组注释(Genome annotation)勾选GeneID , KEGG

注:如果当同时勾选GeneID , KEGG后无法成功下载,大概率是因为KEGG的ID不全无法生成下载链接。解决方法是只勾选GeneID
KEGG信号通路富集分析_第6张图片

1.3 ID mapping后数据处理

ID mapping生成的表格数据会存在大量的重复或者空缺值,这直接导致了ID mapping数据的数量前后并不能保持一致,需要根据自己情况进行删减或保留处理。

  • 同一个基因条目重复,需要自己依据具体情况进行删减或保留处理。
  • GeneID数据为空的删除。

2. KEGG通路富集搜索

使用KEGG Mapper 进行通路富集搜索。其中KEGG Mapper – Search (过去被称为 Search Pathway)是在用户数据集中搜索映射对象的传统工具。
KEGG信号通路富集分析_第7张图片

2.1 搜索模式(Search mode)

  • 不同的搜索模式有不同的输入类型的要求,务必注意KEGG identifier中的对应的类型和所研究的物种信息来确定选择哪种搜索模式。

KEGG信号通路富集分析_第8张图片

  • KEGG Identifier:根据自己输入的数据类型,选择合适的KEGG Identifier

KEGG信号通路富集分析_第9张图片

2.2 通路搜索

如果你的基因物种来源不是human,那么最最最重要的是选择搜索模式为other org,示例物种小鼠mmu;基因物种来源为human则可直接选择hsa搜索模式。
接着将GeneID直接复制粘贴或者文件导入,点击Exec提交任务。
KEGG信号通路富集分析_第10张图片

2.3 通路富集

最终获得通路富集数据,通过数据处理,进行可视化展示。

你可能感兴趣的:(生物信息,数据库)