KEGG是什么：快速了解KEGG

我们有时候很关心基因所在的pathway、上下调控以及一堆基因富集到的pathway，再或者同源基因等信息，KEGG数据库也算是目前（注释）常用的明星数据库

KEGG：京都基因和基因组百科全书：KEGG项目于1995年5月在日本教育，科学，体育和文化部的人类基因组计划下启动（2）[计算资源由京都大学化学研究所超级计算机实验室提供。]。KEGG和相关软件工具中的所有数据都作为日本GenomeNet服务的一部分提供（3）。KEGG由三个数据库组成：用于表示相互作用分子网络的高阶函数的pathway，用于收集所有完全测序的基因组和一些部分基因组的基因目录的GENES，以及用于化学品收集的LIGAND（4）细胞中的化合物，酶分子和酶促反应。KEGG系统的整体架构与之前报道的基本相同（5）。用户可以从通路（功能）信息开始自上而下进入KEGG系统，或者从KEGG目录页面的基因组信息开始自下而上进入。https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102409/

产生背景：如何借助计算机全面的展示细胞和生物所包含的生物学信息室后基因组时代的重大挑战之一。科学家期望能够根据基因组中的信息，用计算机计算或者预测出的比价复杂的细胞中的通路或者生物的复杂行为，出于这个目的，日本京都大学生物信息学中心的Kanehisa实验室于1995年建立了生物信息学数据库KEGG。现在是基因组测序和其他高通量实验技术产生的大规模分子数据集的整合和解释的重要参考知识库。
内涵：KEGG是一个数据库资源，用于从基因组和分子水平信息中了解生物系统的高级功能和效用，例如细胞，生物体和生态系统。它是生物系统的计算机表示，由基因和蛋白质（基因组信息）和化学物质（化学信息）的分子构建块组成，它们与相互作用，反应和关系网络的分子接线图的知识相结合（系统信息））。它还包含疾病和药物信息（健康信息）作为生物系统的扰动。https://www.genome.jp/kegg/kegg1a.html
特点：人工创建了一个知识库，基于使用一种计算的形式捕捉和组织实验室得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。（https://www.kegg.jp/kegg/）
KEGG具有强大的图形功能，来介绍众多的代谢途径以及各途径之间的关系。2019.8月统计

KEGG现有数据库.png

genes数据库里：储存基因组信息，包括完整和部分‘’测序的基因组序列；[从ncbi的GeneBank中搜集而来]
pathway数据库：储存更高级的功能信息
LIGAND数据库：包含关于化学物质、酶分子、酶反应等信息
LinkDB：链接世界上其他一些大型生物信息学数据库

下图来自于文献：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102409/

genes数据库.png

KEGG功能.png

KEGG数据库目前统计的数据

https://www.kegg.jp/kegg/docs/statistics.html，能看到有536条pathway。406个module。

KEGG当前统计.png

KEGG Orthology 数据库

KEGG建立了KEGG直系同源系统（the KEGG Orthology(KO) system) ，该系统吧分析网络的相关信息连接到基因组在中，从而发展和促进了跨物种注释流程。因此在KEGG 数据库中，直接存储分子功能的就是KEGG Orthology 数据库。

KEGG Orthology 简称KO,该数据库中的每一条记录用K number 唯一标识。基于同源基因具有相似功能的假设，把基因的功能进行了扩充。对于某个物种中功能研究的很清楚的基因，在不同的物种间搜寻该基因的同源基因，将这些同源基因定义为一个orthology, 用该基因的功能作为该orthology 的功能；这样就将对于不同物种基因功能的研究都利用起来，提供了一个全面的研究基因功能的数据库。（https://cloud.tencent.com/developer/news/119170）
特征：他是蛋白质或酶的一个分类体系，序列高度相似，并且在同一条通路上有相似功能的蛋白质被归为一组，然后被打上KO（或K）标签。
代谢通路图可以找到Ortholog table表：同源基因

KEGG的pathway

根据相关知识手绘的，这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系。
基因组信息主要是从NCBI等数据库中得到的，除了有完整的基因序列外，还有没完成的草图。

ko编号就是一个pathway，例如ko04722，这个通路不分物种，相当于所有物种这一通路的并集

K编号表示一个基因，例如K02582，是ko通路中的基本单元，某一K编号代表的不是某一具体物种的基因，而是所有物种的某一同源基因的统称。

pathway，module 等数据库都是建立在KO数据库的基础上的，KO可以说是KEGG中处于核心地位的一个数据库，所以理解KO数据库就特别的重要。

对于一个具体的KO来说，在这个KO下是一系列基因，这些基因可以来源于不同的物种，但是具有相同的功能。以K00161为例，对应的同源基因的列表可以从KEGG的官网查询得到。

pathway的五种类型：

仅仅第一种参考通路是手动画出来的，其他的通路图都是通过计算产生的。pathway中的每一个框或线都对应一个或多个K编号、EC编号及R编号。

map - Reference pathway：对于代谢相关的通路，在reference pathway中，一个点同时表示一个基因，这个基因编码的酶或这个酶参加的反应
ko - Reference pathway(KO)：KO通路中的点只表示基因
ec - Reference pathway(EC)：EC通路中的点只表示相关的酶
rn - Reference pathway(Reaction)：Reaction通路中的点只表示该点参与的某个反应、反应物及反应类型
org - Organism-specific pathway map：对于所有的代谢和非代谢通路，K编号都被认为是基因的标识符，这个标识符在每一个物种中对应该物种中的某个基因，从而得到物种特异性的pathway。

KEGG主页可以搜索的类型如：

map00010
ko00010
ec00010
rn00010
hsa00010

KEGG ftp

https://www.kegg.jp/kegg/download/

KEGG（http://www.genome.ad.jp/kegg/）是一套数据库和相关软件，用于从基因组信息中理解和模拟细胞或生物体的高阶功能行为。首先，KEGG计算机负责各种细胞过程的蛋白质相互作用网络（PATHWAY数据库）和化学反应（LIGAND数据库）的数据和知识。其次，KEGG尝试为基因组完全测序的所有生物重建蛋白质相互作用网络（GENES和SSDB数据库）。第三，KEGG可用作功能基因组学（EXPRESSION数据库）和蛋白质组学（BRITE数据库）实验的参考知识。[https://www.ncbi.nlm.nih.gov/pubmed/12539951]

京都基因和基因组百科全书（KEGG）是从基因组角度理解生物功能的生物信息学资源。它是一种多物种，综合资源，由基因组学，化学和网络信息组成，交叉引用众多外部数据库，包含一整套构建模块（基因和分子）和接线图（生物途径）来表示细胞功能。KEGG由一套数据库组成：PATHWAY，GENES / Sequence Similarity Database（SSDB），信息传输和表达中的生物分子关系（BRITE），以及LIGAND，它是COMPOUND，DRUG，GLYCAN，REACTION，REPAIR和酶。最近在KEGG中添加了两个新的数据库：DGENES（用于草图基因组）和EGENES（用于表达序列标签[EST]数据）。EGENES是一个知识库系统，用于有效分析生物特异性EST，包括公众可获得的植物EST。EGENES将基因组信息与更高阶的功能信息链接在一个数据库中。存储在EGENES中的基因组信息是EST重叠群的集合，通过组装公共EST产生。[https://www.ncbi.nlm.nih.gov/pubmed/18287706]

后基因组时代的一个重大挑战是细胞和生物体的完整计算机表示，这将使得能够从基因组信息计算预测细胞过程的更高水平复杂性和生物体行为。为此，我们一直在开发一种基于知识的网络预测方法，即基于基因组中的一组完整基因，预测负责各种细胞过程的蛋白质相互作用网络。KEGG在http://www.genome.ad.jp/kegg/是参考知识库，整合了当前关于分子相互作用网络的知识，如路径和复合物（PATHWAY数据库），关于基因组计划产生的基因和蛋白质的信息（GENES / SSDB / KO数据库）和有关生化化合物和反应的信息（COMPOUND / GLYCAN / REACTION数据库）。这三种类型的数据库实际上代表了三个图形对象，称为蛋白质网络，基因宇宙和化学宇宙。正在进行新的努力以计算和手动抽取关于KO（KEGG Orthology）数据库中的直向同源簇的知识，并收集和分析GLYCAN数据库中的碳水化合物结构。[https://www.ncbi.nlm.nih.gov/pubmed/14681412]

京都基因和基因组百科全书（KEGG，http：//www.genome.jp/kegg/或http://www.kegg.jp/）是一种整合基因组学，化学和系统功能信息的数据库资源。特别是，来自完全测序的基因组的基因目录与细胞，生物体和生态系统的更高水平的系统功能相关联。通过以可计算的形式捕获和组织实验知识，已经进行了大量努力以手动创建这种系统功能的知识库; 即，以KEGG途径图，BRITE功能层次结构和KEGG模块的形式。还通过KEGG Orthology系统不断努力开发和改进用于将基因组与分子网络连接的跨物种注释程序。在这里，我们报告KEGG Mapper，KEGG PATHWAY的工具集合，BRITE和MODULE映射，实现大规模数据集的集成和解释。我们还报告了KEGG绘图程序的变体，以扩展知识库，其中不同类型的数据和知识，例如疾病基因和药物靶标，被整合为KEGG分子网络的一部分。最后，我们描述了KEGG内容的最新增强，特别是在实践和社会中使用的疾病和药物信息的整合，以支持转化生物信息学。[https://www.ncbi.nlm.nih.gov/pubmed/22080510]

参考资料：https://wenku.baidu.com/view/7017b2ce09a1284ac850ad02de80d4d8d15a0198.html?rec_flag=default&sxts=1565257075866