生物医学知识库/知识图谱(英文+中文)盘点

因为硕士研究方向是基于知识图谱的中文医学问答系统,所以调研了下现有的生物医学(BioMedical)和医学(Medical)知识库。

首先需要对上述两个概念做个区分,从我的理解来看,生物医学更加微观,偏向于蛋白质/基因等各种化学物质,面向的是药物假设发现、疾病和基因的关联性等研究性质课题。而医学则更宏观,主要面向疾病、药物、表征、治疗方案等概念及他们间的关系,更适合面向智能问答、医疗助理等应用。由于现有的中文及英文医学知识图谱不多,所以一概而论地进行一下梳理。

首先是一些中文医学的知识图谱

中文医学知识图谱 CMKG

  • 该知识库是中科院软件所的刘焕勇老师的工作。
  • 来源:寻医问药网上规范的半结构化医学知识
  • 规模:包括8807种疾病、3828种药物、5998种症状、3300种检查方法等7类实体、10类关系、10种疾病相关属性,共3万余实体、30余万条关系。数据和搭建方式完全开源,比较适合用来使用
  • github

中文医学知识图谱 CMeKG

  • 该知识图谱是北大、郑大和鹏程实验室的联合工作
  • 来源:是利用自然语言处理与文本挖掘技术,基于大规模医学文本数据,以人机结合的方式研发的中文医学知识图谱
  • 规模:包含11076种疾病,18471药物,14794症状,3546诊疗技术等相关知识,150余万关系
  • 网址 论文 论文2

OMAHA 药品-疾病知识图谱

  • 来源:来源于各地药品医保目录、药品说明书等开放数据,以及中国药典、药理学等高质量医学资源。
  • 规模:包括2.03万实体,13.7万关系, 主要实体为药物、疾病
  • 网址

OMAHA 临床路径-疾病治疗知识图谱

  • 来源:收集研究目前市面上所有的临床路径,构建了临床路径的知识表达框架,主要包括:适用对象、相适用人群、治疗阶段、治疗方式、适用科室、就诊类型、标准治疗时长、治疗相关检查项目等
  • 规模:6000实体、4.5万关系,主要实体为各种临床实体及疾病
  • 网址

中医医案知识图谱

  • 来源:从医案中抽取临床知识构建知识图谱,帮助用户了解中医特色疗法,以及疾病(如“慢性胃炎”)的临床表现、相关疗法、相关养生保健方法等。
  • 中医系列网址

然后是一些中文/英文医学的知识库

UMLS(Unified Medical Language System) 2004 (工业界和科研都会用)

  • 介绍:UMLS是比较早的生物医学知识库,整合了MeSH等一堆人工构建知识的医学库的信息,因此质量高但规模受限预定义的关系类型很规范,通常会被其他知识库参考;收录的实体概念通常会直接被其他知识库引用;提供一些额外的服务,比如MetaMap,可以将医学文本链接到UMLS的实体上,因此被后续的医学知识库广泛使用
  • 网址  论文(The Unified Medical Language System (UMLS): integrating biomedical terminology)

SemMedDB 2012(工业界和科研都会用)

  • 介绍:知识抽取技术构建的医学知识库,基于PebMed上的医学文章的标题及摘要;规模大但质量有限。
  • 作者搭建该知识库的目的:基于文献的知识发现、假设生成
    • 基于SemRep进行关系分类,MetaMap进行实体链接。
    • 由于知识都是从文本中抽取的,不一定准确,因此同样的实体对可能有多个关系,但每个关系都提供了相关句子可以被进一步分析;
    • SDB中的实体概念是与UMLS对齐的,30种常见预定义关系是从UMLS的预定义关系中引出的;
  • 论文:SemMedDB: a PubMed-scale repository of biomedical semantic predications
  • 这个知识库目前应用的比较广泛,可能因为大规模知识抽取+知识校准才是大势所趋,依赖人工搭建知识库成本还是太高

Medical KB 2014(偏科研)

  • 以疾病为中心、面向一些常见关系的知识库;作者搭建该知识库的目的:回答医学问题
  • 论文:Medical Relation Extraction with Manifold Models

dRiskKB 2014(偏科研)

  • 构造疾病-疾病之间的关系库,每个疾病都和一些基因、表现型等链接,适合用来研究疾病机制和药物发现
  • 论文:dRiskKB: a large-scale disease-disease risk relationship knowledge base constructed from biomedical text

OMAHA 七巧板中文医学术语集

  • 介绍:是基于本体方式构建,经过验证的,语义丰富的术语集。它既可以帮助规范医学术语表达,同时又可以提升不同系统间的语义互操作能力。
  • 规模:主要包含疾病、症状、解剖、手术、生物、药品、医疗器械、检验检查、影像、护理、基因、基因突变等医学领域的术语内容。
  • 网址

 

 

你可能感兴趣的:(自然语言处理,知识库,知识图谱,医学,自然语言处理)