胃肠道内窥镜检查本体(An Ontology for Gastrointestinal Endoscopy)

摘要:胃肠道内窥镜领域可以由出于数据编码和数据集成目的的本体中获益。本文介绍了一些早前尝试基于OBO Foundry原则和已经存在的OBO Foundry本体而开发本体的结果。起初,本体仅用于表示实体和关系,而现在则隐式或硬编码于已存在的内窥镜报告系统的用户界面上。本体还被映射到已存在的数据库上以评估本体驱动查询的可行性。长期的目标是使本体发展为独立于应用的胃肠道内窥镜检查领域的术语学和信息模型。

关键词:胃肠道内窥镜检查,知识表示,数据集成


1 引言

胃肠道内窥镜检查的实践引入了大量的结构化数据,这些数据都是由内窥镜检查报告中捕捉到的。为了保证数据收集的一致性,世界内窥镜检查组织为胃肠道内窥镜检查维护了最小标准术语(Minimal Standard Terminology,MST)。MST指定了术语的最小集合,以及编码大部分内窥镜检查数据所需的数据结构。然而MST中所表示的领域知识(形式化的术语,关系和数据结构)并不是一个可计算的形式,它将获益于本体和逻辑的分析及再组织。

另外一项胃肠道内窥镜检查领域重要的工作计划是临床结果研究计划(Clinical Outcomes Research Initiative,CORI)。CORI用于评价临床护理中内窥镜检查的利用和效果。为了实现这一目标,CORI已经开发了内窥镜检查报告软件和一个内窥镜检查报告的中心数据仓库。该报告软件正在国内广泛使用,其数据仓库每年接收到超过250,000份报告。这一数据仓库主要用于研究目的,并用来报告一些实践模式和临床结果度量。

CORI开发的内窥镜检查软件起初是基于MST的内窥镜数据表示,但是也加入了一些额外的术语和数据元素。而且它还能适当地将一些商业报告系统中生成的数据集成到CORI数据仓库。这些努力都强调了对于建立一个共享、稳定、可计算的胃肠道内窥镜检查术语和信息模型并保证清晰一致的语义以促进数据集成的需要。


2 动机与计划中的开发

生物医学本体领域近来的发展为更多形式化和逻辑化地表示实体和数据元素奠定了基础。这些实体和数据元素用来表示内窥镜检查数据。而且,标准知识表示语言和相关推理能力的存在使得我们可以对逻辑化表示的数据和知识进行复杂的查询。这些进步都促使我们想要尝试在CORI项目中为胃肠道内窥镜检查领域开发一个本体。

这一本体将遵照开放生物医学本体(Open Biomedical Ontology,OBO)构造(Foundry)开发原则,并在适当的时候复用已存在的OBO本体中的实体。BFO将作为顶级本体,其他本体(IAO,ogms,OBI等)将被用作中级实体的检查。领域级实体将参照已存在的解剖学和病理学的本体、构型、关系等。该本体开发项目被存为一个Google Code项目。


3 方法和预期的困难

开发将在确定当前CORI报告软件用户界面上硬编码的领域级术语和数据元素后展开。这些实体将初步构成本体的主要内容。这将把领域知识与应用解耦,从而允许更有弹性的发展报告软件的术语和信息模型,与此同时还能保持本体的和形式化的知识表示原则。然后,本体将根据来自MST的其他本体、内窥镜检查报告中自由文本实体和内窥镜检查联盟的信息进行扩展。同时,作为一个概念的证明,本体将被映射到已存在的CORI数据仓库中来评估本体驱动查询相对于传统SQL查询的可行性和好处。D2RQ平台将被用于项目的该部分。

对报告软件用户界面和MST的简要探索显示了一些困难问题,如认识论VS本体论,实体VS描述,否定词,还有其他临床设置中常出现的相关问题。而且,尽管我们相对狭窄地将注意力集中在胃肠道内窥镜检查的实践中,可是内窥镜检查报告却包括从现在到过去的病史、物理检查、可视的内窥镜检查结果还有通过各种图像技术得到的间接结果。除了这些各种类型的信息,还有反映临床医生态度和判断的认知层面上的东西,如评估、诊断、计划的表格等。为了充分表示信息,本体需要非常丰富的关系集合,包括拓扑、时间、模型关系等。

不过下面描述的主要用例都可以通过限制我们初始开发目标为一个is_a层次和高质量的拓扑关系基本集来实现。初始版本也将根据OBO Foundry本体开发原则,仅表示内窥镜的结果、它们的解剖学位置以及临床描述。


4 主要用例

本体将主要用作术语的接口,用来支持数据准入并保证内窥镜检查报告编码的一致性。本体也被用来探索本体驱动的数据获取所得到的值,它是通过对当前的CORI数据集执行本体驱动的查询来实现的。这些初始用例可以被满足,只要限制实体和关系的集合。其余的领域知识则在有需要时再加入。

你可能感兴趣的:(test)