2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology

Modular-based Measuring Semantic Quality of Ontology

摘要 - 测量是工程过程的关键要素。为了控制,跟踪和改善任何物体的质量,应该以定量的方式进行定义。与其他工程产品一样,本体论需要一种在其生命周期中进行质量评估的方法。最近,本体的质量评估一直是许多研究活动的主题。在许多作品中,已经考虑了测量本体的结构方面,但是本体的语义方面受到的关注较少。在本文中,知识制图推理技术用于表示本体的语义方面。为了说明这种技术在测量本体中的适用性,我们将模块化作为协作本体工程和控制质量因素(如维护,可变性,可扩展性和可重用性)的重要要求。因此,基于知识制图表示提出了语义相似度量,然后应用Louvain算法提取高内聚和松耦合模块。

I. INTRODUCTION

正如默勒和保利什[1](受开尔文勋爵的启发)所说:“你不能轻易管理你无法衡量的东西”。 测量是控制和跟踪任何对象的过程改进的基本前提。 在本文中,我们想要考虑本体工程师如何评估本体的质量。 在过去几年中提出了许多本体指标和度量[2-6],但是大多数都将本体视为RDFI图,并没有考虑语义方面和本体的隐含知识。 所以,首先我们需要一个本体语义表示。 实际上,您如何衡量与您衡量的一样重要。 这个问题已经在[7-9]中讨论过,他们每个人都提出了一种方法来表示本体的语义方面,分别是规范化,知识制图和GDR2方法。 知识制图包含本体的更多语义方面,并提供比其他方法更快更容易的推理。

在本文中,提出了一种基于模块的控制和语义测量本体质量的方法。 在本体工程中,质量控制,维护和演化巨大的本体是很困难的。 本体模块化是解决此问题的合适解决方案。 因此,在我们的方法中,提出了基于知识制图技术[10]的语义相似性度量。 然后使用Louvain算法[ll]作为所谓的分解算法。 结果表明,基于模块的方法提取了有意义的模块。

本文的结构如下。 首先,解释预赛。 在第2节中,考虑了相关的工作。 在第3节中,基于模块的方法在六个活动中进行了解释。 在第4节中,讨论了评估方法和实验结果。 在最后一节中概述了结论和未来的工作。

II. PRELIMINARIES

这项工作的主要目的是提出一种基于模块的方法,可用于测量本体的语义质量。 首先,为了呈现这种方法,必须具有以下术语的常识

A. ontology

自1993年以来,对本体论的不同方法有很多定义,侧重于在特定领域创建共享概念化的正式明确规范[12]。 测量本体需要一个清晰的象征性定义。 在参考文献[13]中,在研究了本体的各种定义之后,得出结论,每个定义都引入了本体的产物。 其中最复杂的由5个元素组成:概念,分类学和非分类学关系,以及表示特定领域中某些对象的识别的公理。 对于简短的Cognibase,该产品的名称是“Cognitive ontology-base”。 Cognibase模型表示为:

Where:

C是一组概念,RT是一组分类关系,RN是一组非分类关系,A是公理集,D是本体所代表的特定域。

一些本体产品的结构如表I所示。


2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第1张图片
TABLE I. STRUCTURE OF ONTOLOGY PRODUCTS

B. Ontology quality assessment

本体质量评估的背景图如图1所示。在该图中,确定了本体质量评估过程的输入和输出。


2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第2张图片
Fig. 1. Context diagram of ontology quality assesment

1) Quality model:

根据IEEE标准软件工程术语表[14],软件产品的质量被定义为“系统,组件或过程满足特定要求的程度”。质量模型用于管理软件产品的质量。 关于ISO / IEC 9126-1 [15],质量模型是“一组特征,它们之间的关系,为规定质量要求和评估提供了基础”。 质量模型建立了一组质量因子,质量子因子和度量之间的关系。 OQuaRE [3]是一种通用质量模型,用于确定本体的质量特征,包括结构,功能充分性,兼容性,可转移性,可操作性,可靠性,可维护性,使用质量,性能效率。

2)本体语法和语义表示:

本体元素被认为是知识。 知识表示是对事实和规则的表示,以编码它们的语法和语义[16]。 本体的句法(结构)方面由RDF图表示。 本体的语义表示使其语义的某些特征明确。 规范化[7],知识制图[17]和GDR方法[9]是表示本体语义方面的技术。

3) Assessment approaches:

第2节讨论了本体评估的主要现有方法。在本文中,选择了基于标准的方法。 该方法采用本体并基于一组标准及其度量来评估它。 由于其他方法需要衡量评估的指标和措施,因此基于标准的方法是评估本体质量的重要活动。

C. Ontology evaluation

本体质量评估的测量结果是本体评估过程的输入。 将结果相互比较或与标准指标进行比较。 本体评估的目的是在本体开发过程中进行本体排序,本体选择和跟踪改进结果[18]。 在本文中,我们的重点是本体质量评估。

III. RELATED WORKS

由于在智能系统中越来越多地使用本体,更适合的本体选择和评估是一个重要问题。 许多工作已经采用各种方法完成。 在下文中,解释了这些方法[19]:

 •黄金标准:这种方法将本体与类似领域的标准本体进行比较。 Maedche和Staab [20]提出了衡量本体之间相似性和重叠性的指标。这种方法对于评估本体学习算法很有用,并且不适用于评估本体,因为如果在特定域中存在黄金标准本体,则不需要评估其他本体。 •数据驱动:这种方法将本体与一系列关于本体领域的标准文档进行比较,并使用一种方法来评估结构拟合[21]。

 •基于应用程序:此方法通过在应用程序或任务中使用本体来评估本体,并测量其在应用程序中的性能。这种方法的缺点之一是评估结果不能相互比较,除非所有本体可以插入同一个应用程序[22]。

•基于标准:此方法基于一组选定的标准或属性评估本体。这些标准决定了本体的特征,例如完整性和一致性。每个标准都分配给一个或多个指标。 OntoQA [6]是基于这种方法的本体质量工具。

 •领域专家:这种方法由专家组成,他们使用一系列要求,标准和标准来评估本体。 OntoMetric [23]是一种基于这种方法的决策方法。

在本文中,仅考虑基于标准的方法,因为其他方法还需要一组用于评估的度量和度量。文献中提出了各种本体指标和度量,如oquul模型[4],OntoQA [5,6],AKTiveRank [2],OQuaRE3模型[3]。现有的工作有同样的问题。上面提到的所有作品都是基于本体的结构RDF图,而不管其测量中本体的语义方面。这个问题导致无法比较和不精确的测量结果,因为相同的语义知识可以用不同的句法结构来表示。文献中考虑了这个问题,分别提出了一些解决方案,标准化[7],知识制图[8]和GDR方法[9]。规范化命名所有复杂类,并使用推理引擎提取所有分类关系。 GDR方法定义了一组基于规则的转换,以表示本体的唯一语义模型,但不使用任何推理引擎,因此整个隐式知识不在最终语义图中表示。知识制图(KC)是一种快速推理技术。 KC中的表示基于域的分解,称为“概念图”。概念图表示各种概念之间的所有隐含关系,包括分类,不相交和等价。因此,与标准化和GDR方法相比,KC代表了更多隐含的本体知识。规范化和GDR方法也命名所有复杂的类,例如union,intersection,但KC由两种类组成:原子类和限制类。联盟和交叉点可以在KC中推断出来。因此,最终图中的节点数量减少了。在下文中,KC技术用于我们基于模块的方法。

IV. PROPOSED APPROACH

本节介绍了基于模块的测量方法,以控制本体的质量。 这种方法有一个过程。 该过程的活动图如图2所示。该过程包括六个主要活动:A)解析OWL 4本体,B)表示公理的命题逻辑,C)创建本体的语义表示(概念图),D )概念推理图,E)生成概念的相似图,F)使用Louvain算法提取模块。 模块化本体有助于我们更好地控制测量结果和质量因素,如可变性,可重用性,可维护性和可扩展性。


2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第3张图片
Fig. 2. Activity diagram of modular-based approach

以下详细解释了这些活动。在每个活动中,指定输入,过程和输出。

A.解析OWL本体

 首先,提取了本体的概念和关系。

1)输入:OWL本体

2)过程:使用Jenas框架加载和分析原始OWL本体。最初,列出了所有原子概念和限制(匿名概念)。然后提取概念之间定义的关系,包括分类,不相交,等价,补语,范围和个体。根据后处理活动[17],将遵循以下规则:

      如果概念A是概念B的子类,则定义了2个限制概念,包括3R.A和3R.B.然后3R.A是3R.B的子类。

 3)输出:提供了解码逻辑(DL)公理列表。 DL知识库由两部分组成:术语框(TBox)和断言框(ABox)[24]。

B.表示公理的命题逻辑公式在第二个活动中,DL公理被转换为命题逻辑公式。

  1)输入:以前活动的所有公理

  2)过程:对于TBox中的每个公理,根据表2建立命题逻辑公式。


2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第4张图片

表III中示出了设置为命题逻辑公式的DL公理的变换的示例。


2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第5张图片

3)输出:逻辑命题公式

C.创建本体的语义表示(概念图)

知识制图(KC)是一种快速推理DL本体的技术。 KC创建了一个概念图[17]。 每个概念都表示为一组,由地图中的原子区域组成。 每个区域被分配给称为签名的二进制向量中的唯一位位置。 因此,我们可以通过对签名的简单操作来表示补充,联合和交叉的任何组合。 该技术允许快速查询DL知识库。 “家庭”本体的KC表示如图3所示


2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第6张图片
Fig. 3. Map of concepts for "Family" ontology

KC的主要问题是如何创建概念图。 在本文中,递归补充CNF6到DNF7算法用于创建概念图。 该算法减少了在其他计算(例如测量和推理)中使用减小的签名大小的区域数量。 在下文中,解释了该算法[10]。

 1)输入:将命题逻辑公式转换为CNF矩阵。“家庭”本体的CNF如表IV所示。

2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第7张图片

2)过程:逻辑综合中的递归互补算法[25]

3)输出:概念图(DNF矩阵)。 换句话说,每个原子和限制概念都被分配给签名。

D.概念推理图

在这个活动中,我们可以找到所有隐含的关系,包括分类,概念之间的等价和不相交。

1)输入:DNF矩阵

2)处理:检查以下规则。

•等价(A,B)B签名(A)=签名(B)

  •分类(A,B)B签名(A):签名(B)。

•不相交(A,B)B签名(A)/ \签名(B)= {O}“

  请注意,签名中的“2”是“不关心”值,可以是0或1.因此,在上述规则中,必须考虑这两个值。

3)输出:推断的DNF矩阵

E.生成概念的相似图

概念的相似性图表表示为G = (Vc, E, W)

•V c是一组有限的顶点,其中每个顶点都是原子概念或限制概念。

•E <;;;; Vc X Vc是一组显示概念之间相似性的边。

•W是边的一组权重。

每条边的权重用相似性度量计算。

在下文中,解释了计算相似性度量的方式。

1)输入:使用先前活动的推断DNF矩阵提取概念之间的所有关系(例如等价关系,分类关系,不相交关系,域关系和概念的签名)。

2)过程:基于关系的含义[26]和概念签名之间的交集提出了相似性度量。 表V中给出了语义相似性度量的度量。相似性度量中的值的范围在[0,1]之间。 等价关系具有最高价值。 因为这种关系表明两个概念具有相同的含义。 不相交关系具有最低值。 分类关系的最小值为0.5。 限制概念与其范围概念之间的范围关系的权重至少为0.25。 此外,公共区域的数量也按其度量计算。 因此,更准确地确定2个概念之间的相似性水平。

3)输出:每对概念之间的相似性百分比。


2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第8张图片

F.使用Louvain算法提取模块在最后一个活动中,使用相似图和Louvain算法提取模块。

1)输入:概念的相似性图。

2)过程:社区检测的问题将给定网络划分为高内聚(密集连接的节点)和松散耦合(稀疏连接)。 Louvain算法是一种贪婪和启发式方法[II]来解决这个问题。 在算法的每次迭代中,通过所谓的模块化度量来测量模块的质量。 此外,该方法应用于软件系统中以改进设计分解[27]。

3)输出:本体模块

V. EVALUATION

为了评估基于模块的方法的效率,选择了另一种本体模块化算法(语义图分区)[28]。与PAT08 [29]相比,语义图分区算法提取了更有意义的模块,后者是本体的分区工具。选择“Koala.owI9”作为案例研究。 “考拉”是关于人类和有袋动物的简单而小型的本体论。它由20个命名概念,6个实例,4个对象属性和1个数据属性组成。

在基于模块的方法中,考虑了两种类型的概念,包括本体的语义相似性图中的原子概念(命名类)和匿名类(限制),但语义图分区算法[28]不考虑匿名类。因此,对于相同的比较,匿名类不在“考拉”图中表示。在下文中,描述了评估方法和实验结果。

我们将本体表示为非方向加权图。顶点是原子概念,边缘是概念之间的分类和非分类关系。我们根据关系的性质为每条边指定权重。等价关系具有最高权重(3)。分类关系具有中间权重(2),非分类关系具有最低权重(1)。

模块结果的质量通过所谓的模块化度量来衡量。此度量标准通常用于图分区算法。模块性度量是[-1,1]之间的值,其测量模块内边缘的重量密度与模块之间的边缘相比。该度量标准衡量模块的内聚和耦合程度。它被定义为:


2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第9张图片

•Em是模块m中边的权重之和。

•K; 是节点i的边缘权重之和。

•2e是所有节点边缘权重的总和。KK

  •Li J'Em __1 1是2e模块m中预期边缘权重的总和。

实验结果如表VI所示。 基于模块的方法中的模块化度量值高于[28]。


2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第10张图片

基于模块的方法和语义图分区[28]的提取模块分别在表VII中表示。 和表VITI。


2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology_第11张图片

结果表明,基于模块的方法提供了更有意义的模块。 从那以后,语义图分区算法[22]只是确定模块的原子概念,并且由于关系的含义而分配了概念之间的相似性,但基于模块的方法基于其原子概念及其重要概念来分解本体。 还注意到概念之间的依赖性和相似性程度。 在参考文献[30]中,定义了两种类型的依赖性,包括强依赖性和中度依赖性,但是所提出的度量仅仅基于由于高计算成本引起的fust-degree中度依赖性。 在本文中,仅通过计算我们提出的语义相似性度量中的公共区域的数量来解决该问题。

VI. CONLUSION AND FUTURE WORKS

本文主要关注本体的质量管理和语义测量。模块化本体是一种合适的解决方案,用于质量控制和管理本体演化。因此提出了一种基于模块的方法。在这种方法中,知识制图(KC)表示用于语义测量和快速推理。基于KC表示呈现语义相似性度量。然后使用已知的分解算法(Lou vain)来提取模块。实验结果表明基于模块的方法提取了更有意义的模块。我们可以基于KC表示定义更多的语义度量。这种表示有助于我们进行精确和独特的测量。在未来的工作中,我们打算通过更多案例研究来评估基于模块的方法,以显示它的适用性。我们还计划将基于模块的方法应用于本体质量需求模型(OQuaRE)。此外,我们希望设计一种工具,以基于模块化方法测量本体在其生命周期中的质量特性。

你可能感兴趣的:(2019-04-13论文笔记---Modular-based Measuring Semantic Quality of Ontology)