论文笔记---Data Driven Ontology Evaluation Christopher
Abstract:
1.本体评估方法对与以往的发展很重要。
2.corpus or data driven,A corpus is the most accessible form of knowledge and its use allows a measure to be derived of the ‘fit’ between an ontology and a domain of knowledge
3.考虑了许多测量这种“拟合”的方法,并提出了一种评估结构拟合的方法,以及一种确定最佳本体的概率方法。
1. Introduction
目前在知识管理,语义Web和各种语义Web服务方面的工作依赖于本体作为应用程序开发的支柱(Fensel等,2003)。 本文认为需要开发一套清晰的评估方法,并根据数据驱动的评估方法提出方法的重要性。 我们认为,要在本体的开发和部署方面取得显着进展,评估指标必须与TREC,MUC或Senseval中使用的评估指标类似。 在这种评估中使用的精确度和召回等措施的使用已经成功地提供了一套绩效基准。 我们解决了在评估本体评估任务时选择和使用经验方法时出现的一些问题。
良好的本体是为其目的服务的。完整的本体可能不仅仅是大多数知识服务正常运行所需的。 本体使用的最大障碍是构建它们的成本,并且部署“邋”的本体,这些本体构建起来便宜且易于维护可能是更实用和经济的选择。 同样,人们更多地关注本体重用的潜力,这也会降低入门成本。 在这两种情况下,都必须存在适当的评估方法。
本文的其余部分组织如下。 在第2节中,我们讨论了评估知识表示的问题,在第3节中我们列举了不同类型的评估,在第4节中,我们提出了关于数据驱动评估的想法。 接下来是相关工作和结论的简要说明。
2. The Evaluation of a Representation of Knowledge
在尝试评估本体时存在固有的问题,因为尚不清楚究竟是什么试图评估。根据(Gruber,1993),本体论是知识的表示或模型,是“共享概念的正式,明确的规范”,这意味着无论如何“共享”它可能仍然是极其主观的 - tive,代表创建它的时间,地点和文化环境。特定的本体论反映了知识用户的利益,必须在本体构建的设计标准中捕获。选择用于描述用户或应用程序上下文感兴趣的概念的概念标签是对可用信息的解释行为。
本体评估不能与信息检索中的评估任务或经典的自然语言处理任务(如POS标记)进行比较,因为不能轻易使用精确和召回的概念。人们希望精确地反映在本体中可用的整个知识中正确识别的知识量(在本体中)。人们希望将召回定义为反映正确识别的知识量,以及它应该识别的所有知识。但是我们还没有明确表达这意味着什么。精确度和召回取决于一组明确的相关项目,例如词性。没有一套明确的“知识可以获得”,因为同一组事实可以产生截然不同的解释,从而产生不同类型的“知识”。
解决问题的一种方法可能是将其分解为其组成部分。本体论最简单的是由概念和关系组成,其中一些是明确定义的,另一些是从一组公理中得出的。我们可以将这些结构视为一组描述该领域的自然语言文本的抽象。我们的方法涉及扭转这个(默认的)抽象过程,我们将建议从本体中找到相关概念的自然语言文本中的签名。希望本体中感兴趣概念的定义的可变性以及自然语言中的构造表达我们对特定域的理解的共享性质的各种方式将表现出可见的相关性。因此,我们需要识别代表本体中的概念和关系的单词(共同)出现。给定代表某一知识领域的文本语料库,使用当前技术识别文本中使用的显着术语相对容易(Maynard和Ananiadou,2000)。确定这组关系会立即引发问题。一方面存在诸如IS-A(低位)和(meronymy)的一部分之类的共同关系,但是不清楚这些是否在本体中代表知识具有正确的粒度。最后,确定每个概念之间的适当关系是目前最大的挑战,也是自动方法通常不能令人满意的问题
3. Types of Evaluation
需要在定性和定量评估方法之间做出重大区分。 定性方法可能会向用户提供本体或本体的子部分,并要求他们对其进行评级。 这里的问题是很难确定谁是合适的用户,以及他们用于评估的标准。 领域专家应该被视为用户,知识工程师,还是最终用户? 他们是否应该更高度地评估本体,因为它是“明智的”,“连贯的”,“完整的”或“正确的”,这些术语是什么意思? 此外,大多数用户无法评估本体的逻辑正确性。
一种密切相关的定性方法是从其构造中使用的原理的角度评估本体。 这种方法尤其受到(Guarino,1998)和(G'omez-P'erez,1999)的支持。 虽然这些设计原则中的一些在理论上是有效的,但是构建自动化测试极其困难,这些测试将相对评估两个或更多本体关于它们对“身份标准”或其分类严格性的一致使用。 这是因为这些原则依赖于外部语义来执行当前只有人类能够提供的评估。 此外,在将基于原则的方法应用于本体构建时,存在很大的危险,结果可能是空洞的,没有实际用途,如(Wilks,2002)所述。
另一种方法是评估特定本体在应用环境中的有效性。目前,还没有做任何工作来采取给定的应用环境并测试一些相似但不同的本体,以便评估哪种最适合相关应用并确定原因。建立一套清晰的简单应用程序套件,这些套件允许将许多不同的本体“插入”以评估本体,这将是一个重要的研究步骤。实现相同结果的另一种方法是建立TREC或MUC中提出的详细任务。从语义Web的机器可读性愿景来看,本体是一种支持流程互操作性的技术,人们甚至可能完全不适合阅读和评估本体,只考虑本体的影响。
本体论本体论将被评判。本文的重点是第三种方法,它涉及本体和知识领域之间的一致性或“适合性”。不可能直接自动评估诸如本体之类的知识人工制品与人们对领域的知识之间的契合度,更不用说集团的知识了。一种标准方法是将新的本体与现有的“黄金标准”进行比较。这就是作者所支持的方法,如(Grefenstette,1994)。这里的问题是,如果结果与黄金标准不同,则很难确定这是否是因为语料库是不合适的,方法是有缺陷的,或者语料库和黄金标准中存在的知识存在真正的差异。无论如何,当人们试图评估本体学习方法时,这种方法更适用。在语义Web场景中,可能必须从一系列最适合特定域的现有本体中进行选择,或者最适合于适应域/应用程序的特定需求。
在其他地方,人们一直认为,文本语料库可能是构建大部分本体的最有效信息来源(Brewster等,2001)。 传统的协议分析或自省的本体构建方法极其耗时,费力且昂贵。 对于本体的评估(无论如何构建),评估的主要部分应该是用域特定语料库来识别本体的“拟合”。 我们故意使用“适合”这个词,因为可以通过多种方式评估这种一致性。
4. Data-driven Evaluation
4.1. The Scenario
让我们想象一下知识工程师有一个应用程序(一个特定的语义Web服务,让我们说)并且可以识别所需的知识领域的情况。 这最初可以表示为关于域的文本语料库。 从许多现有本体中,他们必须选择最适合应用程序的内容,并确定是否需要对预期应用程序进行重大修订。 我们在下面考虑一些可以促进这种选择过程的方法。
在我们的案例中,我们选择了我们开发ARTEQUAKT应用程序的艺术和艺术家领域(Alani等,2003)。 使用这个,我们从互联网上收集了许多艺术家的41个任意文本。 将ARTE-QUAKT本体与其他四个进行了比较:科学本体论(科学本体论,nd)是KA2本体论的修订版,AKT参考本体论(AKT,2003)涉及学术领域,CIDOC概念参考模型(CRM) (CIDOC,2003)是代表文化遗产的本体论,SUMO是建议的上合并本体论(IEEE P1600.1标准上层本体工作组,2003)。
4.2. Basic Comparison of Ontologies with Texts
我们建议将一个或多个本体与语料库进行比较,而不是将一个本体论与另一个本体论进行比较。为了达到这个目的,人们可以在语料库上执行自动术语提取。 只计算本体和语料库之间重叠的术语数量。 本体可以对语料库中存在的术语和本体论中不存在的术语以及本体论中存在但在语料库中不存在的术语进行处罚。
另一种方法是在评估中使用语料库和本体中的术语的向量空间表示。 这允许整体测量本体和语料库之间的“适合度”。 因此,例如,当将上述五种本体与我们的艺术家相关文本语料库进行比较时,我们获得了表1中所示的数字。
这符合我们对Artequakt本体的直观和客观理解,因为它与所选语料库最贴合。
4.3. An Architecture for Ontology-Corpus Evaluation
我们针对语料库提出了一种更为复杂的本体评估体系结构,从而获得了整体拟合的度量。 可以使用各种方法本体进行三个步骤:
1.识别关键字/术语。 这实质上是一种自动化术语识别的形式,因此可以应用现有的全部技术(Maynard和Ananiadou,2000)。 在我们的简单测试案例中,我们应用了潜在语义分析(Hofmann,1999)并使用了聚类方法。
2.查询扩展。 因为本体中的概念是以多种方式对许多不同词汇实现的紧凑表示,所以对概念术语执行某种形式的查询扩展是很重要的。 在我们的测试用例中,我们使用WordNet为集群中的每个术语添加两个级别的上位词。 还有其他方法可以使用(例如)IR技术扩展术语。
3.本体映射。 最后,语料库中标识的术语集需要映射到本体
给定一个针对本体的适当注释的语料库,我们可以计算在本体中有多少概念术语与那些已被标记的词汇项匹配。 这将产生本体标签(精确度和召回)的词汇关键词覆盖率的初始(粗略)度量。 这提供了反映语料库本体的覆盖范围的数字。 最常见的情况是缺少物品以及不需要的物品。
使用聚类分析方法的优点是它允许创建结构拟合度量。 我们可以想象两个具有相同概念集的本体,然而,这些概念具有不同组织的概念,因此概念彼此之间的距离不同。 因此,我们提出了一种本地论的“网球测量”(参见(Stevenson,2002)),该本体论评估同一集群中的项目在本体中比不同集群中的项目更接近的程度。 确定为接近的是取决于用于导出聚类的概率模型。
4.4. A Probabilistic Approach
在概率设置中,我们表达了对语料库与一组本体之间的“最佳拟合”的评估,作为在给定语料库的情况下找到本体的条件概率的要求。 在给定语料库C的情况下最大化本体O的条件概率的本体是最合适的本体O *:
如果可以使用本体标记的语料库,则可以在上面的贝叶斯定理中估计P(C | O)。 否则,我们可以求助于各种途径,其中人们可以尝试提取语料库的信息内容,以便将其与本体相关联。 可以通过组合每个本体的所有概念标签并从WordNet中的相应上位词树中为每个概念收集术语来提取与本体中的概念和关系最相关的词的识别。 这些术语与语料库中的单词之间的匹配提供了本体和语料库之间关联的适应性的度量。
为了评估本体中概念的接近程度,与语料库中术语的相关性或聚类的一些无监督度量相比较,我们需要找到一种提取聚类的方法。 我们作为第一步采取的方法是一个方面模型(Pereira等,1993; Hofmann,1999)。
其中语料库中的单词 - 文档(w,d)共现由通过隐藏的“主题”变量的集合T索引的多项式分布建模t∈T。我们使用期望最大化(EM)训练这些分布。 对于每个集群变量,我们估计概念标签的条件概率?:
凸组合中的两个术语表示直接的单词概念匹配和由查询扩展调解的那些,这里通过遍历WordNet的上位词树来实现。 常数α可以在存在训练数据的情况下由EM算法设置,或者由启发式法令设置。 虽然这给出了本体论中概念一致性的度量,但是(1)中这些概率值的积累,例如通过将产品放在所有概念标签上,给出了语料库和本体之间的拟合度量。
使用聚类来找到拟合程度使我们能够灵活地发现语料库碎片的不同程度的适应性。 如果整个语料库中的本体中存在最高等级的可变性,我们可以从高值P(d | t)中识别出与不同聚类对应的文档。
5. Related Work
已经开展了关于如上所述应用基于定性原理的方法来评估本体的研究(Guarino,1998; G'omez-P'erez,1999)。 Hovy提供了一组广泛的参数,通过这些参数可以将一个本体与另一个本体进行比较,但不提供任何定量方法(Hovy,2001)。 标准方法一直是将本体与黄金标准进行比较。 因此Grefenstette使用Roget,甚至Maedche最近的工作也理所当然地认为对本体学习方法的评估必须参考手工构建的参考本体,并讨论一个本体对另一个本体的评估(Maedche和 Staab,2002)。 研究人员之前没有考虑将不同的本体与一组给定的文本进行比较。
6. Conclusions and Future Work
在本文中,我们认为有必要为本体创建建立客观的度量。 我们已经提出了许多方法来评估本体(或一组本体)与给定语料库的一致性,以便确定它对于表示由文本表示的域的知识的适当性。 该领域的未来研究应寻求开发进一步的技术,以评估给定本体对于域的适当性。 此外,我们可以设想用于自动本体评估的语义Web服务。 这将向知识工程师推荐一组给定文档的最合适的本体,并最终为自动语义Web注释代理推荐。