我们提出了LLMs4OL方法,它利用大型语言模型(LLMs )进行本体学习( Ontology Learning,OL )。LLMs在自然语言处理领域取得了显著的进展,展示了其在不同知识领域捕获复杂语言模式的能力。我们的LLMs4OL范式研究了以下假设:LLMs能否有效地将其语言模式捕获能力应用到OL中,这涉及到从自然语言文本中自动提取和结构化知识?为了检验这一假设,我们使用零样本提示方法进行综合评估。我们评估了9个不同的LLM模型家族,用于3个主要的OL任务:术语分类、分类发现和非分类关系的提取。此外,评价涵盖了本体性知识的多种体裁,包括词网中的词汇语义知识、Geo Names中的地理知识和UMLS中的医学知识。实证结果表明,基础LLM不足以适用于需要高度推理能力和领域专业知识的本体构建。然而,当有效微调它们时,它们可能只是作为适当的助手,缓解知识获取瓶颈,用于本体构建。
本体学习( Ontology Learning,OL )是人工智能和知识工程的一个重要研究领域,它解决了不同领域知识获取和表示的挑战。OL涉及从文本信息中自动识别术语、类型、关系和潜在公理来构建本体。人类专家创建本体的例子很多,从通用本体到特定领域本体,如统一医学语言系统( Unified Medical Language System,UMLS ) 、词网、Geo Names、都柏林核心元数据计划( Dublin Core Metadata Initiative,DCMI )、schema . org 等。传统的本体创建依赖于领域专家的手工规范,费时费力、成本高、易出错,且在知识不断更新的情况下不切实际。因此,OL技术已经出现了从非结构化或半结构化的资源中自动获取知识的技术,例如文本文档和Web,并将其转化为结构化的本体。对该领域的快速回顾表明,传统的OL方法是基于词汇-句法模式挖掘和聚类。相比之下,通过LLMs 在NLP 方面的最新进展,为传统的OL方法提供了一种有前途的替代方案。OL的最终目标是为知识获取和表示提供一个具有成本效益和可扩展性的解决方案,从而在一系列领域中实现更高效和有效的决策。为此,我们引入了LLMs4OL范式,并将其作为基础的第一步进行了实证研究。
目前,还没有研究专门针对OL训练LLMs。因此,为了首次测试OL的LLMs,我们做了一些实验上的考虑。
第一种是:LLMs的特性是否为本体学习提供了依据?
首先,LLMs在广泛和多样化的文本上进行训练,类似于特定领域的知识库。这与本体开发人员需要具备广泛的领域知识是一致的。
其次,LLMs建立在变压器的核心技术之上,通过促进其参数的快速缩放,使其具有更高的语言建模复杂度。这些参数代表了词与词之间的联系,使LLMs能够理解句子或段落等非结构化文本的含义。
此外,通过从词连接中外推复杂的语言模式,LLMs在各种任务中表现出类似人类的反应能力,正如在"涌现"人工智能领域中观察到的那样。
这种行为需要执行其显式训练之外的任务,例如生成可执行代码、多样化的体裁文本和准确的文本摘要[ 57、62 ]。
LLMs从简单的单词连接中推测模式的能力,即编码语言语义,对于OL来说至关重要。
本体通常依赖于从非结构化文本中分析和外推结构化的信息连接,例如术语类型的分类和关系。
因此,LLMs对OL的富有成效应用的LLMs4OL假说似乎在概念上是合理的。
LLMs正以飞快的速度发展。在本工作撰写时,至少报道了60种不同的LLM [ 5 ]。这引发了我们
第二个主要的实验思考:哪些LLMs来检验LLMs4OL任务假设?
各种LLMs的实证验证对于NLP的推进和选择适合研究任务的模型至关重要。尽管在不同的NLP任务中表现出令人印象深刻的表现,但LLM的有效性却各不相同。
作为LLMs4OL的奠基性工作,我们基于建筑学综合选择了3种主要的LLM架构【编码器、解码器和编码器-解码器】、8个不同的模型家族【BERT (仅编码器);Bloom,Metaai ' s Llama,Openai ' s Gpt-3,Gpt-3.5,Gpt-4 ( all Decoder-Only ),和Bart和Google的Flan - T5(编码器-解码器)】,并在本文撰写时报告了最新的性能。
最近的研究表明,BERT在文本分类和命名实体识别方面表现优异,BART在文本生成和摘要方面效果显著,LLaMA在包括推理、问答、代码生成在内的各种NLP任务中表现出了较高的准确率。Flan - T5强调指令调整,表现出强大的多任务性能。BLOOM独特的多语言方法在文本分类和序列标注等任务中取得了稳健的性能。最后,GPT系列以其类人的文本生成能力脱颖而出。在这项工作中,我们旨在首次在LLMs4OL范式下全面统一这些LLMs的有效性。
在这两个实验考虑到位的情况下,我们现在介绍LLMs4OL范式,并强调我们的贡献。LLMs4OL的核心是本体的开发,本体由以下几个原语组成:
在这项工作中引入的LLMs4OL范式,将OL的三个核心方面作为任务,概述为以下研究问题( RQs )。
本文实证检验的多样性不仅在于w . r . t . LLMs所考虑的,也是所检验的本体性知识域。具体来说,我们对词网中的词汇语义知识、Geo Names中的地理知识、UMLS中的生物医学知识、schema . org中的网页内容类型表示进行LLM测试。为了对LLMs4OL进行实证验证,我们抓住机会纳入PubMedBERT ,这是一个专门针对生物医学领域设计的特定领域的LLM,因此只适用于UMLS。这个加法是对前面介绍的8个领域无关模型族的补充,是第九种模型类型。总的来说,我们的主要贡献是:
相关研究主要有三条途径:从文本中学习本体,对知识进行LLM提示,以及LLM提示方法或提示工程。
最早的方法之一利用词汇句法模式从大量非结构化文本集合中抽取新的词汇语义概念和关系,增强了词网。词网是一个词汇库,包括概念词汇本体(名词、动词等。)和词汇语义关系(同义词、上下义词等)。Hwang 提出了一种构建特定于应用领域的动态本体的替代方法。该方法使用代表高级领域类型的种子术语集从非结构化文本中迭代地发现类型和分类法。在每次迭代中,新发现的特殊类型被纳入,算法检测语言特征之间的关系。该方法使用了一个基于继承层次结构和集合运算的简单本体代数。Agirre等人通过从Web文档中提取主题相关的词来增强词网。这种独特的方法增加了主题签名来丰富词网。Kietz等人提出了On-To- Knowledge系统,它使用了一个类似于GermaNet 或词网的通用核心本体作为基础结构。它旨在从企业内部网的文本资源中发现特定领域的本体。对于概念提取和剪枝,它使用了统计术语频率计数启发式,而关联规则用于企业文本中的关系识别。Roux等人提出了一种通过重用已有的领域本体和通过从非结构化文本中提取的动词模式来增强概念的方法来扩展遗传学本体。他们的系统使用了语言学工具,如词性标注器和句法分析器。Wagner 通过对语料库的统计分析来丰富非英语语言中的词网,通过发现关系,为概念添加新的术语,并通过动词偏好的自动获取来获得概念。莫尔多旺和Girju引入文本知识获取( KAT )系统,丰富了词网的金融领域内容。他们的方法包括4个阶段:( 1 )从种子术语集中发现新概念,利用词典扩充概念列表;( 2 )从新概念中识别词汇模式;( 3 )从词汇模式中发现关系;( 4 )利用知识分类算法将提取的信息集成到词网中。在[ 4 ]中,我们提出了一种无监督的方法,使用NER和WSD等NLP技术来增强具有特定领域信息的本体。该方法利用一个通用的NER系统来揭示一个分类等级,并使用WSD来丰富现有的同义词集合,通过查询互联网来获得新的术语,并通过共现频率来消除它们的歧义。Khan和Luo使用聚类技术来发现新的术语,并使用词网进行分类。他们利用自组织树算法,受分子进化的启发,建立了本体层次结构。此外,Xu等人通过一个基于TFIDF的单词术语分类器,一个基于已知关系和搭配的词汇-句法模式发现器和一个利用发现的词汇-句法模式的关系提取器来自动获取特定领域的术语和关系。
迄今为止,OL 的方法主要是基于词汇句法模式的术语和关系抽取以及基于聚类的类型发现。否则,它们建立在基于种子术语的自举方法上。关于这一主题的进一步详细综述,请参阅,以便为OL提供一个全面的总体方法学图景。传统的NLP是由模块化流水线定义的,机器通过在语言、句法和语义层次上逐步配备注释来处理文本。LLMs为AI系统开辟了一个新的可能性时代,这使得模块化的NLP系统不再需要理解自然语言,而我们在这项工作中首次开发了OL任务。
LLMs可以根据自己的知识对事实进行处理和检索,使其成为各种NLP任务的优秀零样本学习器。Prompting LLMs是指输入一个x,使用一个模板函数fprompt ( x ),一个文本字符串提示输入,其中有一些未填充的槽,然后使用LLMs对未填充的信息进行概率填充,得到一个最终的字符串x′,由此可以导出最终的输出y。
LAMA:语言模式分析基准题作为一种探测技术,用于分析单向LMs (即: Transformer-XL )和双向LMs (即: BERT和ELMo )中包含的事实和常识性知识,并从知识三元组中使用完形填空提示模板。他们展示了预训练语言模型( PLMs )在探索事实方面的潜力,其中事实被考虑为主语-关系-宾语三元组或问题答案对- -通过将事实转化为完形模板来查询LLMs,并将其作为LM的输入来填充缺失的令牌。进一步的研究通过自动发现提示、微调LLM以更好地探测,或者从LM中探测知识的纯无监督方式来扩展LAMA。这些研究分析了语言模型对各种语言事实和非语言事实的编码能力。这种分析仅限于预定义的事实,强化了LLMs的传统语言学知识,因此不能反映LLMs是如何学习概念的。针对这一局限性,Dalvi等人提出了探索和检验LLMs学习的潜在概念的建议,为BERT提供了新的视角。他们将概念定义为"一组有意义的词",即可以基于词法、形态等关系聚类的词。在另一项研究中,他们提出了概念X框架,通过将分组概念对齐到人类定义的概念,扩展了他们在潜在空间分析中对七个LLM的研究。这些工作表明,使用LLMs并访问概念的潜在空间,可以使我们将概念分组并对齐到预定义的类型和类型关系发现中。
Prompt Engineering。作为一门新兴学科,提示工程侧重于为LLMs设计最优指令以实现成功的任务绩效。标准提示是指导LLMs的基本方法。它允许用户定制自己定制的"自行设计的提示",以有效地与LLM交互,并提示他们立即对给定的提示指令做出反应,并给出答案。考虑手工制作的FLAN集合以OL以外的多种NLP任务为例。值得注意的是,一些问题的本质自然包含着一个逐步得出答案的思维过程。也就是说,待求解的问题可以分解为一系列前面的中间步骤,然后才能得到最终的解。例如,算术或推理问题。对于可解释性和在某种意义上提供语言模型的"思考时间",帮助它更准确地做出反应,也有先进的即时工程方法。首先,根据思维链( CoT ) 提示方法,提示指令是如此精心设计的,以至于LLM被指导将复杂任务分解为一系列导致解决方案的增量步骤。这有助于LLM循序渐进地推理。ToT通过探索作为LLMs一般问题解决的中间步骤的思维来概括CoT提示。CoT和ToT都是通过中间推理步骤结合小样本或零样本提示来解锁复杂推理能力。解决更复杂任务的另一种方法是使用分解提示,其中我们可以进一步将LLMs难以解决的任务分解为更简单的可解子任务,并将这些子任务委托给特定的LLMs。
考虑到本研究引入的LLMs4OL任务范式,复杂提示并不是首要关注的问题,我们目前的重点是对任务的初步探索,以确定需要进一步改进的领域。我们想了解到目前为止,在研究更复杂的技术,如CoT,ToT和分解提示之前,我们已经完成了多少工作。一旦我们对标准提示设置中模型的能力和局限性有了更清楚的了解,我们就可以通过将OL制定为分步推理任务来考虑标准提示工程方法以外的其他方法。
本体学习的大语言模型(LLMs4OL )任务范式提供了一个概念框架,以加速由领域专家独家构建耗时且昂贵的本体,使之成为一个涉及强大人工智能方法(如LLMs )的公平竞争环境,从而获得高质量的OL结果;因此,理想情况下只有领域专家参与验证周期。理论上,在正确的表述下,所有与OL相关的任务都符合LLMs4OL任务范式。OL任务基于本体原语,包括词条L,概念类型T,类型的层次分类法HT,变态分层结构HR中的非分类关系R,以及一组描述本体的约束和推理规则的公理A。为了解决这些原语,OL任务包括:1 )语料准备- -选择和收集用于构建本体的源文本。2 )术语提取- -识别并提取相关术语。3 )术语类型化- -将相似的术语划分为概念类型。4 )分类学构建- -建立类型之间的' is-a '层次结构。5 )关系抽取- -识别' is-a '以外的语义关系。6 )公理发现- -寻找本体的约束和推理规则。这6个任务组成了LLMs4OL任务范式。所提出的LLMs4OL概念框架见图1。
图1 . LLMs4OL任务范式是一个用于各种知识领域的本体学习的端到端的框架,例如词汇语义学(词网),地理( GeoNames ),生物医学( NCI、药物、SNOMEDCT)和网页内容类型( schema.org )。在这项工作中经验性验证的三个OL任务是在蓝色箭头中描述的,与更大的LLMs4OL范式一致。
在这项工作中,我们使用LLMs作为未来研究的基础,对三个核心的OL任务进行了实证研究。然而,传统的人工智能范式仅依赖显式训练的任务来测试模型,而LLMs并非如此。相反,我们将OL的LLMs测试为"突现"行为,尽管缺乏明确的训练,但它们显示出在广泛的任务上产生响应的能力。解开LLMs突现能力的关键是通过精心设计的提示语来提示他们GPT - 3所推广的知识。正如早期讨论的(见第2节)一样,LLM的提示工程是一个新的AI分支学科。在这个过程中,预先训练好的语言模型接收到提示,例如自然语言语句,就可以生成响应,而无需对其参数进行进一步的训练或梯度更新[ 34 ]。根据潜在的LLM预训练目标,提示语可以设计为两种主要类型:完形提示语,它涉及在不完整的句子或段落中填空,适合掩蔽语言模型的预训练,以及前缀提示,它根据给定的起始短语生成文本,为底层模型提供更多的设计适应性。先前引入的LLMs4OL范式使用各自的提示函数fprompt ( . ) 对三个选择OL任务进行了经验验证。
任务A - -术语类型化。对于一个词汇术语,我们发现了一个广义的类型。
任务B - -分类学发现。在这里,发现了类型对之间的分类层次结构。
任务C - -非分类关系抽取。该任务发现了类型之间的非分类语义变态分层的关系。
为了全面评估上一部分提出的三个OL任务的LLMs,我们涵盖了多种本体知识领域来源。一般来说,在整个任务中,有4个知识域被表示,即词汇语义词网、地理-地名、生物医学-统一医学语言系统( UMLS ),分别被梳理为美国国家癌症研究所( NCI )、MEDCIN 、美国临床术语系统( SNOMEDCT US ) 子本体,以及web中的内容表示- schema.org。
任务a数据集。使用了词网,GeoNames和UMLS的术语。
表1显示了任务A数据集的统计见解,
表1.任务A术语分类数据集统计了三个核心本体知识源,即.词网、Geo Names和UMLS,其中,对于任务A,UMLS仅由NCI、MEDCIN和SNOMEDCT美国亚本体来源表示。还提供了定义任务A本体学习的每个源的独特术语类型。
预留训练数据集用于LLM微调。在11个模型中,我们根据其零样本性能选择了最有前途的模型。在零样本和微调的情况下,使用测试数据集进行评估。
任务B数据集。Geo Names、UMLS和schema . org。测试数据集被构建为类型对,其中一半代表分类等级,另一半不在一个分类学中。
任务C数据集。UMLS。
Task B和Task C数据集的统计结果见表2。
表2.数据集统计为Task B类型分类层次发现和Task C类型非分类变态分层结构发现在相关本体知识源中每项任务的每个报告参数的计数。
全面评估了八种主要类型的领域无关的LLMs,它们在社区中的不同任务中被报道为最先进的。分别是:BERT作为纯编码器架构,BLOOM、LLaMA、GPT - 3、GPT - 3.5 和GPT - 4 作为纯解码器模型,最后是BART 和Flan - T5 作为编码器-解码器模型。
值得注意的是,这些LLMs是以不同的参数大小发布的。因此,根据括号中参数的大小,我们总共评估了7个LLM:1. BERT-Large (340M), 2. BART-Large (400M), 3. Flan-T5-Large (780M), 4. Flan-T5-XL (3B), 5. BLOOM-1b7 (1.7B), 6. BLOOM-3b (3B), 7. GPT-3 (175B), 8. GPT-3.5 (174B), 9. LLaMA (7B), and GPT-4 (>1T)。此外,我们还测试了第十一个生物医学领域特有的模型PubMedBERT [ 18 ]。
在这项工作中,由于我们首次提出了LLMs4OL范式,从某种意义上说,OL是LLMs的一种突现能力,因此在新任务上测试不同的LLMs是非常重要的。评估不同的LLMs支持:
1 )性能比较- -这使我们能够确定哪些模型对OL是有效的;
2 )模型改进- -针对OL可以确定模型需要改进的地方;
3 )研究进展- -通过测试和比较不同模型的结果,对OL感兴趣的研究人员可能会发现新的研究领域,并开发改进LLMs的新技术。
任务A:1时刻的平均精度均值( MAP @ 1),衡量了一个LLM返回的排名前1的术语类型对于从评估集中初始化的提示的平均精度。
任务B和任务C:基于精确率和召回率的标准F1分数。
见表3。
在11个LLMs中的零样本结果和微调的Flan - T5 - Large和Flan - T5XL LLMs结果报告了本体学习任务A ( MAP @ 1中的术语分类)和任务B (类型分类发现)以及任务C (类型非分类关系提取)的F1分数。结果以百分比表示。
结果仅针对UMLS给出。我们首先检验了零样本情形下的结果,即对于盒外评估的LLMs,w.r.t.3个RQs。
RQ1:LLMs对任务A的有效性如何,即自动类型发现?
91.7% WordNet by GPT-3.5 > 39.4% GeoNames by GPT-4 > 37.7% SNOMEDCT US by BLOOM-3b > 29.8% MEDCIN by BLOOM-3b > 16.1% NCI by GPT-4.
RQ2:LLMs识别一个类型分类法,即类型之间的' is-a '层次结构的有效性?
对于术语分类发现而言,LLMs在生物医学领域的零样本设置中被证明是最有效的。
78.1% UMLS by GPT-4 > 74.4% schema.org by GPT-3.5 > 67.8% GeoNames by GPT-3.5
注意到这三个GPT模型不是开源的,因此我们用付费订阅的方式对它们进行了测试。
对于开源模型,结果概览为:
Flan-T5-XL:64.3 % UMLS > Flan-T5-XL:59.6 % Geo Names > Flan-T5- Large:54.8 % schema . org。
RQ3:LLMs如何有效地发现类型之间的非分类关系?
其中以Flan - T5 - XL的效果最好,为49.5 %。我们认为这在相当大的7537个类型对的集合上是一个相当好的结果,这些类型对是真正的非分类关系,或者是错误的。
最后,在LLMs4OL范式下考虑的所有3个任务中,术语类型化被证明是最难获得最低总体结果的,尤其是在生物医学领域。
GPT、Flan - T5和BLOOM变体的得分分别随着参数的增加而提高。这对于闭源GPT模型是成立的,即. Gpt-3 ( 175B )和Gpt - 3.5 ( 175B )到Gpt - 4 ( > 1T )和Open - Sourceced模型,I.E. Flan-T5-large ( 780M )到Flan - T5 - XL ( 3B )和bloom from 1.7B to 3B。
因此,随着LLM参数数量的增加,我们似乎可以预期OL的改进。
我们的零样本测试结果表明,虽然LLMs对OL似乎很有前途,但它们需要任务特定的微调才是实际可行的解决方案。我们采用"指令微调"的方法作为FLAN集合,这是目前唯一已知的系统解构的、有效的LLM微调方法[ 35 ]。为了进行微调,我们选择Flan - T5 LMM有两个原因:1 )它是开源的:我们打算为不隐藏在支付墙之后的模型提供未来的研究方向,以帮助LLM研究的民主化;2 )它在所有任务中都表现出一致良好的性能。微调指令从每个知识源的预留训练集的8个样本中进行小规模的实例化,并以图2所示的微调工作流程进行反馈。
图2.举例说明了LLM在本体学习任务上的微调工作流程
微调后的Flan模型的结果(见表3最后两列)在几乎所有任务中都得到了显著的提升。对于任务A,我们观察到两个Flan - T5变体从零样本到微调模型的平均改进为25 %。值得注意的是,SNOMEDCT US的改善幅度最小,为9 %,而词网的改善幅度最大,为45 %。对于任务B,平均提高了18 %,对于任务C,平均提高了3 %。对? ?中的结果进行了说明,在三个OL任务中,平均而言,即使使用较少的参数,微调后的模型也优于使用1000倍或更多参数的模型。这些见解对于加快我们计划在未来工作中利用LLMs的OL实用工具的开发性研究进展显得至关重要。
各种倡议对LLM的绩效进行了衡量,揭示了新的任务能力。这些基准促进了计算机科学对LLMs的理解。通过我们提出的概念框架LLMs4OL,我们探索了LLMs在本体学习中的潜力。在3个OL任务的11个LLM上的大量实验证明了该范式的概念证明。我们的代码库便于复制和扩展用于测试新的LLM的方法。我们的实证结果有望为OL的未来工作铺平道路。
LLMs在OL领域的未来研究方向可以集中在几个关键领域。
首先,需要增强专门用于本体学习任务的LLMs,探索新的架构和微调,以更好地捕获本体结构。
第二,将评估扩展到涵盖当前工作所考察的知识领域之外的其他各种知识领域,将为LLMs的可推广性提供更广泛的理解。
第三,将LLMs与传统本体学习技术相结合的混合方法,如词汇-句法模式挖掘和聚类相结合的混合方法,可以得到更加准确和全面的本体。
第四,进一步的研究可以深入到特定语义关系的提取,如部分-整体关系或因果关系,以增强学习到的本体的表达能力。
规范评价指标、创建基准数据集、探索动态本体演化、面向领域的学习是重要方向。此外,将人在回路的方法与专家参与相结合将提高本体的相关性和准确性。探索这些研究方向将推进基于LLM的本体学习,增强跨领域的知识获取和表示。
创作不易,您的鼓励是我创作做大的动力!!!点个关注再走呗~