技术动态 | 面向知识图谱构建的电子战领域语料库建设

转载公众号 | 专知


本文发表于《指挥信息系统与技术》2023年第2期

作者:王 航,张宏军,程  恺,徐有为,申秋慧,李大硕

引用格式:王航,张宏军,程恺,等.面向知识图谱构建的电子战领域语料库建设[J].指挥信息系统与技术,2023,14(2):69-75.

简介

语料库构建是领域知识图谱构建的基础步骤和关键环节,高质量的语料能够提高知识抽取和知识推理等任务的准确率和置信度。目前,电子战领域尚无公开的语料库,这也成为了电子战领域知识图谱构建的难题之一。鉴于此,提出了一种基于领域本体的电子战领域语料库构建方法。试验结果表明,该方法可较好完成语料库构建工作,有助于电子战领域的知识体系梳理及语料库建设,可为电子战领域知识图谱构建提供支撑。

0

引言

电子战领域指涉及使用电磁能、定向能和水声能等技术手段,确定、扰乱、削弱、破坏和摧毁敌方电子信息系统与电子设备, 确保己方电子信息系统与电子设备的正常使用而釆取的各种战术技术措施和行动的专业领域。电子战作为现代战争重要的作战手段,其数据资源规模大且专业性强,而领域知识图谱构建能够充分利用数据资源,为电子战领域情报处理和频谱管控等提供支撑。面向知识图谱构建的电子战领域语料库指内容涉及电子战领域并且可提供知识图谱构建所需基础语料的语料库,包括经过处理的未标注和标注语料。

高质量语料库是知识图谱构建与运用的关键和基础,目前通用领域的语料库构建较成熟,学术界和工业界具备的大规模标注数据可支撑知识抽取和知识推理等知识图谱构建技术的研究与应用。但随着专业领域对挖掘数据深层关系的需求不断增强,通用型知识图谱已无法支撑专业领域智能应用,因此构建垂直领域知识图谱成为各专业领域的迫切需求。参考军事领域语料库构建方法,有助于对专业性较强的电子战领域语料库建设进行研究。周彬彬等针对军事语料实体,提出了一套统一的军事词性标记规范和军事语料标注规范,设计了一种基于军语词典的军事语料实体特征提取框架;冯鸾鸾等以维基百科中军事领域的新技术为基点采集语料,制定了一系列军事技术文本的标注规范,并通过人工标注方式构建了面向国防科技领域的技术和术语语料库。以上研究虽然表明利用自动标注方法构建高质量大规模语料库是可行的,但由于不同领域的语料库和语料库构建方法具有其领域特性,使得这些方法难以移植到电子战领域知识图谱构建中,因此需构建电子战领域语料库以进行面向知识图谱构建与研究。

针对现有研究并面向知识图谱构建的语料库建设需求,本文提出了一种基于领域本体的电子战领域语料库构建方法(本文方法)。设计了电子战领域知识本体,明确了领域知识的边界和层次结构;设计了基于领域词典的电子战领域源生数据获取方法,将从互联网爬取的电子战领域新闻、百科词条和学术论文等非结构化文档作为条令条例、理论著作和战例想定等现有文本资料的补充;根据领域本体设计标注体系,通过标注少量高质量语料形成种子语料,并通过自动标注算法迭代获取更多的标注语料,实现了电子战领域语料库建设以及语料库统计分析。

1

总体框架

语料库建设包括以下2个步骤:1) 源生数据建设:包括原始文本资料获取和原始语料生成;2) 数据资产建设:包括种子语料人工标注和联合语料自动标注。需说明的是,原始文本资料来源于互联网中电子战相关的学术论文、百科词条和新闻等公开资源,而领域本体构建用于指导数据资产建设。语料库构建方法总体框架如图1所示。

技术动态 | 面向知识图谱构建的电子战领域语料库建设_第1张图片

图1 语料库构建方法总体框架

语料质量是语料库构建的关键,低质量语料会对下游任务产生负面影响,因此从采集到形成数据资产的整个生命周期中均需保证数据具有较高质量。为确保数据在每个步骤中的可用性、一致性、完整性、合规性和安全性,需对数据的基本信息、状态和关联关系等进行管理。数据资源管理框架如图2所示。

技术动态 | 面向知识图谱构建的电子战领域语料库建设_第2张图片

图2  数据资源管理框架

2

电子战领域本体构建

电子战领域本体是对电子战领域概念的一种描述,是该领域内公认的概念集合。由于知识具有显著的领域特性,因此领域本体可更合理而有效地进行知识表示。将本体方法融入语料库构建过程,建立电子战领域知识体系,明确语料库包含语料的边界、分类和层次结构,形成统一的电子战领域语料标注规范,从而确保语料库建设的一致性和规范性。

2.1 本体构建方法步骤

目前,本体构建尚无统一标准,现有本体构建方法依据涉及的领域和具体工程而不同。经典的本体构建方法包括数据建模集成定义(IDEF5)法、七步法、多伦多虚拟企业(TOVE)法、骨架法、Methontology法和五步循环法等。本文参考七步法的原则进行本体设计,并根据实际需求适当简化。图3给出了采用统一建模语言(UML)描述的电子战领域本体构建步骤。

技术动态 | 面向知识图谱构建的电子战领域语料库建设_第3张图片

图3  电子战领域本体构建步骤

2.2 电子战领域本体内容

电子战领域本体包括领域内的概念、关系、属性、公理和函数。由于原始资料主要来源于互联网新闻,语料中蕴含的知识偏向于领域实体间的相互作用,因此本文根据性质和功能对电子战领域概念和关系进行了分类。图4给出了概念关系分类示例。

技术动态 | 面向知识图谱构建的电子战领域语料库建设_第4张图片

图4  概念关系分类示例

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复或发消息“KGEC” 就可以获取《面向知识图谱构建的电子战领域语料库建设》专知下载链接


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

技术动态 | 面向知识图谱构建的电子战领域语料库建设_第5张图片

点击阅读原文,进入 OpenKG 网站。

你可能感兴趣的:(知识图谱,人工智能,大数据)