转载公众号 | 语义增强可编程图谱框架
本文内容整理自《知识语义框架SPG》白皮书,白皮书下载请点击文章底部【阅读原文】,或访问SPG官网:spg.openkg.cn
8月27日,在全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing,CCKS)上,由SPG联合发起人同济大学特聘研究员王昊奋、蚂蚁集团知识引擎负责人梁磊及核心参编单位同济大学、天津大学、恒生电子股份有限公司、浙江创邻科技有限公司、达观数据有限公司、海乂知信息科技(南京)有限公司、浙江大学、之江实验室、中国科学院计算技术研究所联合发布了《语义增强可编程知识图谱(Semantic-enhanced Programmable Graph)白皮书》(下称SPG白皮书)。
表1 图谱面临的技术挑战
白皮书首先介绍了企业数字化基础设施面临的挑战,在企业的数字化过程中,积累了海量的数据,需要持续为用户创造价值以及实现高效的经营管理和风险控制。这为知识图谱(Knowledge Graph, KG)、大语言模型(Large Language Model, LLM)等AI技术提供了多样化的应用场景,同时也带来了新的机遇和挑战。企业需要建立应用友好的数据管理范式,以明确语义、消除歧义、发现错误;以连接数据孤岛以增强跨部门复用,实现高效的协同;以支持AI技术的高效利用以发现更多隐含关联,同时也可以为LLM提供更充足有效的领域知识库。知识图谱作为一种图结构化、语义化、逻辑依赖的知识建模方式,收到了较多的行业期待。无论是作为新一代企业级知识管理范式,还是解决大模型幻觉及复杂推理不足等问题,都有比较广阔的应用场景。
白皮书指出,知识图谱作为一种建模和管理数据的方法,已经在企业数字化过程中发挥了重要作用。然而,随着企业对知识图谱的需求不断增加,传统的知识图谱技术面临着一些挑战。知识图谱自身技术框架的发展和对其在新知识数据管理范式、大模型的双轮驱动的期待并不完全匹配,图谱技术的发展也需要与时俱进。首先,缺乏工业级统一的知识建模框架。尽管资源描述框架(Resource Description Framework, RDF)/Web本体语言 (Web Ontology Language, OWL)这种强语义、弱结构的技术框架已经发展多年,但并未出现成功的企业级/商业化应用。相反,强结构、弱语义的属性图 (Labeled Property Graph, LPG)成为了企业级应用的首选。其次,缺乏统一的技术框架,导致跨领域迁移性较差,由于工具繁多、链路复杂,每个领域的图谱构建都需要从零开始。如表1所示,在应对复杂的业务场景和大规模数据时,传统的知识图谱技术存在一些局限性。
然而,任何复杂技术的大规模产业化应用都需要统一的技术框架,以屏蔽复杂的技术细节以实现跨场景迁移性支持新业务的快速部署。蚂蚁知识图谱团队通过多年业务实践的总结,提出了新一代知识语义框架SPG,充分借力LPG的结构性与RDF的语义性实现可编程范式的知识引擎架构,支持各领域图谱的高效构建和跨领域的知识语义对齐。
白皮书中通过蚂蚁集团、恒生电子联合梳理的黑产图谱、事理图谱两个案例,详细介绍了业务应用中知识管理所面临的问题。并介绍随着业务的快速发展和知识体量的大幅增加,基于属性图知识管理的弊端逐渐显露。
首先,结合主体类型颗粒度差异、跨图谱冗余定义、属性/关系自适应等介绍结构定义与语义表示耦合带来的异构性和复杂性问题。
其次,结合事件超图、事理传导与结构依赖等,说明了传统知识图谱在知识多元异构及事理顺承、组合、结构、逻辑依赖等表达上的不足,并结合恒生事理图谱提出了如图1所示四象限模型要求。
第三,结合数据要素间的逻辑依赖、逻辑依赖风险传导等问题,介绍了知识间逻辑依赖带来的一致性和传导推理问题。
此外,朴素的属性和关系模型难以刻画事物的内在语义和事物之间的语义依赖,这导致图谱Schema不断膨胀,最终变得难以维护。在业务应用阶段,不得不添加大量硬编码来实现业务语义的解析和对齐。
图 1. 事理图谱四象限
为了解决这些问题,白皮书在第3、4、5、6、7章提出了SPG的解决思路和整体框架抽象,并在第9章中提供了基于SPG的两个案例的完整方案。
SPG充分融合了RDF/OWL的语义性和LPG的结构性,具有语义简洁和大数据兼容的优势。该框架能够实现知识动态到静态自动分层、领域内知识的唯一性和知识之间的依赖关系定义。同时,SPG框架还提供了可编程的范式,支持快速构建新的领域图谱和跨场景迁移。在解决典型问题和场景方面具有广泛的应用价值。举例来说,在黑产图谱和产业链事理图谱中,SPG框架可以帮助企业更好地识别和应对黑灰产,提高风险防控能力。在知识推理和智能问答方面,SPG框架可以提供更加准确和可解释的推理结果,提升用户体验和决策效果。针对企业级业务场景的应用特点,SPG框架抽象出了基于属性图的语义表示框架。
如图2所示,该框架明确定义了"知识"的形式化表示和可编程框架,使其可定义、可编程,机器可理解和处理。同时,SPG实现了知识层级间的兼容递进,支持工业级场景下非完备数据状态的图谱构建和持续迭代演化。最后,SPG框架有效衔接大数据与AI技术体系,支持对海量数据进行高效的知识化转换,帮助提高数据价值和应用价值。
图 2. SPG知识语义框架
SPG-Schema章节由天津大学和蚂蚁集团联合完成,结合SPG DC主体分类模型扩展与SPG Reasoning逻辑谓词语义扩展两个方面详细介绍。首先,在大数据表Schema定义或大数据表字段定义基础上扩展主体模型是最直接、最灵活的,将大数据表模型的列字段定义或字段定义映射到SPG主体模型的类型、属性、关系表达,通过映射将多源异构的数据表映射到非完备状态的主体结构。然后,再基于非完备状态的主体结构持续迭代演化并实现逻辑谓词语义的扩展。如图3所示,在这个过程中,SPG充分借鉴了ρdf最小可用集及OWL逻辑谓词能力,定义SPG主体模型最小语义单元并扩展SPG在谓词语义、逻辑规则等方面的表达。
图 3. SPG-Schema语法语义分层图
SPG 的核心目标是构建基于SPG 的标准化知识引擎架构,给领域图谱构建提供明确的语义表示、逻辑规则定义、算子框架(构建、推理)等,支持各厂商可插拔的适配基础引擎、算法服务,构建解决方案等。如图4所示,通过SPG可以实现离散实体要素深度语义网络化,支持稀疏关系自动补全显性稠密化;能够加速企业海量数据知识化集成,无缝衔接AI技术框架应用落地;能够实现跨图谱的零拷贝融合,连接数据孤岛加强复用。
图 4. SPG的主要能力模型
为实现对属性图的高效适配,创邻科技结合SPG语法实际执行过程的实现,详细梳理并定义了SPG的推理和计算转换到实际的LPG系统中执行的模块SPG-Engine。SPG底层依赖通常包括图存储、图查询、图计算等基础能力,这样的底层能力通常是由LPG的图服务厂商提供的。按照SPG语义下的图模型定义、图数据导入、图查询和计算等功能模块进行划分,结合SPG2LPG Translator Schema转换、SPG2LPG Builder知识构建、LPG2SPG Executor知识计算等分别给出了如何对接到底层LPG处理系统的方式。
由PlantData联合梳理定义了SPG-Controller,本模块作为SPG框架的控制层主要负责统一分析、调用和管理服务和任务的执行。作为SPG框架的核心枢纽,它与其他模块之间紧密关联,共同完成从用户输入到结果返回的全任务流程。SPG-Controller通过从SPG-LLM或SPG-Programming接收请求,进行解析编译并生成任务规划,对任务进行分发和调用,选择对应的能力来完成具体执行过程,包括从注册部署的SPG-Engine、SPG-Index或外部能力中选择对应的Runtime。
自2022年底以来,ChatGPT、GPT4等大模型掀起了人工智能的新浪潮,但当前大模型仍然存在知识幻觉性、复杂推理谬误和计算成本高等问题。符号化知识图谱的技术体系作为大模型的补充,可以实现可控的内容理解和内容生成,为大模型产业落地提供正确的领域知识和复杂推理能力的支持。有效结合知识图谱和大语言模型各自的优势,充分发挥各自的特长,可以提供更优质的人工智能服务和产品。
白皮书也以达观数据的案例为基础介绍了大模型与知识图谱联动的知识抽取、基于大模型的领域知识补全及自然语言知识查询与问答等,并指出将自然语言交互和知识图谱结合,形成可控、可信、可靠的问答,解决大模型自身所无法解决的“幻觉”问题,为产业应用解决“最后一公里”实现落地。
如图 5所示,白皮书最后展望了SPG与LLM双向驱动的技术架构。通过基于SPG构建统一的图谱技术框架,可以屏蔽复杂的技术细节以支持新业务的快速部署,真正实现知识图谱技术的框架化、平民化、普惠化。同时,知识图谱强事实、弱泛化、可解释性强、计算成本低、构建成本高的特点,可以与大模型弱事实、强泛化、可解释性差、计算成本高、语义理解强形成完美互补。通过统一的知识符号表示和引擎架构和大模型形成高效的联动和互补,通过大模型技术进一步降低图谱构建成本加速数据知识化,也为大模型的可控生成提供更多领域知识的补充。
图 5. 未来SPG与LLM双驱技术范式与框架
白皮书指出,本次为SPG白皮书的1.0发布,未来会持续升级,包括能力开源。预计SPG编程框架会在2.0重点发布,详细发布计划见表2。
表 2. SPG未来发布计划
如下为《SPG白皮书》目录结构摘要,如需获取全文,请点击文章底部【阅读原文】(PC端可访问SPG官方网址spg.openkg.cn进行下载)。
欢迎大家关注SPG微信公众号,持续获取白皮书最新进展。我们希望通过这份白皮书,能够为读者提供一个全面了解 SPG 框架的机会,并激发更多的讨论和合作。期待产研各界同仁的讨论交流和批评指正,共建新一代工业级知识语义框架与引擎!
来源:蚂蚁集团 X OpenKG
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。