如今,越来越多的企业想要在电商客服、法律顾问等领域做一套包含行业知识的智能对话系统,而行业或领域知识的积累、构建、抽取等工作对于企业来说是个不小的难题,百度大脑UNIT3.0推出「我的知识」版块专门为开发者提供知识建设帮助。在行业智能化的实现进程中,通过知识图谱对数据进行提炼、萃取、关联、整合,形成行业知识或领域知识,让机器形成对于行业工作的认知能力,并把这些认知能力与技能理解模型进行整合,从而实现这个行业的知识型对话系统。
【认知与对话智能】
首先举个简单的例子,让大家直观感受一下认知与对话智能:
小明:[演员]是做什么的?
小吴:是指专职演出,或在表演艺术中扮演某个角色的人物
小明:[周杰伦]是做什么的?
小吴:歌手
以上,直观展示了即使是句式一致的两句话,人类能区分出前者是“名词解释” 意图,后者是“询问工作” 意图。小吴能做到如此,是因为他积累了很多知识,而这些知识帮助他在日常交流中更好的理解、决策、答复。
对应的,人机对话流程中涉及的语言理解、对话决策、信息查询、语言组织等重要环节,都需要语言知识、世界知识以及必要的领域知识的指导。其中,知识图谱(Knowledge Graph,KG)是应用最为广泛的知识表示形式之一。知识图谱以图谱的形式描述真实世界的实体及其内在关系,用模式定义可能的类和实体关系,允许任意实体彼此潜在相互关联,并涵盖各种主题领域。
在UNIT平台中,知识图谱的具体应用可划分为三种模式:
1) 第一种模式对应问答型对话系统,该类对话系统将知识图谱视为答案信息来源,通过对话理解将用户问题转化为对知识图谱的查询,直接得到用户问题的答案。
2) 第二种模式将知识图谱视为用于对话理解的知识源,借助知识图谱中元素的属性及关系,为用户话语和对话上下文的语义理解提供辅助。
3) 第三种模式对应主动对话场景,借助知识图谱中概念、属性 和关系之间的关联,通过话题推荐等策略实现对话过程的主动引导。
【知识图谱技术解读】
UNIT-我的知识总体组成如下:
平台:UNIT为托管知识图谱提供了的整套平台化支持。
算法:提供了图谱生产和应用环节的一套丰富的高质量算法。
架构:包含图谱生产架构,图谱存储架构,图谱算法架构,图谱应用架构。
UNIT知识图谱的核心技术包括知识表示、知识抽取、知识消岐与融合、知识存储。
1. 知识表示:
知识表示要解决的核心问题是知识建模,也就是建立行业知识图谱的数据模式,以及对整个知识图谱的结构进行定义。可采用三种方式对行业知识体系进行定义:
1) 自顶向下,即完全由专家在平台上进行专业化编辑生产。
2) 自底向上,基于行业现有的标准进行转换或者从现有的高质量行业数据源(如业务系统数据库表)中进行映射。
3) 通用引入,基于百度积累多年的KG Schema,由行业图谱生产者在平台fork引用,形成行业schema的基础骨架。
百度知识图谱数据描述规范使用W3C RDF协议定义作为基础协议,采用JSON-LD标准组织描述语言,包含如下要素:
1) Class类:实体的种类,定义一种类型的实体。
2) Property属性:表示不同数据源中针对实体的描述,形成对实体的全方位描述。
3) Relation关系:利用关系来描述各类抽象建模成实体的数据之间的关联关系,从而支持关联分析。
4) Constraint约束:一个属性在特定类下面的约束,为属性增加多态和重载的特性。
5) Datatype数据类型:描述一个属性的数据类型。
6) Subclass概念上下位:描述Class的从属上下位概念关系。
KGSchema支持复合类型的属性值,用以增强三元组表示方式的语义表达能力,例如可以表达时序,空间等复杂知识。
2. 知识抽取:
百度知识图谱的知识抽取能力,从百度对万亿级的互联网资源图谱化而建立的抽取能力而来。能力栈上分为三个层次:结构化抽取,半结构化抽取,以及非结构化抽取。
1) 结构化数据指规范化良好的关系数据库,知识图谱已实现基于成熟D2R技术的可视化工具用于这类数据的转化。
2) 半结构化数据主要指表格、半结构的kv等有一定结构的数据,目前知识图谱已实现基于schema的表格(主要技术是根据schema自动识别表格结构)和半结构化文本自动抽取模块。该项技术已经在多个行业场景中实际落地。
3) 无结构化自由文本知识抽取,采用通用数据预训练+具体场景迁移的技术思路解决行业样本稀疏的问题。预训练阶段主要是基于百度在通用知识图谱构件上积累的大量标注样本,训练文本分类模型与序列标注模型,用于标注出现在文档段落中的SPO。
3. 实体消岐与融合:
行业数据往往存在多来源,多渠道的特型,不同来源渠道对同一实体的表述往往不尽相同,由于不可能为每个名称分配唯一的标识符,所以在许多情况下,如果人们使用名称来识别指定的命名实体,则可能会导致混淆,为了提升知识图谱的质量以及语义密度,提供了一套知识融合消歧算法以及配套的策略迭代方法,来解决行业数据的融合消歧问题。
融合与消歧涉及两种知识操作:
1) 关联,给定实体(集)、知识库KB,完成实体的辨识、建立与KB中实体的等价链接、及NIL判断。其中,“等价”是指两实体指代现实世界中同一事物或概念、“NIL”表示实体在KB中不存在。
2) 归一,给定实体集合,完成相同实体的分组聚合。其中,“相同”定义为待归一的实体指代了现实世界中同一事物或概念。
【如何在UNIT平台构建自己的知识图谱】
UNIT对话系统的核心能力包含语言理解、对话流程管理和知识建设。“我的知识-图谱/问答知识库”是知识建设能力的重要组成部分,为开发者提供了知识挖掘与管理工具。这些积累的知识可用于提高模型理解能力、完善对话管理能力、实现对话系统的知识建设闭环。
现在,只需3步就能在“我的知识——图谱知识库”定义和构建您的知识图谱:
第一步,在“知识定义”页面导入我们为您准备好的类目文件模板:https://unitweb.cdn.bcebos.com/图谱知识库快速上手类目文件模板.zip
第二步,在“我的数据”页面上传我们为您准备好的数据源文件:https://unitweb.cdn.bcebos.com/图谱知识库快速上手数据源文件.zip
第三步,在“图谱构建”页面点击“开始构建图谱”,等待构建完成。
接下来,您就可以预览查看相关数据,完成快速体验。
【整合技能与知识】
在UNIT中,知识与技能整合的方式如下:
1) 提炼萃取行业知识:定义自己的图谱知识结构,上传知识源文档,挖掘实体、属性、属性值;
2) 让技能更好地理解:导出图谱知识库里的各种属性值作为对话技能的词槽词典值;
3) 让技能更聪明地对话:在对话技能中使用Taskflow配置(云端对话流程管理模块,可实现复杂对话流程的管理 )查询实体、属性值,进行流程控制或作为答复内容。
后续UNIT平台会提供更多“技能+知识”的整合方案,也将帮助各位开发者持续探索并打造对话技术进入工业级落地的各项基础条件。
相关文章阅读:
百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力
百度大脑UNIT3.0详解之语音语义一体化方案
百度大脑UNIT3.0详解之数据生产工具DataKit