智慧城市知识图谱模型与本体构建方法
臧根林1,2, 王亚强1,2, 吴庆蓉1,2, 占春丽1,2, 李熠3
1 拓尔思知识图谱研究院,广东 广州 510665
2 广州拓尔思大数据有限公司,广东 广州 510665
3 湘潭大学,湖南 湘潭 411105
摘要:针对目前智慧城市建设过程中,数据资源共享不足、人工智能应用落地困难等问题,基于知识图谱的资源描述框架、本体知识体系载体、数字孪生的思路,提出一种以自然人的数据为核心的智慧城市知识图谱模型,并提出了支撑该模型的多领域知识图谱本体和子本体的构建思路。创新性地提出了“天地人”的模型思路,为智慧城市的数据如何服务城市居民生活、如何让更多人工智能算法模型在智慧城市应用中落地提供一定的参考。
关键词: 智慧城市 ; 知识图谱 ; 多领域 ; 本体构建
论文引用格式:
臧根林, 王亚强, 吴庆蓉, 占春丽, 李熠.智慧城市知识图谱模型与本体构建方法.大数据[J], 2020, 6(2):96-106
ZANG G L, WANG Y Q, WU Q R, ZHAN C L, LI Y.BModel and construction method of the ontology of knowledge graph of smart city. Big Data Research[J], 2020, 6(2):96-106
1 引言
智慧城市已经成为一种城市发展理念。据统计,目前100%的副省级城市、89%的地级以上城市、49%的县级城市已经开展智慧城市建设,累计参与的地市级城市数量有300余个。城市管理运营包含民生、交通、教育、医疗、维稳等几十个方面,在智慧城市概念被提出之前,它已经经历了电子化阶段,被称为电子政务、电子警务等。IBM公司最早在2009年提出智慧城市的概念,中国于2011年开始在宁波、上海等城市探索智慧城市建设。
随着物联网、云计算、大数据等技术的发展,智慧城市建设从感知智能到认知智能逐步提升。5G技术的应用将加快提升城市的感知能力,数据采集更快、更多、更全。数据包含了文字、图像、音视频等多模态,要把这些数据用好,需要把这些数据组织成大型的知识库,并将其作为智慧城市的基础资源。河南财经政法大学的姬溶婧从中国知网中选取了893篇文章分析后,得出知识图谱是近10年智慧城市的研究热点。
由于知识图谱以资源描述框架(resource description framework,RDF)的形式对知识体系和实例数据进行统一表示,并可以通过对齐、匹配等操作对异构数据进行集成和融合,在语义搜索、问答系统、智能客服、个性化推荐等应用中占有重要地位。知识图谱技术在商业智能、智慧医疗、智慧司法等智慧城市各领域中具有广阔的应用前景。
设计一个基于知识图谱技术的智慧城市数据模型,使城市大数据有效地为城市服务,是很有意义的事情。事实上,现有的智慧城市建设存在很多问题,例如各个部门之间的数据共享问题,虽然大家都希望实现数据集中采集、多处共享,但目前还没有城市能真正做到这一点。例如,各个医院的病人化验数据目前只能保留在本医院,而从理论上说化验结果是属于患者的个人数据,无论患者在哪家医院就诊应该都可以使用,但现实中并没有做到。政府部门之间的数据“烟囱”现象依然很严重,虽然有顶层设计、总体设计,但是大部分还是各自为政,系统之间的协调共享不足。如果建立一层不与具体行业或业务紧密相关的数据层,并用图结构的数据格式表达,则可以更好地解决城市数据共享问题,更利于人工智能的很多算法模型的应用。
本文针对中国目前智慧城市建设现状,提出一种智慧城市知识图谱模型思路,并研究了针对该模型思路的本体(ontology)构建方法。城市数据的核心是关于自然人的数据,城市的智慧教育、智慧医疗、智慧民生等都是围绕着自然人的数据开展的,因此智慧城市知识图谱建设的核心问题是构建以城市自然人为核心的本体,同时构建民生、教育、医疗等领域的子本体,形成多领域多模态的知识图谱结构,实现智慧城市知识图谱的应用生态。
智慧城市的建设应该将市民对美好生活的需要放在首位,同时积极鼓励市民参与智慧城市的建设。市民参与有助于提高智慧城市建设政策与规则制定的透明性与可行性,可以在一定程度上减少推行与实施的阻力,有助于准确定位智能服务开发与设计的功能,成功促进市场商业化,帮助智慧城市建设获取更准确和成本更低的城市信息。
理想的智慧城市模型应该是现实中运行着一个城市,网络上运行着一个对应的数字城市。现实城市运行中产生的各种数据,都能实时映射到数字城市,即数字孪生。而数字城市通过人工智能的模型算法,及时反馈优化现实城市的运行。目前不少城市已经把数据抽取到城市大数据中心,也实现了局部智慧,但数据结构设计仍模拟现实城市。目前大部分的智慧城市结构如图1所示。
数字城市应该从具体的事物中抽象出来,重新组合数据,形成新的数据结构S,这种结构可以通过知识图谱的实体、关系和属性这3个要素描述和存储,即S={E,R,F}。
一个自然人的数据如果按照从出生到死亡的垂直时间轴显示,就像一棵树,树根信息是出生之前的数据:父亲信息、母亲信息、出生地信息等。随着年龄增加,“树”同步长高,大的“树枝”包括上学信息、婚姻信息、子女信息、就业信息等。如果一个城市有500万人口,每个人对应一棵“信息树”或者叫“数字人”(数字人示意如图2所示,数字家庭示意如图3所示),整个城市形成的数据可以被称为“数字森林”。
图1 大部分的智慧城市结构
图2 数字人示意
图3 数字家庭示意
“数字森林”是数字城市的核心数据。“数字森林”下方是支撑“数字森林”存活的基础数据,也就是维持一座城市正常运行的基础信息,如道路交通、医院、学校、企业、文化等,如同森林下面的土地;在对森林进行管理和维护时,有的树木应该多浇水施肥,有的树木应该除虫喷药。同理,城市里有些老弱病残等群体需要救助,而有些“害群之马”需要被清除,这些由城市的监管、服务功能形成的数据和事件就相当于数字森林上方的天空。“天人地”3层结构构成了“数字城市”的整体架构,这样的架构加上相应的人工智能(artificial intelligence,AI)算法,形成了智慧城市的智脑。知识图谱技术正是实现这个数字城市的最佳技术。知识图谱本质上是一个以图数据结构等技术为载体,描述客观事物及其关系的大型知识库。在具体实现上,知识图谱用语义网中的资源描述框架对知识体系和实例数据2个层面的内容进行统一表示,共同构成一个完整的知识系统(KS)。通过城市里面的实体构建城市的知识图谱,并且在图谱中描述关系方向、强度、时序等信息。智慧城市知识图谱模型示意如图4所示。智慧城市知识图谱模型与原来系统的关系示意如图5所示。
图4 智慧城市知识图谱模型示意
图5 智慧城市知识图谱模型与原来系统的关系示意
图5中左边是目前大部分智慧城市的数据结构,通常在智慧城市各具体模块之外建立大数据资源池,即大数据中心,右边是本文提出的知识图谱模型。智慧城市知识图谱模型并不是取代原来的智慧城市大数据资源池,而是在原来的大数据资源上,经过本体设计,对数据属性F和关系R进行RDF形式描述,增加一层新的基于知识图谱结构的数据服务,这层数据将会和人工智能算法模型更紧密地结合。这种知识图谱模型和一般的智慧城市大数据中心的区别在于以下3点。
● 以人为本的设计思路,让智慧城市更好地围绕为人服务展开。一般的大数据中心把自然人信息、法人信息、地理信息、经济运行信息等都放在一个层面上,没有形成以人为核心的数据架构。
● 数据不与具体业务挂钩,而是在对城市大数据进行属性分类、关系分析之后提取更高层面的知识库,利于真正的数据共享。
● 结合图数据库技术及语义网描述体系、标准和工具,便于计算机系统对大规模知识系统进行存储与检索计算,便于人工智能模型之间的有机结合,特别是在语义搜索、智能客服、问答系统等方面的应用。
智慧城市知识图谱模型需要相应的本体支撑。本体源自西方哲学,描述世界上的客观存在。比较流行的本体概念是美国斯坦福大学知名学者Gruber提出的,即本体是关于某个实体概念体系的明确规范的说明。知识图谱对知识数据的描述和定义被称为知识体系(schema)或者本体。本体是重要的知识库,知识图谱的本体O KG包括对象的类型T(E)、属性的类型T(F)以及关系的类型T(R),具体可表示为:
对象根类型BT(E)的分类是构建领域知识图谱的基础工作,而现有流行的公共知识库并没有按照领域数据的特点分类,唯一的根类型就是实体,这给领域知识表达带来了缺陷,无法完整表达文本、视频图片等知识和它们的关联。领域知识图谱本体的对象根类型BT(E)除了实体类型Tentity,还应增加事件类型Tevent、文本类型Ttext和多媒体类型Tmultimedia,基于上述4种实体类型,对象根类型BT(E)={Tentity,Tevent,Ttext,Tmultimedia}再通过扩展到具体分类表达领域的知识。
智慧城市的知识图谱不仅是关于城市自然人的描述,还有对企业法人、各种组织、经济运行、地理信息等方面的描述,同时城市发生的各类事件也需要记录和关联,可以用实体、事件、文本和多媒体4种本体的对象根类型BT(E)满足这样的要求。
设计一套完整的智慧城市知识图谱本体OKG是一项巨大的工程,需要将城市所有相关的本体根的属性、相互之间的关系理清楚,并设计相应的模型完成实体识别、实体扩展、实体消歧、关系抽取等工作。一座城市的所有根类型的本体(包括人、企业、社会组织、道路、楼房等实体,也包括城市里发生的事件、相关的文本和多媒体)数量众多,仅根类型的数量即可达到上万个,为了便于叙述,本文只针对城市自然人的本体设计展开,知识图谱的本体设计也以城市自然人展开。
若自然人在城市中与N个领域(如教育、医疗、交通等)相关联,则可以由N个领域知识图谱叠加,构成一个完整的多领域知识图谱。城市自然人的本体有3种设计思路:单层单领域OKG(ss)、单层多领域OKG(sm)和多层多领域OKG(mm)。
单层单领域OKG(ss)思路(智慧城市知识图谱单层单领域本体示意如图6所示)是把整个智慧城市知识图谱当成一个简单的垂直领域知识图谱进行设计。这种设计方式虽然涵盖了城市管理中各行业领域的本体,能比较方便地对城市宏观数据进行分析和管理,但是却无法简单快捷地从整体转入局部,例如在这个大的智慧城市知识图谱OKG(主本体)中快速清晰地获取教育或医疗行业的知识图谱Sub(OKG)(子本体)。另外,在建设这种单层单领域知识图谱初期,需要对城市各行业领域的本体有全面的了解,才能规划出比较齐备的智慧城市综合知识图谱,但这种建设方式无疑难度很大。
图6 智慧城市知识图谱单层单领域本体示意
单层多领域OKG(sm)思路(智慧城市知识图谱单层多领域本体示意如图7所示)是在单层单领域OKG(ss)知识图谱的设计思路上,意图解决在智慧城市知识图谱中区分出各行业领域知识图谱的问题,即解决在主本体中快速区分子本体的问题。可以通过为子本体增加边界属性记录这些本体所属的范围,但城市行业领域的业务内容实际上是会发生变化的,即本体的内容和范围会发生变化;另外,不同的城市行业领域也存在公共的元素(例如个人的信息包括电话号码,城市通信系统中也包括电话号码),这些公共元素如果在子本体中各自维护,当切换到主本体中时会面临是否需要融合、如何融合的问题。从这些问题来看,单层多领域思路的应用存在变更困难、冗余过大、从子本体到主本体融合问题较多等困难。
图7 智慧城市知识图谱单层多领域本体示意
多层多领域O KG(m m)思路(智慧城市知识图谱多层多领域本体示意如图8所示)是分别设计子本体,将子本体互相叠加,形成完整的主本体。如针对城市居民的医疗情况设计一套医疗人本体Med(OKG),针对交通情况设计一套交通人本体Tra(OKG),将两个本体进行叠加,经过去重fr和消歧fd后,可以形成一个城市自然人的总本体。由于可以采用动态本体技术,不需要在最开始就设计出完善的总本体,而是在设计好总体架构后,将建设好的子本体逐步叠加完善,最终形成一个完整的本体设计。
图8 智慧城市知识图谱多层多领域本体示意
在垂直领域知识图谱的应用方面,已经有很多成熟的产品,并且在现实应用中,大部分情况是以垂直领域方式进行的(如市民想看病,就用到智慧医疗功能;孩子教育问题则会用到智慧教育功能)。按照上述本体设计,虽然通过图谱叠加会形成很复杂的多领域知识图谱,但大部分应用可以通过图谱分层方式抽取出独立的一层,形成垂直领域知识图谱,从而得到强大的应用功能。
在城市维稳安全领域,城市自然人的子本体Sub(Ocity)被称为安全人P。通过对维稳安全领域业务知识的分析,将安全人的实体对象E(P)分为个人、组织、证件、虚拟身份、机动车、电话、银行账户、监狱、银行、宾馆酒店、网吧、边境口岸、网络场所等,这些实体之间的关系R可以用综合关系R1、从属R2、拥有R3、活动R4、轨迹R5以及网络活动R6描述,安全人的本体设计如图9所示。
安全人Pi与N个安全人Pn之间存在亲属、邻居、同事、同乘机、同火车、同住宿等一种或多种综合关系R1(Pi,Pn)。
安全人Pi与N个组织单位Un之间存在从属关系R2(Pi,Un),同时这些组织单位Un与其他N个安全人Pn之间同样也存在从属关系R2(Pn,Un)。
安全人Pi拥有N个证件A、虚拟身份B、机动车C、电话D以及银行账户G等。其中,通过虚拟身份B与其他同城市的安全人Pj之间存在网络关系RN(B,Pj);驾驶机动车会产生违章记录RC1,在各类卡口会产生卡口过车记录RC2;通过打电话发短信与其他安全人产生通话记录RD(Pi,Pj),使用手机上网产生电子活动RD(可利用电子围栏侦测);银行账户与其他安全人的银行账户之间会产生银行交易记录RG(Pi,Pj)。因此,拥有关系整体可表示为R3={RN(B,Pj),RC1,RC2,RD(Pi,Pj),RD,RG(Pi,Pj)}。
安全人Pi的行为活动会产生N个违法记录、服刑记录和各种案件R4(Pi)。
安全人Pi的移动路线会产生N个轨迹和定位信息R5(Pi)。通过民航订票和离港信息、铁路订票及乘车信息定位安全人移动轨迹的两端,通过银行核查信息定位银行,通过旅客住宿信息定位宾馆酒店,通过网吧上网信息定位网吧,通过出入境信息定位边境口岸。
图9 安全人的本体设计
安全人Pi的网络活动R6(Pi)可以由N个网络场所Pn及N个虚拟身份Vn构成, R6(Pi)={Pn,Vn}。
安全人本体设计完成之后,采用广州拓尔思大数据有限公司研发的“安拓知识图谱平台”进行构建,安全人的构建过程如图10所示。首先,定义实体,新增个人、组织、证件、虚拟身份、机动车、电话、银行账户、监狱、银行、宾馆酒店、网吧、边境口岸、网络场所等实体对象。其次,定义属性,为各个实体对象添加属性。个人的属性包括姓名、身份证号码、出生日期、民族、户籍地址、居住地址等,组织的属性包括名称、类型、组织机构代码、税务登记证号、地址、法定代表人、成立日期等。然后,定义关系及事件,为实体对象之间添加关系或事件。个人之间添加亲属、邻居或同事等综合关系,个人与组织之间添加属于关系,个人与证件之间添加拥有关系,电话之间添加通话事件,银行账户之间添加交易事件等。实体、属性、关系以及事件定义完毕后,通过“安拓知识图谱平台”提供的数据抽取工具对现有的各类数据进行抽取,并导入平台的知识库(这一过程也可利用平台提供的手工划线提取功能进行抽取),抽取的知识经过实体对齐和属性填充,最终形成一套完整的安全人知识图谱。
图10 安全人的构建过程
通过面向业务的分析,本文提出了这套安全人本体设计方案,并且通过“安拓知识图谱平台”在国家部委、全国多省及多个地市的维稳安全领域有成功的应用,同时在应用中不断改进和完善,切实解决了维稳安全领域的大数据关联挖掘、分析展现等问题。
本文提出了一种智慧城市知识图谱的模型思路,并研究了支撑该模型的本体构建方法,提出了介于通用知识图谱和领域知识图谱之间的多领域知识图谱概念,以及城市自然人总本体和子本体的思路,实现了智慧城市的城市级功能和领域级功能。目前业界的知识图谱研究通常把通用图谱和领域图谱分开来看,实际上智慧城市知识图谱的复杂度已经逼近通用知识图谱,这样的多领域图谱如何实现,如何解决结构复杂、计算量大等问题,是智慧城市知识图谱建设中迫切需要解决的。另外,城市除了自然人,城市法人和组织的知识图谱也相当复杂,而且与城市自然人图谱是立体交叉的密切关联关系。智慧城市知识图谱的很多功能必须配合算法模型才能形成强大威力,而建模和模型训练也将是智慧城市知识图谱建设的难点,需要进一步深入研究。
作者简介
臧根林(1963-),男,博士,拓尔思知识图谱研究院院长,广州拓尔思大数据有限公司首席营销官,主要研究方向为知识图谱、知识工程、大数据应用、企业管理、企业文化 。
王亚强(1971-),男,拓尔思知识图谱研究院首席科学家,广州拓尔思大数据有限公司常务副总经理,主要研究方向为领域知识图谱、知识工程 。
吴庆蓉(1972-),女,拓尔思知识图谱研究院研究员,广州拓尔思大数据有限公司第三事业部副总经理,主要研究方向为领域知识图谱、知识工程 。
占春丽(1975-),女,拓尔思知识图谱研究院研究员,广州拓尔思大数据有限公司研发中心总经理,主要研究方向为领域知识图谱、知识工程 。
李熠(1979-),男,博士,就职于湘潭大学,主要研究方向为领域知识图谱、物联网 。
《大数据》期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。
关注《大数据》期刊微信公众号,获取更多内容
往期文章回顾
政府治理大数据的共享、集成与融合
面向政府治理大数据的高性能计算系统
意图知识图谱的构建与应用
基于隐私保护的政府大数据治理研究
大数据驱动乡村振兴共享共治机制研究