行业知识图谱调查报告(三):行业知识图谱应用及实践

行业知识图谱调查报告(三):行业知识图谱应用及实践

目录

  • 行业知识图谱调查报告(三):行业知识图谱应用及实践
    • 四、行业知识图谱应用
      • 4.1 金融领域
      • 4.2 公安领域
      • 4.3 生物医疗领域
      • 4.4 教育领域
      • 4.5 司法领域
      • 4.6 零售电商领域
      • 4.7 政务领域
      • 4.8 图情领域
      • 4.9 企业商业领域
      • 4.10 制造业领域
      • 4.11 安全运营领域
      • 4.12 交通领域
      • 4.13 电网领域
      • 4.14 外交领域
      • 4.15 城建领域
      • 4.16 环保领域
      • 4.17 其他领域
      • 五、企业中的行业知识图谱实践
      • 结论
    • 参考文献

相关系列笔记:
行业知识图谱调查报告(一):知识图谱概述
行业知识图谱调查报告(二):知识图谱构建及行业知识图谱构建举例
行业知识图谱调查报告(三):行业知识图谱应用及实践

我自己整理的,有错误或者更好的资料欢迎指正,谢谢大家!!!

四、行业知识图谱应用

行业知识图谱调查报告(三):行业知识图谱应用及实践_第1张图片
图11 知识图谱在各领域中的应用概览

  行业知识图谱常常用来辅助各种复杂的分析应用或决策支持,如图11所示,在多个领域均有应用,不同领域的构建方案与应用形式则有所不同,本节将以金融、公安、生物医疗、教育、司法等领域为例,从不同方面,如图谱构建与知识应用等介绍行业知识图谱的技术构建应用与研究现状。

  行业知识图谱,需要海量多源异构数据的构建、存储和灵活计算。在构建方面,要以人机交互的方式,结合规则和机器学习,提高构建效率。在存储方面,要结合客户的使用场景和需求,综合设计架构。在应用方面,不仅仅是提供一个工具,而要结合行业知识 know-how,研发贴近实际业务的应用,最大化发挥行业知识图谱的业务价值。

4.1 金融领域

  知识图谱广泛应用于金融行业,在于其基础设施好、信息化较早且成熟,数据标准化程度高;业务由数据驱动,应用范围较广;市场规模大,金融机构在数据业务的付费意愿高,付费能力强,其具体优势如图12所示。智慧金融作为一个有机整体,知识图谱提供了金融领域知识提取、融合、分析、推断、决策等功能,如图13所示。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第2张图片

图12 知识图谱在金融行业的应用优势
行业知识图谱调查报告(三):行业知识图谱应用及实践_第3张图片

图13智慧金融全景图

  基于知识图谱深度感知、广泛互联孤立数据、高度智能共享分析等优势,客户可扩展现有数字资源的广度和深度,支撑智能应用,建立知识图谱、补全因果链条,解决和打破信息茧房,为智慧金融建设提供了一种可行的方案。金融知识图谱产品典型技术架构如图14所示。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第4张图片

图14金融知识图谱产品典型技术架构

  在场景方面,智慧金融涵盖智慧支付、智慧财富管理、智慧银行、智慧证券、智慧保险、智慧风控等诸多方面。在应用功能方面,从KYC、奥情分析、个人/企业信用分析、风险传导、营销推荐、智能问答、知识库等都是典型的知识图谱应用。金融知识图谱构建过程如图15所示,包括数据抽取、信息提取、知识融合、知识加工等。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第5张图片

图15智慧金融知识图谱构建

  以银行为例,如图16所示,我们可以看到知识图谱在金融全场景中的重要应用价值。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第6张图片

图16 知识图谱在银行场景中的应用

  金融知识图谱常见的实体包括:公司、产品、证券、人等。实体间的关系,如公司-人之间,主要有股权关系和任职关系;公司-公司间关系,有股权关系,供应商关系,竞争关系等等;公司-产品间关系,有生产关系,采购关系等等;产品-产品间关系,主要有上下游关系等等。这其中,有些实体和关系,可以自动抽取生成。如公司-公司间的股权关系,公司-人之间的股权关系和任职关系,均可来源于工商局注册登记公开信息,其结构化程度很高,实体、关系抽取难度不大。而产品-产品间上下游关系,则很难有系统性的半结构化数据源,其实体和关系呈碎片化分散在百科类网站、研究报告、专家资料等文本/图像中,这给抽取和甄别带来很大挑战。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第7张图片

图17 金融知识图谱示例

  建立金融知识图谱可分为几个步骤:

  (1)从海量异构非结构化数据中辨别金融实体
  (2)定义并挖掘金融实体间的各种关系,从而生成知识图谱
  (3)定义并表达业务逻辑,在知识图谱上实现各种具体任务,如推理等

  实体-关系抽取技术,是信息抽取研究中的重要课题。其主要目的是将非结构化的文本数据转化为结构化或半结构化信息。即:从文本中抽取出特定的实体(Entity)信息,如时间、人物、地点、公司、产品等;以及实体间的各种关系,如地理位置关系、雇佣关系、股权关系等。实体确定了知识图谱中的点,而关系则确定了点与点之间的边。

  常用的实体关系抽取方法,有基于专家知识库的方法和基于机器学习的方法等。基于专家知识库的方法需要专家构筑大规模的领域知识库,这需要大量专家劳动。机器学习算法需要构造特征向量形式的训练数据;然后使用各种机器学习算法,如支持向量机等作为学习机构造分类器。这种方法被称作基于特征向量的学习算法。

  知识图谱在智慧金融中的应用可分为金融监管、金融机构应用和金融服务。金融监管是国家金融监管机构金融市场及相关机构与个人的监督管理,金融机构应用是指金融参与者利用知识图谱技术实现的风险预测、智能营销等应用,金融服务是指金融机构面向企业或公众提供的智能化金融服务,如图18所示。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第8张图片

图18知识图谱在智慧金融中的应用

4.2 公安领域

  智慧公安是利用互联网、物联网、人工智能、云计算、智能引擎、视频技术、知识图谱等技术为支撑,以公安信息化为核心,通过互联化、物联化、智能化的方式,促进公安系统各个功能模块高度集成、协调运作,实现警务信息“强度整合、高度共享、深度应用”之目标的警务发展新理念和新模式。通过知识图谱和机器学习等相关的人工智能技术,全面整合、融合及关联各数据链路产生的数据信息,可更全面、更深刻把握犯罪形势、动态特征、局部特点、演变规律、发展趋势,为决策指挥提供动态的、系统的数据依据,实现传统决策向数据化、动态化、精细化决策转变,以达到实现智能公安的目的。智能公安的全景图如图19所示,其中包括了面向公安领域的基础资源、平台支撑、数据支撑、核心数据支撑核心算法和智能应用等。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第9张图片
图19智能公安全景图

  公安大数据是全面助推公安工作质量、效率、动力变革的重要力量。随着跨部门、警种、业务的协同和整合大趋势的到来,知识图谱作为大数据和人工智能双重技术的应用表现,能通过数据分析、文本语义分析等手段,抽取出人、物、地、机构、虚拟身份等实体,并根据其中的属性、时空、语义、特征、位置联系等建立相互关联,构建一张多维多层的,实体与实体、实体与事件的关系网络。根据数据的接入实时进行自动更新,能提供更有深度的信息,真正激发大数据的价值。在解决公安大数据发展中面临的数据缺乏关联性、缺乏全警种智能应用等问题时发挥重要作用。

  建设公安知识图谱仍遵循知识图谱搭建逻辑,但其中知识抽取、本体层建设和实战应用开发等环节需要运用分布式储存、关联算法、语义推理等技术,将公安部门多年业务中积累的技战法进行总结和可视化处理,与技术算法相互转换,以集成犯罪和预测模型,实现重点人员场所关联分析、物品关联分析、团伙关系分析、异常事件挖掘、相似案件推理等功能,提升公安信息化的智能化水平,促进公安情报研判的演进,高效服务公安的打防管控工作,甚至做到精准的犯罪预测预警。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第10张图片
图20 公安知识图谱构建流程

  图21展示了基于公安知识图谱的应用分类,可分为4大方向:全息档案研判、战法应用、情报检索与分析、事件预警等。其中,全息档案研判包括认为画像、案件画像等;战法应用包括高危人员分析研判、嫌疑人分析、串并案件分析、伴随分析及时空轨迹研判等;情报检索与分析包括深度语义检索、警务知识问答、网络有害信息识别等;事件预警包括群体性事件预警、社会稳控事件预警等。可有效指导城市公共安全防控、警力资源调度、重大安保布防等应用,将极大地提供公安警力资源的利用率,降低城市案发率。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第11张图片
图21 基于公安知识图谱的应用分类图

4.3 生物医疗领域

  随着技术的不断进步,采用理论研究与实证分析、应用研究相结合的方法,在收集大量资料与数据、阅读文献的基础上梳理和总结经典的医学管理与决策理论以及大数据管理与分析方法的医疗知识图谱已经实现。智慧医疗是利用先进的物联网与移动通信技术、大数据及人工智能等新一代IT技术,实现医疗信息系统与医疗过程的智能化辅助与自动化处理,实现医疗业务流程的数字化运作,实现患者与医务人员、医疗机构医疗设备之间的互动。短期来看,在医疗过程辅助、患者服务、医学科研以及临床医学教育等方面,知识驱动的智能化服务,能够辅助医院提供更优质的医疗服务,实现更好的医院管理;辅助患者的整个诊疗与健康管理过程;辅助医生开展知识和数据驱动的前沿医学研究;辅助医学生、低年资医生和基层医生开展临床思维训练与实践演练。整体技术路线如图22所示,在此基础上开展应用研究,研发系统对理论成果进行验证,根据评测标准对应用效果进行测评。总体技术路线为建立知识表示模型、构建医学知识图谱、提供医学知识服务、研发知识服务系统,具有较强的可行性和创新性。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第12张图片
图22 生物医疗

  首先基于资源描述框架网络本体语言建立医学知识表示模型,包括医学体分类体系以及建模实体不确定性关联;然后从电子病历、临床指南和医学主题词表等多源异构医学大数据中抽取医学信息,采用条件随机场模型实体、朴素贝叶斯模型抽取实体关系,关联规则挖掘方法抽取实体属性。提出实体链接方法和基于图的重启随机游走方法进行知识融合,进一步提髙知识质量,构建医学知识图谱。

  基于强大的语义处理与开放互联能力,知识图谱对医学领域而言,能够建立较系统完善的知识库并提供高效检索;面对知识管理、语义检索、商业分析、决策支持等方面需求,医学知识图谱能推进海量数据的智能处理,催生上层智能医学的应用。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第13张图片

图23 知识图谱在医疗领域中的应用优势

  当前医疗保健费用、需求的增长与优质医疗资源不足间的问题在不断突出,随着近几年来人工智能的飞速发展,以及精准医疗、智慧医疗的提出,医学知识图谱应用关注度在日益上升,辅助诊疗大有可为。

  知识图谱与医疗数据的结合形成医疗知识图谱,医疗数据包括:医疗专业知识、医疗文献、医疗常识、电子病历大数据、医案、现有医疗资源、疾病库、指南与规范。

  行业内比较知名的应用和项目如下:

  中医药知识平台(http://www.tcmkb.cn)是一个针对中医药知识体系系统梳理、建模和展示的平台,它以图形可视化方式展示核心概念之间的关系,辅助中医专家厘清学术发展脉络,浏览中医知识,发现知识点之间的联系。

  其优势在于与阅读文献等手段相比,可大幅度节约知识检索获取时间。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第14张图片

  IBM 的 Watson 机器人已经在医院里辅助医生对病人进行医疗诊断。安德森癌症中心联合IBM Watson开展终结癌症的任务,其底层核心就是用了知识图谱相关技术。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第15张图片
  在欧盟,Open PHACTS重大联合攻关项目,这一面向药物研发的开放数据访问平台开发,其核心技术就是采用语义技术为有关研究人员提供高效的数据访问技术环境的支持。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第16张图片

4.4 教育领域

  根据《中国互联网教育平台专题分析2018》,2017年中国互联网教育市场规模达到2502亿元人民币,同比增长56.3%,但相比线下整体教育行业而言,互联网教育占比仍然较低,尚有巨大的发展空间。在消费升级、知识付费浪潮的大背景下,居民在教育领域的投入有望进一步增加。我国目前已发布多项政策,加速推动教育信息化进程,逐步落实智慧教育,其中包括《国家中长期教育改革和发展规划纲要(2010-2020年)》、《国家教育事业发展“十三五”规划》、《教育部2018工作要点》等。智慧教育市场的巨大发展潜力吸引了诸多企业涌入,并尝试从不同角度切入市场,其中涉及百度、阿里巴巴、腾讯、网易、新东方和沪江等企业。

  教育知识图谱,以学科知识为核心,建立各个学科的知识点概念建立层级关系,知识点与知识点之间的关联关系,不同知识点之间的前后序关系,构成学科知识图谱。利用这个图谱,可以把知识点间的关系,通过可视化的形式展示给学生,一目了然,可以很天然的用来帮助学生构建知识体系,查阅知识要点,发现知识点之间的关联,帮助学生做总结沉淀,消灭知识盲区。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第17张图片
图24 知识图谱在智慧教育中的应用示意图

  学科知识图谱构建之后,可以跟教学资源(教材、试题、讲义、教学视频、试卷等)构建关联,进而通过用户信息和学习记录,建立知识点与用户之间的关联。通过知识图谱,更加精准的刻画学生知识掌握情况,更加准确的刻画资源。从而实现对用户精准的学情研判,学习路径规划,学习资源个性化推荐。

  也能帮助老师更好的了解学生学情,优化教学方法和调整教学策略。可以通过与教研资料关联,通过主动推荐教研来为老师教研备课提升效率和质量,以知识图谱问答为核心技术的辅助教学答疑系统可以有效的减轻简单重复问题给老师带来的负担,也能很大程度满足学生的答疑需求。

  以知识图谱为核心的教育知识资源建设,利用知识图谱建立起领域知识间的关联,知识点与不同版本的教材、教辅、讲义、视频,试题等各种教育资源之间建立关联,构成一个整体的网络。利用这些关联网络支撑上层应用。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第18张图片
图25 知识图谱为核心的教育知识资源建设

  教育领域学科知识图谱中,知识之间的关系主要包括:上下位关系,主要是父子概念之间,概念与实体之间。概念图谱表达教育领域概念之间的关系。在教育领域概念性的内容会比较多,这些概念间关系就是整个知识的脉络。包含关系,知识点下几个具体的小考点,整体与部分的关系。先后序关系,可以用来做学习规划。在不同的学科还有一些特殊关系,比如互斥,因果等,这些是在实际做图谱资源建设的时候,需要领域专家与知识工程师一起去梳理细化的。

  教育图谱中知识也有丰富的属性,比如共性的“考点”“难点”“易错点”“考纲要求”等共性属性。不同学科里有具体的细粒度属性,比如数学里面的“定义”“性质”“面积公式”“周长公式”等等。

  当前人工智能技术更多应用在如拍照搜题、口语评测、课堂监控等外围需求的工具上,并未能有效深入到教学场景中,而真正产生生产价值建立在充分且必要的数据基础上,搭建贯穿教材知识体系、教学资源管理和受教育者学习轨迹的知识图谱,将教与学的全过程进行可视化展现,使静态知识点数据与动态教学活动的数据产生关联,为算法利用提供支撑环境。知识图谱在教育领域主要有以下几种应用场景︰一是将学科教材知识进行本体建模,形成可关联性查询的知识网络;二是以图结构将教学资源以及关系进行语义化组织,以便合理调用;三是在知识图谱的基础上,应用大数据、AI等技术形成面向学习目标的个性化学习路径,实现千人千面的教学方案;四是面对受教育者搭建个人知识图谱,通过对其知识点学习进度和考试反馈数据的实时关联,形成知识掌握状态的可视化个人画像,以至于习题推送和老师一对一教学有的放矢﹔五是将教育领域碎片化多源异构数据进行处理,形成标准化的关联数据集,为机器学习算法训练提供充要条件。通过以上五点应用,勾勒出基于知识图谱的数字中台形式,最大限度地对教育领域数据进行资源整合,为上层智能化应用提供支撑,改变了“传统教育披上人工智能外衣”的状况,用技术起底教育逻辑,形成数据指导下自适应学习的价值闭环。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第19张图片

图26 智适应教育技术框架

4.5 司法领域

行业知识图谱调查报告(三):行业知识图谱应用及实践_第20张图片
图27 知识图谱在智慧司法中的应用

  智慧司法是综合运用人工智能、大数据、互联网、物联网、云计算等信息技术手段,遵循司法公开、公平、公正的原则,与司法领域业务知识经验深度融合,使司法机关在审判、检查、侦查、监管职能各方面得到全面的智慧提升,实现社会治理、公共法律服务等的智慧化。近年来,我国不断深入推进“智慧司法”建设.随着越来越多的相匹配的司法信息平台的搭建运行,我国司法信息化走向前所未有的广度和深度。2018年上半年全国法院新收案件1229.5万,人均新收案件99.2件;上半年全国法院结案952.8万件,人均结案76.8件。在巨大的案例压力下,政府基层工作人员数量不足40万,远远不能满足多达6亿人次/年的法律服务需求,并且法律服务专业性强,咨询、诉讼服务费用高,也是导致大部分企业和个人得不到健全法律服务的主要原因。知识图谱的构建是实现智慧司法不可逾越的建设基础,知识图谱能够表达法律知识体系间的逻辑关联,并显示被关联的体系内的知识。司法知识图谱可实现智慧司法的技术底层,,找到对应的实体属性概念,触发相关的推送知识,还可以通过配对的规则,用概率来实现排名推荐,对类案进行分析,还可以广泛运用于要素式的审判,法律行为分析的预测,结果预判的分析等等,能很好地达到数据关联、知识拓展和应用支持。

  面对大量且复杂的司法大数据,应用人工智能需要提炼共性规则,即依据不同的司法场景,提取具有统一性和相似性的领域规则并对抽取的数据进行数据标注,供机器学习以形成类似于人类的信息提取、逻辑分析能力。因此,与其说司法人工智能以数据为中心,不如说其以知识为中心,构建司法知识图谱是人工智能司法应用的基础和先决性问题。司法知识图谱将法律领域中的实体、属性和关系进行体系化梳理,并建立逻辑关联,通过知识图谱和大数据技术进行数据挖掘,辅助决策,洞察知识领域动态发展规律。基于司法知识图谱可实现司法业务场景的智能应用,解决“案多人少”“同案不同判"等现实问题。目前,司法知识图谱已广泛运用于法律知识检索和推送、文书自动生成、类似案件推送、裁判结果预测、知识智能问答、数据可视化等方面,为司法人员办案提供高效参考和科学依据,全新定义司法数据应用和司法智能化,凝练司法智慧,服务法治建设。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第21张图片图28 司法知识图谱构建

4.6 零售电商领域

  新零售,即个人、企业以互联网为依托,通过运用大数据、人工智能等先进技术手段并运用心理学知识,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈,并对线上服务、线下体验以及现代物流进行深度融合的零售新模式以阿里巴巴为例,立足于当下的电商场景从认知用户的需求出发,充分利用知识图谱技术,构建起了一个全新的电商知识图谱:新零售电商认知图谱。目前电商认知图谱是一个以用户需求为中心,连接商品、用户、购物需求,以及各类开放领域知识、常识的大规模语义网络。不仅包含了以商品为中心的知识图谱( Product Graph ),还包含了以用户需求的显式节点概念为中心的知识图谱(Concept Net )。形成了以概念、商品、标准产品、标准品牌等为核心,利用实体识别、实体链指和语义分析技术,整合关联了例如舆情、百科、国家行业标准等9大类一级本体,包含了百亿级别的三元组,以人货场为核心形成了巨大的知识网。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第22张图片图29 电商知识图谱示意图

  电商平台最大的挑战是从日益增长的海量商品(数十亿)中挑选出的一个小的子集(几十或上百)展示给用户,以满足用户个性化的购物需求。近年来电商搜索、推荐算法已经取得了长足的进步,但这些算法依然存在一些问题而为人诟病,例如在商品搜索中“不智能”的体验时有发生。而在商品推荐中,重复推荐、缺少新意等也是经常被用户所诟病的。为了打破这个隔阂,让电商搜索、推荐算法更好地认知用户需求,阿里电商知识图谱将用户需求显式地表达成图中的节点,概览如图30所示。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第23张图片
图30 阿里巴巴电商认知图谱概览

  在该电商认知图谱中,目前一共定义了19种关系类型,并用三元组表示所有节点之间的关系。这些关系包括“is_related_to(相关)”、“isA(是一种) ”、"has_instance(有实例)”、"is_part_of(是一部分)”等。其中对电商场景业务直接用途最大的关系是电商概念到商品之间的关联关系:例如一个购物场景“儿童防走失”所对应的商品到底是哪些;以及电商品类之间的上下位关系:例如“舞蹈裙”是一种“表演服”。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第24张图片

表1 认知图谱关系举例(部分)

4.7 政务领域

  智慧政务即通过“互联网+政务服务”构建智慧型政府,利用云计算、移动物联网、人工智能、数据挖掘、知识管理等技术,提高政府在办公、监管、服务、决策中的智能水平,形成高效、敏捷、公开、便民的新型政府,实现由“电子政务”向“智慧政务”的转变。智慧政务生态中包含政府部门、企业、非营利组织、企业、公民、监管方、协调方、独立第三方和平台运营公司等角色,其中政府部门、公共部门、非营利组织企业和公民既是数据的提供者,又是数据和知识服务的需求者;政府大数据主管部门通过授权平台公司运营政务数据共享开放平台、契约式开放平台等数据中台,为各类数据需求者提供数据服务和知识服务,同时大数据主管部门对平台公司具有指导、监督职能;为确保平台公司高效、合规运营,需要协同方对政务大数局参与者进行协调,同时授权独立第三方机构或权威组织对各政务部门进行绩效考核。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第25张图片

图31 基于知识图谱的智慧政务全景图

  在政务生态链中,知识图谱的意义在于将大规模、碎片化的多源异构政务数据进行关联,以实体为基本单位对政务数据进行挖掘分析,揭示各实体间的复杂关系,实现知识层面的数据融合与集成,更大程度释放政务数据价值,为政府部门、企业、非营利组织、企业、公民提供知识服务。

  知识图谱有助于实现事前事中事后全流程综合市场监管,提高监管效率和效能。在政府市场监管由单一行业监管向新技术引领下综合市场监管转变的大趋势下,基于国家到地方市场监管部门的市场监管事项建立监管目录,通过政府数据共早父拱平口元力久监篮生态环境监管、企业信用综合市场监管知识图谱,实现食药品安全监管、生态环境监管、企业信用监管等监管事项的集成和优化。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第26张图片

图32 基于知识图谱的政策公文智能应用

  例如,在政策公文中的应用。基于知识图谱的政策公文智能应用基于全国海量政策数据建设的政策知识图谱构建了机构、政策、公文、法律法规、解读等实体相互关联的复杂网络,实现了知识层面的数据融合与集成,并以知识图谱为核心搜索引擎完成了政策大数据知识服务平台的建设。以知识图谱为核心搜索引擎,打破了原有基于关键词的政策获取单一模式,转型升级到多维度立体知识检索发现服务模式,并为政府机构、企业、政策研究院所、普通民众等聚焦国家党政政策的客户提供精准知识服务,支撑政府用户、企业用户从政策的研究视角,深度探索政策的关系等。

4.8 图情领域

  图情知识图谱是指聚焦某一特定细分行业,以整合行业内资源为目标的知识图谱。提供知识搜索、知识标引、决策支持等形态的知识应用,服务于行业内的从业人员,科研机构及行业决策者。

  图情领域与知识图谱的结合由来已久。英国的大英博物馆通过结合语义技术对馆藏品各类数据资源进行语义组织,通过语义细化、多媒体资源标注等方式提供多样化的知识服务形式;英国广播公司BBC在其音乐、体育野生动物等板块定义了知识本体,将新闻转化为机器可读的信息源(RDF /XML,JSON 和 XML)进行内容管理与报道自动生成。国内图情领域也越来越重视对知识图谱技术的利用。上海图书馆借鉴美国国会书目框架 BibFrame对家谱、名人、手稿等资源构建知识体系,打造家谱服务平台为研究者们提供古籍循证服务;中国农科院18则聚焦于水稻细分领域,整合论文、专利、新闻等行业资源,构建水稻知识图谱,为科研工作者提供了行业专业知识服务平台。

  为了使读者对图情知识图谱有更清晰的认识,以下章节笔者将介绍图谱知识图谱一般的构建过程,并展示图情知识图谱中典型的应用场景。

  • 知识建模

  图情知识图谱的构建一般采用自顶向下的方式进行知识建模,通常从资源类型数据入手,整理出资源的发表者(人物),发表机构(机构),关键词(知识点),发表载体(刊物)等等类型的实体及各自之间的关系,同时通过人物、机构的主页进行实体属性的扩充。下图是一张典型的图情知识图谱 schema 模型,展示了概念与概念间的关系以及部分属性。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第27张图片图33 图情行业典型 Schema 模型

  • 知识获取

  图情领域的数据源主要包括四类。第一类是知网、专利局等的文献类网站,第二类是开放通用数据,包括百科类网站以及 DBpedia 等的开放链接数据集,第三类是行业垂直的新闻门户,第四类是行业内企业和科研机构内部积累的既有数据。知识获取的方法视数据类型而异。

  • 知识融合

  图情领域的知识融合需要考虑实体层面的融合以及知识体系的融合。 对于实体融合,主要解决不同来源实体的属性缺失、冲突等问题,一般采用多数投票的方式来进行实体属性的对齐。对于多知识体系的融合,通常确定置信度最高的体系作为基准,如专利的 IPC 分类,继而将其他来源的知识点进行对齐。由于知识体系的质量影响到了整个知识图谱的知识描述能力与准确性,所以一般允许较多的人工介入来进行体系的融合梳理。

  • 知识存储

  图情知识图谱的存储设计时需要兼顾实体、概念等图谱数据与论文、新闻等资源类型数据。对于图谱数据,推荐使用基于 RDF 的存储,如 AllegroGraph,Jena 等,对数据中的语义描述有着天然的支持,能更快的实现语义搜索等应用。对于资源数据,则可以使用面向搜索设计的数据库,如 Elasticsearch, Solr 等,以获得更好的搜索支持。
知识计算
  图情领域中的知识计算主要包括图论算法、知识统计以及知识推理。通过实现基本图论算法来辅助进行各类业务分析。如:通过图遍历算法进行机构合作的谱系分析;基于社区发现算法寻找学术研究热点;图排序算法帮助进行权威分析等。通过统计学方法能帮助进行宏观层面的分析,如行业发展趋势,机构研究分布等。通过知识推理完成新知识的补充,如专家合作关系,公司上下游关系等。

  • 知识应用

  图情知识图谱的典型应用包括知识搜索、知识标引、 决策支持等,下面逐一进行介绍。
  知识搜索是图情领域的基础性服务,而知识图谱技术可以从准确性和形态上为其赋能。图谱中的实体识别技术能够提高搜索的命中率,同时允许用户通过自然语言的方式进行知识的语义搜索。而通过知识卡片、知识推荐等结果的返回也可以提升用户的交互体验。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第28张图片

图34 大英博物院语义搜索

  • 知识标引

  知识标引指的是根据构建完成的图情知识图谱,对新闻、文献等文本的内容进行知识标注的过程。知识标引既是图谱构建过程中的重要工作,同时是图谱应用的一种形态,可以依托标引技术打造在线的阅读工具,或者集成 office、 pdf reader 等文档类应用,提供知识卡片、知识推荐等服务辅助终端用户阅读。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第29张图片

图35 基于知识标引的辅助阅读

  决策支持基于路径分析、关联分析、节点聚类等图算法进行辅助分析,并通过图谱可视化的方式展示知识间的关联。可以对关联参数,如步长,过滤条件等,以及可视化的形态、如节点颜色、大小、距离等进行定制,从而为可视化决策支持赋予不同的业务含义。以下是几个典型的可视化决策支持场景。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第30张图片

图36 上川明胡氏家族迁徙图
行业知识图谱调查报告(三):行业知识图谱应用及实践_第31张图片

图37 专家合作分析

4.9 企业商业领域

  丰富多维度的企业信息在基本面分析中十分重要,当前全国企业总量超过三千万家,数量十分庞大,数据多源,需要构建统一的企业商业知识图谱,企业商业知识图谱企业、人物、专利等信息构成,关注企业与人物之间任职及股权关系、专利与企业人物是所属权关系,以完善企业及个人画像,助力企业潜在客户获取、客户背景调查、多层次研究报告、风险管控;辅助发现不良资产、企业风险、非法集资等。

  量子魔镜以全国全量企业的全景数据资源为研究基础打造企业信用风险洞察平台,天眼查、启信宝则专注服务于个人与企业信息查询工具,为用户提供企业、工商、信用等相关信息的查询。企查查立足于企业征信,通过深度学习、特征抽取以及知识图谱技术对相关信息进行整合,并向用户提供数据信息。中信建投将全国企业知识图谱整合进客户关系管理系统中,构建全面清晰的客户视图,以实现高效客户关系管理。笔者将企业商业知识图谱的构建方式梳理如下,以供读者借鉴与参考。
知识建模

  构建企业商业知识图谱,通常关注企业与人物的任职关系、投资关系、分支机构关系。

  从相应网站中抽取企业信息、人物形象、诉讼信息以及信用信息,再添加上市公司、股票等概念和相应属性。企业招投标信息、上市公司的股票信息可从相关网站进行采集。企业的竞争关系、并购事件则从百科站点中进行抽取。这些信息存在于信息框、列表、表格等半结构化数据,以及无结构的纯文本中。其 schema模式如下图38所示。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第32张图片

图38 企业商业知识图谱

  • 知识获取

  企业商业知识图谱数据源主要包含两大类: 1)半结构化的网页数据,其中包括全国企业信用信息公示系统、中国裁判文书网、中国执行信息公开网、国家知识产权局、商标局、版权局等。 2)文本数据,如招投标信息公告、法律文书、新闻、企业年报等。通过 D2R 工具、包装器、文本信息抽取等方式对以上数据分别进行抽取。

  • 知识融合

  企业知识图谱的数据来源多种多样,因此需要在数据层对数据进行融合。数据层的集成主要是对公司和人物两类实体进行融合,目标是解决由企业全称与简称产生的描述不一致的问题,以及人物重名问题。公司的融合推荐基于公司名的全称进行链接,人物实例的融合则推荐使用基于启发式规则进行集成。
知识存储
  全国企业商业知识图谱包含全国上千万家企业信息,十亿级别的三元组,形成知识图谱庞大而复杂,因此对存储方式提出了挑战,要求能够对海量的图数据进行存储,且具有良好的可伸缩性和灵活性,对此我们推荐采用图数据库的方式进行存储,并可以扩展分布式存储方案以提高服务可用性与稳定性。
知识计算
  企业商业知识图谱中的图计算主要集中在知识推理的计算,从而应用于金融反欺诈、辅助信贷审核的功能。当前知识图谱中的推理主要是基于规则进行推理计算。如:在金融反欺诈中,多个借款人联系方式属性相同,但地址属性不同,则可通过不一致性验证的方式来判断借款人是否有欺诈风险。
知识应用
  全国企业知识图谱通过异常关联挖掘、企业风险评估、关联探索、最终控制人和战略发展等方式为行业客户提供智能服务和风险管理。

  异常关联挖掘是通过路径分析、关联探索等操作,挖掘目标企业谱系中的异常关联。 基于企业商业知识图谱从多维度构建数据模型,进行全方位的企业风险评估,有效规避潜在的经营风险与资金风险。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第33张图片

图39 异常关联挖掘

  最终控制人是基于股权投资关系寻找持股比例最大的股东,最终追溯至自然

  人或国有资产管理部门。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第34张图片

图40 最终控制人分析

  战略发展则以“信任圈”的形式将目标企业的对外投资企业从股权上加以区分,探寻其全资、控股、合营、参股的股权结构及发展战略,从而理解竞争对手和行业企业的真实战略,发现投资行业结构、区域结构、风险结构、年龄结构等。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第35张图片

图41 企业社交图谱

4.10 制造业领域

  随着云计算、大数据、人工智能技术的快速发展,越来越多的新技术正在应用于传统工业领域,并在帮助企业实现产业转型、技术升级及效益提升方面起到了关键作用。目前在提升良品率方面,知识图谱通过深度计算所有的关联参数,可精准分析出与生产质量强相关的关键参数并基于分析结果搭建出参数的曲线模型,结合生产过程中实时监测和调控变量,最终将最优参数在大规模生产中精准落地。此外,知识图谱在提升质检效率、提升测试效率、优化能耗、降低设备维护成本、优化生产工艺等方面同样较多应用场景。

  制造业体系庞大、场景丰富、产品类型多、定制化程度高,具有数据庞大且知识结构复杂的特性,存在着如工序流程和工艺制造知识等事理知识,同时也存在大量的定量知识。事件之间存在着大量的事理逻辑关系,而不同角色本体构造提出的需求也不尽相同。引入知识图谱技术,将工厂车间、人工资源、物料组件、设备制具、工艺流程、故障等制造业的基础数据进行知识分类和建模,通过对知识的抽取,对定量知识与事理知识的融合以及对实体之间复杂关系的挖掘,构建制造业知识服务平台,建立产品规划、设计、生产、试制、量产、使用、服务、营销和企业管理等全生命周斯的互联,还能融合环境、焚烧、水务、模具、能源管理等多个相关行业的知识内容,通过快速搜索和推理关系中的趋势、异常和共性更好地组织、管理和理解制造业体系的内部联系,将知识转化为决策依据,破除产品封闭式的重复研发实现创新,进行全流程多方面的协调管控,提高制造流程中问题的预见和解决能力,提升资源管理能力、生产效率和产品质量。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第36张图片

图42 知识图谱在制造业各流程的应用场景

  例如,在石油化工领域,由于石油化工业具有易燃易爆、流程工艺复杂、控制要求精细、信息高度集成等鲜明特点,在加工过程中从原料到中间馏分与产品的物性分析数据纷繁多样,产业链示意图如图43所示。由于炼化的复杂性,现实中仍存在大量无法通过机理模型或模拟软件所不能解释的现象是。针对上述问题,可借助知识图谱在较短的时间内从众多影响因子的因果变化关系中找出满足优化目标的操作参数,从而为解决许多生产问题提供帮助。炼化生产过程中众多影响因子间的因果变化关系是一个复杂的关系网络,可以用知识图谱来分析,图44展示了与某因子相关联的其它影响因子。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第37张图片

图43 炼油化工产业链示意图
行业知识图谱调查报告(三):行业知识图谱应用及实践_第38张图片

图44 炼化过程影响因子分析(局部)

  通过炼化知识图谱,可以完成以下功能:

  (1)辅助生产操作控制:当生产线工人准备改变某个可操作变量时,可以通过知识图谱直观地看到该操作变量改变时会直接引起其它因子变化的趋势;当试图改变某个非操作变量时,可以通过知识图谱观察到哪些可操作变量值的改变会对该值产生直接影响。
  (2)生产预测:在石化生产中,各种影响因子之间关联度高且关系高度非线性,而且大型生产设备各个位置的浓度、温度、速度及化学反应、物理变化过程相互影响。仅通过机理模型(如集总动力方程、人工经验)和经验模型(如神经网络、统计回归等)都很难建立准确有效的模型。在机理模型与经验模型融合的基础上,结合炼化生产知识图谱可通过图迭代计算,计算出当某些因子变化时,整个关系网络达到稳定后各个产物结点的状态值,进而实现更准确的生产预测。
  (3)生产异常追溯:当生产线某个指标发生异常时,通过找出在炼化生产知识图谱中对应的结点,分析以该结点为中心的子图,可发现该异常的影响因素;通过知识图谱推理,还可寻找该异常发生的原因。前文虽然仅以石化行业举例,在其它复杂的生产过程中,也可以有类似的知识图谱应用。

4.11 安全运营领域

  网络环境本身可以与图数据结构结合,因此将知识图谱技术引入到智能安全运营中具备可行性。知识图谱的概念由谷歌提出,本质上是一种叫做语义网络的知识库。安全运营知识图谱是以安全运营行业知识图谱为核心,面向网络环境数据、威胁行为数据、威胁情报数据、安全运营知识库等,构建本体化、标准化、全局化的知识结构。目前图结构以及图分析算法的研究发展迅速,图结构及图算法也已经被应用到网络安全场景中。

  国内方面,已有许多产品和研究关注安全数据的图分析方法。例如,研究人员结合知识图谱设计了多个本体对整个网络威胁进行建模分析,并兼容MITRE 的CAPEC、MAEC 和ATT&CK 等模型的接入与使用,能够从多种威胁情报中提取关键信息并作为知识对知识图谱进行扩展。

  尽管不断有新的技术和模型引入,但是实现智能安全运营依旧存在很多难点,例如:1、网络攻击手段的不断进步导致网络威胁评估难度不断增大;2、现有安全设备检测网络攻击行为产生的告警数量庞大,如何从海量告警中找到真正的网络攻击是一大难题;3、由于攻击手段的多样性和复杂性以及数据采集等导致的攻击链路断裂,无法锁定该攻击行为的上下文。
目前安全人员需要人工从海量的告警信息中进行威胁评估,进而关联溯源,分析发现攻击路径,安全防护的难度很大。因而提取安全运营中的专家知识,构建知识图谱引入到安全运营中,通过层次化的分析使安全运营更加智能,具备重要的研究意义和应用价值。

  将知识图谱应用到智能安全运营之前,首先需要明确的是,智能安全运营业务是否需要知识图谱的加入。在海量的安全数据轰炸下,智能安全运营需要强烈的可视化需求,当发现攻击行为的时候,需要涉及到各种行为之间因果依赖关系的深度搜索,综合多个方面安全数据的关联分析,该领域十分依赖于安全专家的经验。除此之外随着高级持续威胁的不断发展,复杂的网络攻击往往隐藏在复杂的关系网络数据中。知识图谱就是为此类问题所设计的,因此知识图谱可以推动智能安全运营的发展。

  知识表示技术和知识获取技术是能否成功应用知识图谱的关键。知识表示技术主要是设置数据处理的粒度,因为不同人的认知是不同的,这导致粒度的设置面临巨大的挑战。构建安全运营的知识图谱时需要结合专家知识来确定知识的粒度。知识获取技术是利用现有自动化的技术完成知识的获取,知识的质量是知识图谱质量的关键。

  搜索领域最早应用知识图谱是为了提供用户想要的内容,让用户找到自己最想要的那种含义,将网页搜索升级为语义搜索。安全运营知识图谱是为了辅助安全运营人员分析和解决安全问题。在《AISecOps 智能安全运营技术白皮书》[3]中智能安全运营前沿技术图谱就提到了知识图谱在安全运营中的作用,其指出超融合知识图谱是运营数据关联分析、智能决策、行动响应的重要数据基础设施。尽管近年来有诸多研究工作和厂商产品在持续探索多源数据的融合方案与安全行业知识图谱的构建方法,在超融合知识图谱的设计、技术实现等多个方面,仍存在多方面的挑战。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第39张图片

图45 智能安全运营前沿技术图谱

  智慧安全知识图谱(Intelligent Cyber Security Knowledge Graph)是知识图谱在网络安全领域的实际应用,包括基于本体论构建的安全知识本体架构,以及通过威胁建模等方式对多源异构的网络安全领域信息( Heterogeneous Cyber Security Information)进行加工、处理、整合,转化成为的结构化的智慧安全领域知识库。

  针对信息安全行业知识图谱构建的两个关键要素,构建了威胁元语言模型对威胁知识的结构化描述,包括概念、实体、属性的定义以及知识关系的定义。研究中依据STIX2.0以及领域专家知识,构建三层安全知识图谱,如图46所示,知识图谱辅助安全事件分析、安全合规标准、APT追踪溯源等实际业务场景所需的数据表示和语义关系,其中,信息层为知识图谱从外界抽取的知识实体,知识层和智慧层为信息安全领域关键概念及这些概念之间的逻辑语义关系。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第40张图片

图46 安全知识图谱

  合理的设计本体库是图结构设计的关键任务,构建安全运营知识图谱的难点也是在于本体的构建以及其之间的关系挖掘。本体包括图中实体(节点)类型、实体的属性类型以及实体间的关系类型(即实体之间边的类型),即表示图结构的抽象概念结构“类”。本体库的设计不仅要遵循一定的规范标准,而且符合特定应用场景下的指定需求。

  例如,ATT&CK(AdversarialTactics, Techniques, and Common Knowledge)是一个攻击行为知识库和威胁建模模型,自发布以来已逐渐发展为网络威胁分析语境下的通用元语,其提供了四个核心的实体(战术, 技术, 软件, 组织)及其之间的关系,而CAPEC 则主要覆盖TTP、防护手段、脆弱性等概念,如果直接参照STIX 2.0,则需要覆盖十余种对象。

  因此构建可用、可拓展的知识图,需要从具体场景入手逐步扩展。除此之外参考已有知识来构建安全运营知识图谱需注意的是安全运营的告警规则与ATT&CK等知识库之间的关联需要非常复杂的信息抽取能力和非常庞大的抽象先验知识,现阶段该过程采用自动系统是难以实现的。鉴于大规模非结构化文本中包含大量实体和关系噪声,对安全运营领域的知识抽取,会造成统计层次、语义层次的干扰,因此在知识抽取的过程中需进行模式和指纹的过滤,以提升抽取知识的质量以及知识拓展的效率。

  综上所述,在构建安全运营知识图谱的过程面临着本体库设计,知识库关联,知识抽取,以及知识拓展等多方面的挑战。安全运营知识图谱获取知识的过程需要根据实际应用场景改变或增加来不断优化和推理完善。将特定安全运营场景中真实网络的威胁行为的知识库转化为企业自身的安全运营知识图,需要企业建立自身安全运营场景的攻击实验局,不断修正知识结构。

  在特定安全运营场景下,由攻防知识丰富的安全专家对于告警数据及安全运营知识进行筛选构建图谱,该过程不仅需要考虑现有告警、攻击手法及响应操作,而且需要考虑未来可能产生的变化,不断的细化数据之间的层次关系,确定该场景下的知识粒度,构建该场景下的智能安全运营知识图谱,采用知识推理模块预测实体之间潜在的关系,从海量告警中找出未被关注的网络攻击行为,推理出隐藏在深层次的网络攻击威胁,为安全运营提供方法和策略,以适应指定场景下的威胁分析任务。当然未来是需要探索如何根据不同的场景来设计一个完整智能安全运营领域图谱的模式,方便安全专家知识的不断融合和完善。

4.12 交通领域

  现代城市发展过程中的一大问题是交通拥堵,为解决城市发展中的这一顽疾,有必要以现代化高科技技术为支撑,建造城市中的智慧交通系统,从源头入手缓解城市拥挤问题。当前,“智慧交通”更加注重人、车、路和环境的和谐协调的关系处理,使交通发展更加具有可持续的协调发展意识,以更好地改善交通秩序和交通环境、节约能源、降低环境污染,智慧交通中知识图谱应用框架如图47所示。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第41张图片

图47 智慧交通中知识图谱应用框架

  根据“智慧交通”系统在城市中的作用,将其典型应用分为以下四个方面:城市安全及交通管理服务,如城市事件感知与智能处理、人车识别、交通信号控制等;出行服务,如路径规划、停车诱导等;交通拥堵缓解,如交通诱导、不停车收费ETC等;交通规划决策支持,综合交通信息平台、交通数据采集等。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第42张图片

图48 “智慧交通系统”应用分类

4.13 电网领域

  智能电网以物理电网为基础,将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网。它以充分满足用户对电力的需求和优化资源配置、确保电力供应的安全性、可靠性和经济性、满足环保约束、保证电能质量、适应电力市场化发展等为目的,实现对用户可靠、经济、清洁、互动的电力供应和增值服务。分布式发电、储能技术和电动汽车的快速发展逐渐改变了传统的供用电模式,促使电力流、信息流、业务流不断融合。

  当前知识图谱在智能电网领域的应用主要面向设备运维、客户服务知识管理中心等方面,涉及电力设备缺陷记录检索、电网公司客户服务智能变电站二次安全措施自动生成、全业务统一数据中心、设备故障诊断与管理等。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第43张图片

图49 知识图谱在智能电网中的应用分类

4.14 外交领域

  智慧外交是指通过事件分析的手段,从历史、政治、经济、军事、文化等多个层面对各个国家的关系进行定量分析,提供智能化的外交关系研判和外交决策支撑。依托公开媒体、互联网及内部信息等海量资源数据,综合运用知识抽取、实体归一、知识计算与推理等技术,可以构建形成关于国家和事件的外交知识图谱,实现对事件的性质和影响进行分析,并在事件信息量化处理的基础上,提供复杂、高维时序数据的关联分析。此外,还可通过随机过程建模及基于机器学习的趋势预测,实现突破事件的热点动态跟踪、趋势预测和危机预警等功能,给出国家安全的量化风险评估,为战略层面安全形势提供模型评估支撑,有效提高国家安全、外交等部门在国家战略形势实时研判能力,知识图谱构建过程如图50所示。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第44张图片

图50 国家间关系分析的一般流程

4.15 城建领域

  智慧城建是运用高新技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。当前,我国正处于快速城市化的阶段,伴随着城市规模的扩大和实力的增强,城市病也如影随形。特别是大城市、超大城市这些人口高度聚集的城市区域,资源紧张、环境污染、交通拥堵、住房拥挤、公共产品及服务短缺等社会问题已成为城市进子步发展的瓶颈和短板,综合分析大城市的综合承载力现状及增强大城市承载力的途径逐渐得到深入关注和研究。

  城市建设信息涉及基础设施、交通出行、医疗服务、公共安全、教育服务、生产制造等公众生活相关的方方面面,具有高维度、异构性、多样性、稀疏性和海量性等特征。整合上述城市运行核心系统的各项关键数据是智慧城建必须面临和解决的问题,知识图谱对于海量高维复杂数据的处理能力则能很好地为该问题提供解决方案,知识融合技术可对大量数据进行动态分析和整合,同时利用知识建模和知识计算可将散布在城市各个角落的数据连接起来,对城市进行全域的即时分析、指挥、调动、管理,从而实现对城市的精准分析、整体研判、协同指挥。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第45张图片

图51 智慧城建结构概念图

4.16 环保领域

  环境保护是产业链规模庞大、业务复杂程度极高的行业。随着技术的快速发展,依托物联网感知设备构建的对大气、水利、土壤、危废等环境监测网络已经铺开,但仍面临监测数据分散且维度多,存储维护难,海量原始数据需要大量人工清洗加工以供预警、决策等问题,导致辅助上层决策利用率和准确率较低。应用知识图谱技术能统一并可视化结构复杂的原始环境数据,梳理挖掘环保对象、环保流程、环保措施等数据之间的关系并转化为知识库,形成安全可靠的数据标准。

  知识图谱在环境保护中的应用场景及优势:

  (1)实现地理空间、污染源、水利、气象、土壤环境质量、网络舆情等多源异构数据的采集,统一环境数据标准,构建生态环境数据平台和知识库,打通各级环保部门、跨部门业务系统和社会各方,实现生态类数据资源全面多层次的共享开放
  (2)对环境数据进行实时、立体化监控,通过对大量历史数据的统计分析和模型建立,进行对环境质量趋势的长期跟踪和分析研判,对质量异常波动和各类环境污染事故做出预警,提升管理能力,辅助精准决策
  (3)对自然资源进行资产化管理,为自然资源资产做定性、定量的审计与评估,并为其规划和管理提供业务数据支持
  (4)对污染源信息进行全面逐级采集和深度挖掘,对企业固废信息申报、排污申报管理、固废转移联单、污染减排、监管统计等工作进行全生命周期的跟踪管理,实现污染物快速溯源,高效监管和执法
  (5)对于产废企业及其上下游企业,对影响污染物排放的生产设施和污染物治理设施运行的关键参数进行收集记录,建立环境信用评价体系对企业环保信用进行标准化评级,累积相关数据形成企业环境信用档案,为环境治理提供依据

  例如,城市存在巨大的存量治理和精细化发展需求。随着城市公共管理的数据来源由政务数据不断拓展至交通、视频、环境等其他城市运行感知数据以及企业数据,城市大数据平台也从政务共享交换平台,发展成为多方共建共用共享的大数据平台。基于知识图谱技术,将分散在政府各个部门、生产生活各个领域的相互孤立的数据资源联通共享,实现多源数据集成交换,从而对政务数据和社会数据进行深度挖掘。通过数据融合分析与管控,最大化发挥数据要素的效能,发现不同群体、同行业的服务需求,实现政务服务的精准化供给、政府科学决策和高效社会治理。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第46张图片

图52 城市智能公共管理系统解决方案

4.17 其他领域

  目前,语音识别、视频识别、图像识别等感知智能相关技术已逐渐成熟,知识图谱通过与上述技术的融合应用在家居、传媒、军工等领域也取得了一定的实践成果。例如,知识图谱作为智能家居的大脑,可以实现用户和服务的连接及设备和服务的连接,让智慧家庭场景中用户获取服务更智能。通过在场景生态中集成所有关联家电的知识图谱海量家庭用语资料库代表可为未来人与设备、服务的和谐共存创造条件。

五、企业中的行业知识图谱实践

  知识图谱是企业下一代管理数据的一种新的组织方式,能够更高效的连接上游的大数据和下游的AI建模任务。
据不完全统计,我国知识图谱产品或解决方案主流企业约有38家,这些企业大致可以分为两类,一类是大厂,一类是初创企业。在这其中,布局在金融领域的企业约占65%,公共服务与政务领域约占26%,能源与工业领域约占26%,是企业入局最高的三大领域。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第47张图片

图53 知识图谱企业在行业应用中的分布情况

  知识图谱企业在金融行业的技术积累及应用都较为成熟,企业发展态势良好。

  在公共服务与政务领域中,随着越来多的政策支持,知识图谱应用需求不断增加。以公安为例,据不完全统计,在公安知识图谱领域的8家初创企业中,在产品或解决方案都有一定的积累和成熟度,并专注于公安知识图谱应用。
行业知识图谱调查报告(三):行业知识图谱应用及实践_第48张图片

图54 公安领域中知识图谱企业情况

  公安是企业参与量较大的领域。从企业官网公布的数据来看,海致网聚应用范围突出,支持所有公安场景。同时该企业落地实践应用业务面较广,目前已与公安部、上海、南昌、武汉、成都、广州、深圳北京等80多个地市公安机关展开了大数据应用的深度合作。

  作为人工智能的基础,互联网厂商在知识图谱中技术积累更为成熟,在行业应用中也具有相当的代表性。

行业知识图谱调查报告(三):行业知识图谱应用及实践_第49张图片
图55 四大厂知识图谱产品优势及应用场景

  从产品优势上来看,腾讯云、阿里云、华为云较为突出,皆显示出了一站式服务、高效算法、长期积累的特性。

  其中在腾讯云独有的物联网场景中,物联网领域的终端设备,例如医疗仪器、运输业车辆 GPS 等,可以轻易且持续的产生 TB 级的数据。知识图谱在物联网数据接入、管理、分析等方面,为客户提供从引擎级产品到行业知识落地的全套解决方案,原生的图计算框架能帮助客户从这些数据中挖掘出其隐含的巨大价值。

  阿里云和华为云分别在电力知识图谱应用,油气知识图谱应用中展示出了一定的关注度。

  阿里云将电力领域设备说明、操作规程等复杂技术文档,用知识图谱来表示支持操作人员快速进行操作查询、故障诊断、维修指导、业务学习,同时也方便业务文档的管理、迭代、沉淀、传递,是电力领域专业知识管理应用的基石。

  华为云基于油气勘探开发过程中会产生多种形式的海量数据,有效聚合这些多源异构数据,助力油气行业实现数字化和智能化转型。基于勘探知识图谱可以提供丰富的油气应用,例如语义搜索、油藏类比、油气知识推荐,支撑油气勘探开发增储上产、降本增效。

  中国软件网认为,不管是新锐公司还是巨头公司,知识图谱领域作为智能应用的支撑性存在,都必然将随着企业上云与数智化的发展而迎来属于自己的契机。

结论

  知识图谱的构建包括知识表示与建模、知识获取以及知识图谱查询与推理计算等三个方面,尽管目前已取得了很多成就,但仍在快速演进当中。例如,在知识表示方面,资源缺乏、面向开放域、跨语言及跨媒体等方向的知识抽取正在成为未来的研究方向;符号与表示学习的融合统一、面向事理逻辑的知识表示、融合时空间维度的知识表示、融合跨媒体元素的知识表示正在成为未来的研究方向。
  目前,大规模知识图谱的应用场景还比较有限,其在智能语义搜索、深度问答(包括基于信息检索的问答系统、基于语义分析的问答系统)、演化分析、对话理解等方面的应用也处于初级阶段,仍具有广阔的应用与推广前景。这里所讨论的知识图谱在需求、覆盖范围和体系结构上有很大的不同,但是大多数实现中的许多挑战都是一致的。这些挑战包括规模化、歧义消除、从异构和非结构化来源提取知识以及管理知识进化。多年来,这些挑战一直处于研究的前沿,然而它们仍然困扰着行业的从业人员。其中一些挑战存在于一些系统中,但在其他环境中可能不那么重要。
  从知识图谱应用发展趋势来看,当前正在从通用知识图谱应用向领域或行业知识图谱应用拓展,如金融、医疗、公安、医疗、司法、电商等,依托知识图谱强大知识库的深度知识推理能力和逐步扩展的认知能力,帮助相关行业从业者对特定的问题进行分析、推理、辅助决策。

参考文献

[1] 知识图谱发展报告[R].北京:中国中文信息学会语言与知识计算专委会,2018.08.
[2] 人工智能之知识图谱[R].北京:清华大学人工智能研究院,2019.01.
[3] 面向人工智能“新基建”的知识图谱行业白皮书[R].北京:认知智能重点实验室&艾瑞咨询研究院2020.11.
[4] 公安知识图谱标准与白皮书[R].北京:中国电子技术标准化研究院,2019.08.
[5] Bordes A, Glorot X, Weston J, et al. Joint learning of words and meaning representations for open-text semantic parsing[C], in Proceedings of AISTATS 2012, 127-135.
[6] Lin Y, Liu Z, Luan H, Sun M, Rao S, Liu S. Modeling Relation Paths for Representation Learning of Knowledge Bases[C], in Proceedings of EMNLP 2015.
[7] Yang Y, Carbonell J G, Brown R D, et al. Learning approaches for detecting and tracking news events. IEEE Intelligent Systems and Their Applications, 1999, 14(4):32–43.
[8] Valerie Bonstrom, Annika Hinze, Heinz Schweppe. Storing RDF as a Graph.In Proceedings of LA-WEB’2003. pp.27-36.
[9] Jacopo Urbani, Spyros Kotoulas, Jason Maassen, Frank van Harmelen, Henri E. Bal: OWL Reasoning with WebPIE: Calculating the Closure of 100 Billion Triples. Proceedings of the Extended Semantic Web Conference (ESWC 2010), 180-195, 2010.
[10] Jens Lehmann: DL-Learner: Learning Concepts in Description Logics. Journal of Machine Learning Research 10: 2639-2642 (2009)
[11]许闲.保险行业知识图谱构建之初探[J].上海保险,2019(11):16-18.
[12]王昊奋,丁军,胡芳槐,王鑫.大规模企业级知识图谱实践综述[J].计算机工程,2020,46(07):1-13.
[13]赵紫英,张化军,刘振业.基金行业知识图谱的构建与应用[J].金融纵横,2020(08):9-15.
[14]刘烨宸,李华昱.领域知识图谱研究综述[J].计算机系统应用,2020,29(06):1-12.
[15]郄楠,侯鸿志,李烨.以知识图谱为核心的保险行业人工智能解决方案[J].人工智能,2020(06):44-53.
[16] 时空中的金融科技, 白硕. 理深科技时评. 2016.
[17]关于“智能投顾”的技术和业态浅析,白硕.《金融电子化》,2016(9):18-20.

你可能感兴趣的:(NLP,自然语言处理,知识图谱,行业知识图谱,应用,报告)