行业知识图谱调查报告(一):知识图谱概述

行业知识图谱调查报告(一):知识图谱概述

目录

  • 行业知识图谱调查报告(一):知识图谱概述
    • 前言
    • 一、知识图谱概述
      • 1.1 知识图谱概念及分类
      • 1.2 行业知识图谱基本情况
      • 1.3 知识图谱发展历程
    • 参考文献

相关系列笔记:
行业知识图谱调查报告(一):知识图谱概述
行业知识图谱调查报告(二):知识图谱构建及行业知识图谱构建举例
行业知识图谱调查报告(三):行业知识图谱应用及实践

我自己整理的,有错误或者更好的资料欢迎指正,谢谢大家!!!

前言

  当前人工智能的发展仍然处于弱人工智能的状态,研究重心由感知智能过渡到认知智能领域。知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱支持非线性的、高阶关系的分析,帮助机器实现理解、解释和推理的能力,是认知智能的底层支撑。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。

  知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义 Web、数据挖掘与机器学习方向的交叉研究。知识图谱于2012年由谷歌提出并成功应用于搜索引擎,知识图谱属于人工智能重要研究领域——知识工程的研究范畴,是利用知识工程建立大规模知识资源的一个杀手锏应用。1994年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义——将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要利用知识工程为大数据添加语义/知识,使数据产生智慧(smart data),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。 知识图谱在下面应用中已经凸显出越来越重要的应用价值:

  • 知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集成服务;
  • 语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是互联网网页;
  • 问答和对话系统:基于知识的问答系统将知识图谱看成一个大规模知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;
  • 大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。

  知识图谱逐渐成为人工智能又一热点产业,2019年知识图谱相关的融资金额较2018年增长超过200%,产业链已初具规模,互联网公司、人工智能公司及大数据智能公司纷纷入局。2019年知识图谱核心产品市场规模约65亿元,预计2024年将突破200亿元;2019年知识图谱技术带动经济增长规模约391.8亿元,预计2024年将突破1000亿元。其中2019年市场中以金融领域和公安领域应用份额占比最大,金融领域因标准化数据积累丰富,行业认知与直接需求最为明显等因素,成为数据智能最早落地并产生价值的行业;公安领域经过三年的感知智能基础设施建设,已经初步形成人工智能应用环境,在党中央和公安部的号召指导下,公安大数据建设将成为下一阶段的主题,这一趋势也在2019年相关招标项目中得以体现。随着整体市场数据基础的完善和需求唤醒,大数据智能领域规模持续走高,但在行业可落地性和理性建设的限制下,预计市场增速将呈现下降趋势,期间咨询性需求将会大量出现,从整体发展来看增速处于良性区间,对真正有价值的公司和产品有正向意义。

  本报告从知识图谱概述、知识图谱构建、行业知识图谱构建基本过程、行业知识图谱应用、企业中的行业知识图谱实践等五个部分对知识图谱技术在其他行业中的代表性应用场景进行梳理,对知识图谱未来的发展和应用做出展望,同时对人工智能“新基建”下,城市数字化、智慧化发展的创新场景进行展示。

一、知识图谱概述

1.1 知识图谱概念及分类

  知识图谱最早于2012年由谷歌公司正式提出,其初衷是为了改善搜索性能,提升用户搜索体验。目前对知识图谱没有统一的定义,普遍被接受的一种定义为:知识图谱本质上是一种语义网络,网络中的节点代表实体或者概念,边代表实体/概念之间的各种语义关系。一种更为宽泛的定义为:知识图谱使用图作为媒介来组织与利用大规模不同类型的数据,并表达明确的通用或领域知识

  从覆盖的领域来看,知识图谱可以分为通用知识图谱和行业知识图谱(又叫行业知识图谱)。前者面向开放领域,而后者则面向特定的行业。通用知识图谱强调的是广度,即更多的实体,通常难以形成完整的全局性的本体规范。行业知识图谱主要用于辅助各种复杂的分析应用及决策支持场景,它需要考虑领域中的典型业务场景及参与人员的背景和交互方式,因而需要完备性和严格且丰富的模式定义,并保证对应的实例知识具有丰富的维度,即一定的深度。行业知识图谱当前已经在金融证券、生物医疗、图书情报、电商、农业、政务、运营商和传媒等行业中得到了较多成功的应用。

1.2 行业知识图谱基本情况

  行业知识图谱的架构分两种: 一种是行业知识图谱自身的逻辑结构; 另一种是行业知识图谱的构建技术 (体系) 架构, 如图1所示。
行业知识图谱调查报告(一):知识图谱概述_第1张图片
图1 行业知识图谱体系架构

  号称“硅谷最神秘科技公司”的Palantir是行业知识图谱领域的典型代表,其软件允许客户对大量的敏感数据进行语义关联分析,以防止欺诈,确保数据安全等。

  行业知识图谱相对通用知识图谱拥有如下特性:

  ① 领域性更强,能具体到某一个行业细分问题。
  ② 数据来源更加复杂,包括企业的数据库、日志、文本报告等数据。
  ③ 规模非常大,一般来说,明略科技构建的行业知识图谱规模都在百亿规模以上。
  ④ 对实时性和数据质量的要求非常高,因为要依赖于知识图谱做分析决策。
  ⑤ 需结合行业知识搭建更多的复杂行业应用

  行业数据的特点包括:

  ① 数据来源多:内部数据、互联网数据、第三方数据。
  ② 数据类型多:包含结构化、半结构化、非结构化数据,且后两者越来越多。
  ③ 数据模式无法预先确定:模式在数据出现之后才能确定;数据模式随数据增长不断演变。
  ④ 数据量大:在大数据背景下,行业应用的数据的数量通常都以亿级别计算,存在通常在TB、PB级别甚至更多。

  行业知识图谱的落地,存在不少技术挑战。

  比如,要对海量多源异构数据做数据融合,构建知识图谱。再如,解决大规模知识图谱的存储计算问题。此外,要把数据转化成为真正的行业知识,满足行业应用的需求。

  为了帮助客户更高效地沉淀行业知识,指导实际业务,从知识图谱的构建、存储到应用,需要形成了一套成熟的产品体系,例如,其核心技术可能包括基于智能化文本挖掘技术的文本抽取、智能数据字段识别和映射结构化抽取,以及最核心的混合存储的知识图谱系统,用于支撑应用层的社区挖掘、群体的分析,智能问答等。

1.3 知识图谱发展历程

  知识图谱的发展是人工智能重要分支知识工程在大数据环境中的成功应用。回顾知识工程四十年来发展历程,总结知识工程的演进过程和技术进展,体会知识工程为人工智能所做出的贡献和未来面临的挑战,可以将知识工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维网 1.0 时期\群体智能时期以及知识图谱时期

行业知识图谱调查报告(一):知识图谱概述_第2张图片

图2 知识工程发展历程

  • 1950-1970 时期:图灵测试

  人工智能旨在让机器能够像人一样解决复杂问题,图灵测试是评测智能的是手段。这一阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。这一阶段具有代表性的工作是通用问题求解程序(GPS):将问题进行形式化表达,通过搜索,从问题初始状态,结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。这一时代人工智能和知识工程的先驱Minsky,Mccarthy和Newell以Simon四位学者因为他们在感知机、人工智能语言和通用问题求解和形式化语言方面的杰出工作分别获得了1969年、1971年、1975年的图灵奖。

  • 1970-1990 时期:专家系统

  通用问题求解强调利用人的求解问题的能力建立智能系统,而忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。70年开始,人工智能开始转向建立基于知识的系统,通过知识库+推理机实现智能,这一时期涌现出很多成功的限定领域专家系统,如MYCIN医疗诊断专家系统、识别分子结构的DENRAL专家系统以及计算机故障诊断XCON专家系统等。94年图灵奖获得者Feigenbaum教授在70年代提出知识工程的定义,确立了知识工程在人工智能中的核心地位。这一时期知识表示方法有新的演进,包括框架和脚本等。80年代后期出现很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。

  • 1990-2000 时期:万维网 Web 1.0

  在1990年代到200年,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet, 采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的Hownet。Web1.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。这一时期还提出了本体的知识表示方法。

  • 2000-2006 时期:群体智能 Web 2.0

  Web1.0万维网的出现使得知识从封闭知识走向开放知识,从集中知识成为分布知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。也是在2001年,万维网发明人、2016 年图灵奖获得者Tim Berners-Lee 提出语义 Web的概念,旨在对互联网内容进行结构化语义表示,并提出互联网上语义标识语言RDF(资源描述框架)和OWL(万维网本体表述语言),利用本体描述互联网内容的语义结构,通过对网页进行语义标识得到网页语义信息,从而获得网页内容的语义信息,使人和机器能够更好地协同工作。

  • 2006 年至今:知识图谱

  “知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从 2006 年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。与 Cyc、 WordNet 和 HowNet 等手工研制的知识库和本体的开创性项目不同,这一时期知识获取是自动化的,并且在网络规模下运行。当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。 典型的例子是谷歌收购 Freebase 后在2012 年推出的知识图谱(Knowledge Graph),Facebook的图谱搜索,Microsoft Satori以及商业、金融、生命科学等领域特定的知识库。

  具代表性大规模网络知识获取的工作包括DBpedia,Freebase, KnowItAll,WikiTaxonomy 和YAGO,以及BabelNet ConceptNet,DeepDive,NELL,Probase,Wikidata,XLore,Zhishi.me等。这些知识图谱遵循 RDF 数据模型,包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。

  现在我们看知识图谱的发展和应用状况,除了通用的大规模知识图谱,各行业也在建立行业和领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识图谱的创新应用还有待开发。

参考文献

[1] 知识图谱发展报告[R].北京:中国中文信息学会语言与知识计算专委会,2018.08.
[2] 人工智能之知识图谱[R].北京:清华大学人工智能研究院,2019.01.
[3] 面向人工智能“新基建”的知识图谱行业白皮书[R].北京:认知智能重点实验室&艾瑞咨询研究院2020.11.
[4] 公安知识图谱标准与白皮书[R].北京:中国电子技术标准化研究院,2019.08.
[5] Bordes A, Glorot X, Weston J, et al. Joint learning of words and meaning representations for open-text semantic parsing[C], in Proceedings of AISTATS 2012, 127-135.
[6] Lin Y, Liu Z, Luan H, Sun M, Rao S, Liu S. Modeling Relation Paths for Representation Learning of Knowledge Bases[C], in Proceedings of EMNLP 2015.
[7] Yang Y, Carbonell J G, Brown R D, et al. Learning approaches for detecting and tracking news events. IEEE Intelligent Systems and Their Applications, 1999, 14(4):32–43.
[8] Valerie Bonstrom, Annika Hinze, Heinz Schweppe. Storing RDF as a Graph.In Proceedings of LA-WEB’2003. pp.27-36.
[9] Jacopo Urbani, Spyros Kotoulas, Jason Maassen, Frank van Harmelen, Henri E. Bal: OWL Reasoning with WebPIE: Calculating the Closure of 100 Billion Triples. Proceedings of the Extended Semantic Web Conference (ESWC 2010), 180-195, 2010.
[10] Jens Lehmann: DL-Learner: Learning Concepts in Description Logics. Journal of Machine Learning Research 10: 2639-2642 (2009)
[11]许闲.保险行业知识图谱构建之初探[J].上海保险,2019(11):16-18.
[12]王昊奋,丁军,胡芳槐,王鑫.大规模企业级知识图谱实践综述[J].计算机工程,2020,46(07):1-13.
[13]赵紫英,张化军,刘振业.基金行业知识图谱的构建与应用[J].金融纵横,2020(08):9-15.
[14]刘烨宸,李华昱.领域知识图谱研究综述[J].计算机系统应用,2020,29(06):1-12.
[15]郄楠,侯鸿志,李烨.以知识图谱为核心的保险行业人工智能解决方案[J].人工智能,2020(06):44-53.
[16] 时空中的金融科技, 白硕. 理深科技时评. 2016.
[17]关于“智能投顾”的技术和业态浅析,白硕.《金融电子化》,2016(9):18-20.

你可能感兴趣的:(NLP,人工智能,知识图谱,行业知识图谱,自然语言处理,报告)