手把手 | 事理图谱,下一代知识图谱

手把手 | 事理图谱,下一代知识图谱_第1张图片

大数据文摘投稿作品

作者:刘焕勇、薛云志

当前人工智能时代下,机器与人类之间的博弈一直在进行着。如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工智能领域大规模应用的如今,人工智能已经走过近60年的时间。人工智能的发展先后经历了两次黄金期以及两次低谷。1957年第一款神经网络的发明点燃了第一次人工智能的高潮。

而随后在20世纪70年代,受限于当时的运算资源,并不能完成大规模的数据训练,人工智能一度陷入低谷,直到1982年德普摩尔神经网络的提出以及BP算法的出现使得大规模神经网络训练成为可能后,人工智能才逐渐缓过神来,并提出了全面实现人工智能计算机的目标,掀起了第二个黄金时期。但直到21世纪初,人工智能计算机并未实现以及政府的撤资,又一次将人工智能拉入低谷。随后,在2006年深度学习神经网络取得突破性进展,一直到2015年深度学习算法在语音和视觉识别上取得的成功,再次引领了以深度学习为主流的人工智能时代第三个黄金期。

手把手 | 事理图谱,下一代知识图谱_第2张图片

人工智能起起落落,但人工智能进步的步伐从未停歇。从人工智能的发展阶段来看,人工智能先后经历了从计算智能到感知智能再到认知智能的三个发展阶段。在计算智能时代,以神经网络、遗传算法为代表的学习算法,让机器能够帮助人类存储和快速处理海量数据,使得机器开始像人类一样“能说会算”。

感知智能时代,机器能够开始看懂和听懂,并采取一些行动和听懂语音的音箱,帮助人类高效地完成看和听的相关工作。认知智能时代,是人工智能的终极目标,即机器能够像人一样思考,并采取行动,如完全独立驾驶的无人驾驶汽车、自主行动的机器人等,完成全面辅助或替代人类的工作。随着数据、模型、计算能力的全面提升,计算智能和感知智能已经初步实现,而真正实现机器的认知智能依然面临着诸多挑战。


认知智能与知识图谱

认知智能的核心在于机器的辨识、思考以及主动学习。其中,辨识指能够基于掌握的知识进行识别、判断、感知,思考强调机器能够运用知识进行推理和决策,主动学习突出机器进行知识运用和学习的自动化和自主化。这三个方面概括起来,就是强大的知识库、强大的知识计算能力以及计算资源。

知识存在于我们的大脑当中,我们在从事社会活动的过程中,实际上是对知识的获取和使用过程。就知识库言,大致两类知识,一类是常识知识库(commonsense knowledgebase),另一类是百科类知识库(cyclopedia knowledgebase)。常识知识库包括人类认知系统中的概念、语言规则知识库,如现在的wordnet ,mindnet ,Framenet, Probase等,另一类百科知识库,则描述了现实生活中的事实知识(fact)。如Freebase , YAGO , DBpedia等。

以描述实体与实体、实体与属性值为形式化表示的知识图谱目前已是大家耳熟能详的一个概念,而何谓知识图谱?我们可以从几个方面来看,从AI的视角来看,知识图谱是一种理解人类语言的知识库,从数据库视角来看,知识图谱是一种新型的知识存储结构;从知识表示视角来看,知识图谱是计算机理解知识的一种方法;从web视角来看,知识图谱是知识数据之间的一种语义互联。从最初的逻辑语义网(semantic-net)、到语义网络(semantic-web)再到Linked-data,在到现在的大规模应用的知识图谱,已经前前后后经历了将近50年的时间。而知识图谱真正作为一个突出热点走进大家眼球的,还是在2012年以收购freebase作为后台知识图谱的google,以简洁答案、知识卡片的方式颠覆传统文档搜索形式的横空出世,从这个时间算起,也就7年的时间,所以知识图谱既是年老又是年轻的。

知识图谱,是实现认知智能的知识库,是武装认知智能机器人的大脑,这是知识图谱与认知智能的最本质联系,知识图谱,与以深度神经网络为代表的连接主义不同,作为符号主义,从一开始提出就注定了要从知识表示、知识描述、知识计算与推理上不断前行。目前知识图谱在诸如问答、金融、教育、银行、旅游、司法等领域中取得了大规模的运用。基于知识图谱的智能问答、在抓捕本拉登时斩获战功的Palantir、战胜人类的IBM深蓝机器人、颠覆传统网页搜索模式的谷歌知识图谱等等,都显示出了知识图谱的强大生命力。目前,我们以金融领域和全行业领域为试点,开展了相关对研发工作,构建起了全行业11个主流产业链知识图谱,主要包括246个行业、上万个商品品种的行业知识图谱和涵盖A股的上市公司金融知识图谱。

1、全行业产业链知识图谱

产业链知识图谱,目标是构建起全行的上下行业图谱,行业之间的上下游关系,行业中个大元素之间的关系,例如行业下产品、公司之间的关联等等。为了保证产业链中数据的准确性,我们通过行业研究员人工定义本体,耗时半年时间,构建起了全行业11个主流产业链知识图谱,主要包括246个行业、上万个商品品种,几千家上市公司,共计几百万条关系边的产业链知识图谱,如下图2所示:

手把手 | 事理图谱,下一代知识图谱_第3张图片

图2

2、上市公司金融知识图谱

公司金融领域研究的核心对象,公司作为金融中的重要角色,构建起公司知识全景图谱对于进一步知识整合、公司监测、公司运营等具有显著作用。我们以A股上市公司为基本数据来源和研究对象,构建起涵盖公司、行业、板块、人物、原料、产品等共17类实体,并购、竞争、供应、投资等共16类实体关系,规模达百万级的A股上市公司知识图谱,如下图3所示:

手把手 | 事理图谱,下一代知识图谱_第4张图片

图3


从知识图谱到事理图谱

从知识图谱的本质上来说,是以传统本体概念为基础进行知识组织的,而在知识处理领域,这种传统本体概念依然存在着一些局限性,传统本体对于概念的描述着重对其静态特征的描述,缺乏对动态特征的描述,经典的“网球”问题就是典型的例子。实际上,许多哲学家认为世界是物质和运动的,物质和运动的世界是由事物和事件组成,物质是相对静态的知识形式,反映了客观世界中事物存在的规律。然而,人类的命题记忆是以“事件”为存储单位的,存储的是组成事件的概念及其之间的关系以及事件及其之间的关系。以事件作为知识的基本单元更能反映客观世界的知识,特别是知识的动态性,从认知心理学的角度来看,事件更符合人类的理解与思维习惯。人类主要是以“事件”为单位进行记忆和理解现实世界的,事件关系到多方面的概念,是比概念粒度更大的知识单元。传统本体所使用的概念模型难以反映事件这一更高层次和更复杂的语义信息,模型缺少了更高层次的结构。

从知识刻画上来说,知识图谱的局限主要体现在两个方面:一是对人类知识的刻画上上不具备动态属性。知识图谱中所刻画和描述的知识是静态的非黑即白的一种确定性事实,而现实人类社会当中,知识是动态变化的,知识本身会因为外部条件的变化而失真。另一个是知识图谱在应用上的一种局限性,知识图谱只能回答什么是什么的问题,对包括基于已知知识推断未知知识,对已知知识进行正确性校验的知识推理,从根本上来说也没有跳出“静态”这一属性。在诸如“怎么了”,“接下来会怎么样?”,“为什么”,“怎么做”等问题上,知识图谱显得有些乏力。

事实上,目前关于这方面的知识需求应用场景有很多,如金融投资领域有捕捉外部事件、根据事件的逻辑关系进行推理、推演和预测的需求,例如“智利发生地震会对哪些商品标的造成何种影响?”,情报舆情领域有预测事件后续影响的需求、寻找事件发生原因的需求,如“目标市场区域内棉花采购量突然增多、可能的原因有哪些?”。客服及咨询领域有正确定义、刻画客户服务过程中的状态变化,以提高服务精准化的需求,如“客户购买了此产品,如果中途赎回,哪些产品适合再次推荐给客户?”等等。

传统知识图谱中的知识是静态的,描述的是实体以及实体之间的关系,这些关系是相对确定和静态的知识,这个可以作为强大的知识库让机器人“才高八斗,学富五车”。但如何使这“八斗才”和“五车学”给“弄活”,让机器学会知识的运用,真正学会思考。那么就需要给这个知识再加上知识的“把玩规则”,形象的来说,就是一套逻辑规则。

手把手 | 事理图谱,下一代知识图谱_第5张图片

图4

举例来说,如图4所示,我们在思考的过程当中,脑海里经常会比如“为什么”,“按以往的经验”、“八成会”、“据我分析”、“这个应该是”、“怎么可能”等词,这些词很形象的表现表示出了我们思考的过程,我们将思考的过程,定义为运用“事理”的过程,所谓“事理”,就是“事情”的道理,是思考的那条路径,这个“事情”就是我们所需要的事件。对于事理,我们可以有多种理解,事理是一套经验总结,是一套对知识的规则,是一套逻辑推理的方法论,是对特定环境下知识在时空域上的展开。图5展示了知识、事件、实体、事理之间的关系,事件高于实体,实体是事件的组成部分,事件是事理的重要组成部分,事理和实体共同组成了知识。

手把手 | 事理图谱,下一代知识图谱_第6张图片

图5

目前,“事理图谱”还是较新的概念,国内多家公司和科研机构都在“事理图谱”的相关研究上进行了探索,如哈尔滨工业大学信息检索实验室刘挺老师团队首先提出了“事理图谱”这一概念,并做了一些实验和基础性的工作[1][2][3];中科院自动化所赵军老师团队,上海大学刘宗田老师团队分别在事件抽取[4]和事件本体表示[5]上取得了丰硕的成果。

与知识图谱的组织形式相仿,实体通过头尾相连,可以组织形成图谱状的知识图谱,事理采用类似的组织方式,可以形成事理图谱。知识图谱与事理图谱两者之间存在着诸多异同之处,我们在参考前人的工作上,结合自己的研究工作,从描述知识、研究对象、构建目标、知识形式等共10个方面进行了总结,如图6所示:

手把手 | 事理图谱,下一代知识图谱_第7张图片

图6

知识图谱描述知识是万物实体,所研究的对象是名词性实体及其属性、关系。事理图谱所要描绘的是一个逻辑社会,研究对象是谓词性事件及其内外联系。两者都是有向图的组织性质,在知识的确定性上,知识图谱中的知识是以事实三元组为存储型的、确定的,知识状态相对静态,变化缓慢,但精度要求极高,实时性要求极高。事理图谱中的知识时一个包含事件、论元集合、逻辑关系等的多元组,知识逻辑是不确定的,存在一种转移概率。

在应用上,知识图谱可以完成when / who/ what/ where等常识问题。事理图谱可以回答Why/How等动态问题。传统概念之间的分类关系即上下文关系不同,事件与事件之间除了上下位等分类关系外,还存在非分类关系,包括组成关系、因果关系、并发关系、条件关系、排斥关系等,这些关系一起对现实动态知识种的逻辑知识进行了描述。图7主要列举了事理逻辑的几种类型主要包括因果事理、条件事理、反转事理、顺承事理、顺承事理、上下位事理、组成事理、并发事理共七类事理:

手把手 | 事理图谱,下一代知识图谱_第8张图片

图7

因果事理描述的是认知体系中的一种前因后果联系,前面一个事件会导致后面一事件的发生;条件事理描述的是认知体系中的一种条件结果关系,是一种预设与结果逻辑;反转事理往往描述的是认知体系中的一种互斥逻辑,是一种真假值逻辑;顺承事理描述的认知体系中的一种时间上的偏序关系,是一种先后动作逻辑;组成事理,刻画的是事件之间整体与部分的逻辑;上下位事理,描述的是事件在分类体系中一种逻辑;并发事理,描述的是事件在时间上的一种共生关系,指一个事件发生下另一个事件一定发生。


事理图谱的构建

目前关于事理图谱的构建方式上,主要包括领域专家手动构建以及基于海量文本自动化获取两种方法。前者准确率高但构建成本较大,且规模难以快速增长;后者所见即所得,构建成本较低,规模可快速扩充,能够迅速挖掘出海量逻辑,但缺点是精确度受多方面因素影响,准确率较前者要低。事实上,目前事理逻辑广泛存在于海量文本当中,当我们打开百度或者谷歌搜索引擎,输入“导致”或者“lead to”这一词时,会返回多个包含因果事理的结果,如图8所示。此外,问答社区等资源也为基于海量文本自动化获取事理逻辑提供了可能。

手把手 | 事理图谱,下一代知识图谱_第9张图片

图8

事理逻辑的挖掘,可以分成基于显式因果逻辑的挖掘和隐式因果逻辑的逻辑两种。前者通过人工设定因果模式可以获取大量的因果事件对,例如对于句子“受范冰冰阴阳合同事件牵连,唐德影视、华谊兄弟开盘大跌”,可以结构化出<范冰冰阴阳合同事件,导致,唐德影视、华谊兄弟开盘大跌>这样的因果事件对。通过对原因事件和结果事件进行进一步解析,我们可以得到原因事件的关联主体是人物,即影视明星“范冰冰”,事件的动作是“阴阳合同”,结果事件中关联的主体是两家传媒上市公司,华德影视和华谊兄弟,事件的动作是股价大跌。

结合上下文,可进一步明确事件发生的时间信息,为2018年6月4日。对这样的事件对,可进一步抽象泛化成一种逻辑规则,即影视明星“阴阳合同->传媒公司股价下跌”这样一条因果模式链。更进一步,通过对动作本身的情感极性进行泛化,我们可以发现,“阴阳合同”属于负面消息,股价下跌这一事件属于负面影响,因此,可以进一步泛化成“明星负面消息->公司利空”这条更为抽象的因果模式链。这样,通过大量的显示模式对事理逻辑进行结构化,对不同来源的事理知识进行融合并层层抽象,可以得到大规模不同层级的事理逻辑,借助知识图谱首尾相接的方式,我们对构建好的一条条事理逻辑进行链接,就形成了一个图谱形式的事理逻辑脉络,即事理图谱。

说到事理图谱,就不得不说事件表示。事件表示是事理图谱中的重要问题之一,目前学界和业界正在寻求一种尽可能灵活、简单的方式去表示事件。在事件表示上,有上海大学刘宗田老师团队提出的“事件六要素本体模型”[5],即将事件建模成e = { A,O,T,V,P,L}的表示形式, 其中:A 为动作要素; O 为对象要素; T 为时间要素; V 为环境要素; P 为断言要素;L 为语言表现。 而这种表示方式无法直接用于图谱节点表示,更可能成为一种事件描述信息隐藏于图谱事件节点背后。我们在实际的工作当中,尝试了几种事件表示方式,如含义、举例、优缺点如图9所示:

手把手 | 事理图谱,下一代知识图谱_第10张图片

图9

当前人工智能时代下,机器与人类之间的博弈一直在进行着。如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工智能领域大规模应用的如今,人工智能已经走过近60年的时间。人工智能的发展先后经历了两次黄金期以及两次低谷。1957年第一款神经网络的发明点燃了第一次人工智能的高潮,而随后在20世纪70年代,受限于当时的运算资源,并不能完成大规模的数据训练,人工智能一度陷入低谷,直到1982年德普摩尔神经网络的提出以及BP算法的出现使得大规模神经网络训练成为可能后,人工智能才逐渐缓过神来,并提出了全面实现人工智能计算机的目标,掀起了第二个黄金时期。

但直到21世纪初,人工智能计算机并未实现以及政府的撤资,又一次将人工智能拉入低谷。随后,在2006年深度学习神经网络取得突破性进展,一直到2015年深度学习算法在语音和视觉识别上取得的成功,再次引领了以深度学习为主流的人工智能时代第三个黄金期。

我们从汉语句法学和语义学的角度出发,全面梳理了上千条事件逻辑关系显示表达模式,构建起了两千万领域新闻资讯库,运用事件抽取、事件对齐、事件融合以及泛化技术,形成了规模约400万的事理图谱,并实现了事理图谱的动态更新。接下来,我们分别介绍在顺承事理图谱和因果事理图谱上的一些成果:

图10分别是部分“出行”和“烹饪”两个顺承子图谱。从中我们看到,围绕着“去丽江”这一事件所产生的顺承逻辑,如“拿#身份证”->“去#售票口”-> “去#买票”->“遇上#旺季”->“去#丽江”这一顺承逻辑,“去#丽江”-> “预订#客栈”->“看过#攻略”->“结合#眼光”->“没有#价值”->“擦亮#眼睛”这一顺承逻辑结构。“去#庄园”->“去#竹林”->“挖#冬笋”->“切成#块”->“配上#鳊鱼”-> “匀以#薯粉”->“成#棒状”->“入#油锅”->“炸成#小块”这一顺承事件链形象地描述了“烹饪”这一事件的时序关系。这种顺承事理逻辑在揭示叙述性与步骤型事务的刻画上是一种很好的形式。

手把手 | 事理图谱,下一代知识图谱_第11张图片

图10

以下分别是以“银行降准”和“智利地震”事件为核心所关联的因果事理逻辑链,今年10月07日,央行宣布银行降准,这势必会造成多骨诺米牌效应,如图11中所示:

手把手 | 事理图谱,下一代知识图谱_第12张图片

图11

银行降准会导致保险股高开、银行股持续走强,银行股持续走强先后带来银行板块集体拉升、板块个股出现普涨状态等结果。在“智利地震”这一事件因果事理图谱中,我们可以看到受波及的一些列后续事件,如高档鱼粉价格上浮、早盘稀土板块高开、国际纸浆价格大幅上涨等事件,这些事件又进一步传导,最终导致之家集体反弹、北京生活用纸普遍提价、沪铝价格波动区间上移等结果。这些因果逻辑在普通人看来,并不能立刻想到,相反的,只有具有专业背景的人员才能有这种逻辑推导思维。如此看来,事理图谱对于这类专业的逻辑链条可以进行良好的组织和刻画。

事理图谱和知识图谱的融合

如上面所介绍到的事理图谱中是以事件为单位一种逻辑链路,而实体识事件的一个重组成部分,通过实体识别和实体链接技术可以将事件中的实体链接到相应的实体知识库当中。如图12所示:“范冰冰阴阳合同违法”这一事件当中,人物“范冰冰”可以链接到包含“范冰冰”这个人物的人物关系图谱,如搜狗人物关系图谱,导致光线传媒、华谊嘉信、华谊兄弟等传媒公司的股价下跌这一事件中,光线传媒、华谊嘉信以及华谊兄弟这些公司类实体,实体可以进一步连接到以公司为实体的公司金融知识图谱,该图谱中包含了公司的主营产品、所属板块、竞争对手等各方面的信息,图13显示了融合后的状态。

手把手 | 事理图谱,下一代知识图谱_第13张图片

图12


图12显示了事理图谱和知识图谱融合后的状态(部分),通过因果关系事件,将事件中的实体进行关联,结合实体之间的关联,可以进一步进行拓展,查询,从而实现整体图谱的联动。

手把手 | 事理图谱,下一代知识图谱_第14张图片

图13

除公司知识图谱与事理图谱的融合之外,我们在产业链知识图谱和事理图谱融合的工作上进行了尝试,如图14所示展示了“澳大利亚锌矿执行复产计划事件”的融合效果子图(部分),从“澳大利亚锌矿执行复产计划事件”缓解相关铅产量恢复等事件出发,可以将事件与“铅”商品这一商品、有色产业链等行业板块类实体与行业相链接,进一步找到相应的商品、个股等信息,通过这种链接和融合,可以进一步对事件进行知识信息的扩展,形成从事理到知识概念的通路。

手把手 | 事理图谱,下一代知识图谱_第15张图片

图14

事理图谱的应用探讨

事理图谱有多种应用场景,我们在实践过程中,主要总结出了以下5种应用形式:

1、基于事理图谱的知识问答。由于后台有以事件和静态知识为核心的事理逻辑,可以在完成“when”,“who”,“what”,“where”等常识问题的同时,进一步回答“how”以及“why”的问题,这种问答的形式既可以是可视化搜索式,也可以是问答形式,如图15所示:

手把手 | 事理图谱,下一代知识图谱_第16张图片

图15

当用户输入“特朗普和金正恩又骂战了会怎么样?”这一问句后,系统能够给出直接的回答“这很有可能会是的美国朝鲜局势更为紧张,朝鲜局势紧张可能会带来全球股市走低、避险情绪升温、金价上涨等一系列影响”。通过对该回答,再配以可视化因果逻辑链的展示方式,可以进一步为这一回答提供佐证。

2、基于事理图谱的消费意图识别。本文在前面说到,顺承事理图谱对具有时序特征的叙述性事件能够很好的刻画,它描绘了叙述性事件的整个阶段。而我们正好可以利用这种阶段性的特征,完成消费推荐的任务。如图16所示:

手把手 | 事理图谱,下一代知识图谱_第17张图片

图16

例如,当用户发出“丽江是个好地方,我想去看看”的状态时,通过分析该用户的消费意图,将消费意图识别为一个出行事件时,通过游走以“丽江出行”这一个顺承图谱可以推出多种消费行为。例如“出机场、看到接待点”这个子事件可以推出“机票预订与推荐”与“接送机”服务;“预订#客栈”这一子事件可以引出“酒店预订”服务,“买卧铺票”这一子事件可引出“火车票预订”这项需求。全局的来看,整个出行图谱可以作为一个整体的出行指南提供给用户,充当用户规划的“探路者”与“规划师”。

3、基于事理图谱的重要新闻判别与推荐。大数据时代下,海量新闻在网络上快速传播,新闻个性化推荐以及重要新闻筛选成为了新闻检索中的两个重要任务。目前的推荐算法主要基于协同过滤、基于内容推荐和混合推荐方法,这几种方法从本质上来说都是对内容与用户进行建模并进行相似性计算得到的一种结果。

事理图谱的出现,提供了一种重要性判别方式和新闻推荐方式。“历史总是相似的,重要的事情总是周而复始的出现”,在这一假设下,通过对新闻文本进行事件提取,并结合背后的事理图谱,根据事件后续产生影响的重要性可以为整个新闻进行重要性评分,并给出该新闻事件所蕴含的已有事件和未来事件信息。通过这种方式对新闻资讯进行建模和筛选,并结合用户兴趣模型,可以完成重要新闻的判别和推荐,如图17所示:

手把手 | 事理图谱,下一代知识图谱_第18张图片

图17

4、基于事理图谱的知识管理。知识图谱的本质上是一种以实体、实体属性、实体与实体/属性之间关系形成的一个知识库。而由于知识图谱中的知识是动态变化的,尤其在多源知识融合、知识对齐当中,为了保证知识的准确性、实时性,通常需要进行知识管理和编辑,这种操作可以类似成数据库的增、删、改、查操作,图18是我们开发的一个知识图谱编辑和管理工具,该工具可以支持对知识图谱中知识数据的CRUD操作。当然,这种知识更新的方式是人工自动发现并进行编辑,本质上来说,并没有实现知识图谱中数据的全自动更新。

手把手 | 事理图谱,下一代知识图谱_第19张图片

图18

与知识图谱不同,事理图谱这一以事件为实体节点,并融入静态实体的知识组织方式将静态的知识和动态的逻辑规则(前面说到的多种事件关系)形紧密相连,形成一个强大的逻辑链路网络,使得事理图谱天生具备了知识更新指导能力。将事理图谱与实际的业务逻辑系统相结合,并不断赋予事理更全面、更精细的逻辑体系,能够在一方面对根据外界事件知识的变化而对已有静态知识进行及时动态更新,如银行客服系统中的会话流程控制、互斥业务控制,用户邮储状态的更新等,这将提升银行客户系统的体验和智能水平。

举一个实际的例子:银行业务中知识图谱中有一条知识数据,即用户同时办理了业务A和业务B,而实际上,办理业务A和办理业务B两者之间存在一种互斥关系,那么则可以通过两个业务办理的先后顺序,更新用户的业务知识信息,将办理业务B这条知识进行移除。类似的例子还有很多。

5、基于事理图谱的推理与辅助决策。知识推理是知识图谱的终极目标,基于过去已知知识进行知识推理,采用如事件驱动传导路径等进行知识发现,能够在业务的推理和辅助决策上也能带来一定帮助,如智能投研中的未知风险预警、公司舆论控制等,如图19展示了我们目前开发形成的事件驱动工具,通过人工自定义构造传导链,进行既定模式检索,可以完成对既定知识逻辑路线的发现与探索。

手把手 | 事理图谱,下一代知识图谱_第20张图片

图19

以上图中描述的“寻迹”模式进行逻辑链条传导的方式不同,基于事理图谱的事件传导中的逻辑联系更为接近于人脑中的真实逻辑链条。前者传导的路径存在着一个基本型的假设,即知识与知识之间的属性或关系通过人工方式强制地进行映射和编制,其中有个十分明显的缺陷就是传导边上的逻辑概率量化问题。

“事理图谱”的出现,则从事件状态的逻辑转移上为这种推理机制提供了一个新的方向。如图20所示的demo所示,用户输入一个事件点击提交之后,运用事件规范化和事件相似性计算等方法,我们会在后台400万个事理图谱找到一个与用户输入事件最为相似的一个事件,以该事件为核心会返回多条相似事件所造成的影响事件。

针对影响事件,我们运用事件重要性判定技术和事件实体链接技术对影响事件进行过滤,使得造成的事件中一定是某种商品或者公司的类似事件,这种方式能够就用户给定的事件,给出一个最为直接了当的标的结果。图20中展示了以“螺纹钢价格上涨”为核心的因果逻辑传导推理链条,在经过不断进行链条的推理扩展之后,步步推理至各类实体事件后最终产生的结果图。从一度推理的“螺纹钢价格上涨”导致废钢库存小幅减少,到小麦期货小幅收低等多层推理结果等,能够在一定程度上描绘出整个逻辑链条的传导机制。

手把手 | 事理图谱,下一代知识图谱_第21张图片

图20

当然,基于因果事理图谱的逻辑影响推理仍然存在着诸多不足,比如多层逻辑推理上的效应传导量化与误差传播问题,事件对齐与泛化问题,这些对事理逻辑的准确性都有着较大的影响,这都是后续努力攻克的方向。

事理图谱的未来和挑战

知识图谱从提出至今,经过技术的更新和体系的逐步完善,已经在各方面得到了一定规模的运用,但在描述动态现实社会知识和认知智能思考上还存在一定不足,如何解决以上两个问题,赋予知识图谱更大的力量,将是未来知识图谱努力的方向。就知识而言,静态的知识需要一个上层的知识运用逻辑体系,一个知识逻辑体系需要底层强大的知识库作为有效承载,事理图谱,作为一个新的知识组织、表示和管理方式,是认知智能的一个重要突破口。事理图谱是知识图谱“动起来”的神经,知识图谱是事理图谱运行的血肉载体,描述知识逻辑架构的事理图谱与刻画静态概念知识内容的知识图谱携手并进将是未来的一个趋势。

事理图谱是一个庞大的课题,未来还有很长的路要走,如何找到一种灵活的事件表示方式,事理的执行、预测和推演机制,构造出一种知识的自我更新和生长方式,最终实现机器知识的自我更新和生长,将是未来漫漫长路中需要攻克的难题。得益于前人在事理图谱上的一系列非常有启发性的探索工作,我们在知识图谱、事理图谱上的应用场景、技术理论、技术实现上做了一些基础性的推进工作,未来,我们将进一步细化事理关系,完善事理图谱各方面的技术体系,深化事理图谱的构建以及在场景中的应用,愿同各位一道,在通往认知智能的道路上,努力前行!

作者介绍:

数据地平线孵化于中国科学院软件研究所和广州智能软件产业研究院,专注于人工智能、自然语言处理、事理图谱等技术在各类实际业务场景下的研究与应用,旨在以最新最前的沿技术为驱动力为企业机构赋能,用AI解决复杂问题,提高工作效率、节约人力成本、提高商业价值。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31562039/viewspace-2286939/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31562039/viewspace-2286939/

你可能感兴趣的:(手把手 | 事理图谱,下一代知识图谱)