本内容转自:
版权声明:本文为CSDN博主「liuhuanyong_iscas」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/lhy2014/article/details/85247268
目前关于事理图谱的构建方式上,主要包括领域专家手动构建以及基于海量文本自动化获取两种方法。前者准确率高但构建成本较大,且规模难以快速增长;后者所见即所得,构建成本较低,规模可快速扩充,能够迅速挖掘出海量逻辑,但缺点是精确度受多方面因素影响,准确率较前者要低。事实上,目前事理逻辑广泛存在于海量文本当中,当我们打开百度或者谷歌搜索引擎,输入“导致”或者“lead to”这一词时,会返回多个包含因果事理的结果,如下图所示。此外,问答社区等资源也为基于海量文本自动化获取事理逻辑提供了可能
事理逻辑的挖掘,可以分成基于显式因果逻辑的挖掘和隐式因果逻辑的逻辑两种。前者通过人工设定因果模式可以获取大量的因果事件对,例如对于句子“受范冰冰阴阳合同事件牵连,唐德影视、华谊兄弟开盘大跌”,可以结构化出<范冰冰阴阳合同事件,导致,唐德影视、华谊兄弟开盘大跌>这样的因果事件对。通过对原因事件和结果事件进行进一步解析,我们可以得到原因事件的关联主体是人物,即影视明星“范冰冰”,事件的动作是“阴阳合同”,结果事件中关联的主体是两家传媒上市公司,华德影视和华谊兄弟,事件的动作是股价大跌。结合上下文,可进一步明确事件发生的时间信息,为2018年6月4日。对这样的事件对,可进一步抽象泛化成一种逻辑规则,即影视明星“阴阳合同->传媒公司股价下跌”这样一条因果模式链。更进一步,通过对动作本身的情感极性进行泛化,我们可以发现,“阴阳合同”属于负面消息,股价下跌这一事件属于负面影响,因此,可以进一步泛化成“明星负面消息->公司利空”这条更为抽象的因果模式链。这样,通过大量的显示模式对事理逻辑进行结构化,对不同来源的事理知识进行融合并层层抽象,可以得到大规模不同层级的事理逻辑,借助知识图谱首尾相接的方式,我们对构建好的一条条事理逻辑进行链接,就形成了一个图谱形式的事理逻辑脉络,即事理图谱。
说到事理图谱,就不得不说事件表示。事件表示是事理图谱中的重要问题之一,目前学界和业界正在寻求一种尽可能灵活、简单的方式去表示事件。在事件表示上,有上海大学刘宗田老师团队提出的“事件六要素本体模型”[5],即将事件建模成e = { A,O,T,V,P,L}的表示形式, 其中: A 为动作要素; O 为对象要素; T 为时间要素; V 为环境要素; P 为断言要素; L 为语言表现。 而这种表示方式无法直接用于图谱节点表示,更可能成为一种事件描述信息隐藏于图谱事件节点背后。我们在实际的工作当中,尝试了几种事件表示方式,如含义、举例、优缺点
事理图谱中事件节点的表示形式
从汉语句法学和语义学的角度出发,全面梳理了上千条事件逻辑关系显示表达模式,构建起了两千万领域新闻资讯库,运用事件抽取、事件对齐、事件融合以及泛化技术,形成了规模约400万的事理图谱,并实现了事理图谱的动态更新。
下图分别是部分“出行”和“烹饪”两个顺承子图谱。从中我们看到,围绕着“去丽江”这一事件所产生的顺承逻辑,如“拿#身份证”->“去#售票口”-> “去#买票”->“遇上#旺季”->“去#丽江”这一顺承逻辑,“去#丽江”-> “预订#客栈”->“看过#攻略”->“结合#眼光”->“没有#价值”->“擦亮#眼睛”这一顺承逻辑结构。“去#庄园”->“去#竹林”->“挖#冬笋”->“切成#块”->“配上#鳊鱼”-> “匀以#薯粉”->“成#棒状”->“入#油锅”->“炸成#小块”这一顺承事件链形象地描述了“烹饪”这一事件的时序关系。这种顺承事理逻辑在揭示叙述性与步骤型事务的刻画上是一种很好的形式。
以下分别是以“银行降准”和“智利地震”事件为核心所关联的因果事理逻辑链,今年10月07日,央行宣布银行降准,这势必会造成多骨诺米牌效应,如图11中所示:
银行降准会导致保险股高开、银行股持续走强,银行股持续走强先后带来银行板块集
五、事理图谱和知识图谱的融合
如上面所介绍到的事理图谱中是以事件为单位一种逻辑链路,而实体识事件的一个重组成部分,通过实体识别和实体链接技术可以将事件中的实体链接到相应的实体知识库当中。如图12所示:“范冰冰阴阳合同违法”这一事件当中,人物“范冰冰”可以链接到包含“范冰冰”这个人物的人物关系图谱,如搜狗人物关系图谱,导致光线传媒、华谊嘉信、华谊兄弟等传媒公司的股价下跌这一事件中,光线传媒、华谊嘉信以及华谊兄弟这些公司类实体,实体可以进一步连接到以公司为实体的公司金融知识图谱,该图谱中包含了公司的主营产品、所属板块、竞争对手等各方面的信息
图12显示了事理图谱和知识图谱融合后的状态(部分),通过因果关系事件,将事件中的实体进行关联,结合实体之间的关联,可以进一步进行拓展,查询,从而实现整体图谱的联动。
图13-事理图谱与金融知识图谱知识图谱融合效果
除公司知识图谱与事理图谱的融合之外,我们在产业链知识图谱和事理图谱融合的工作上进行了尝试,如图14所示展示了“澳大利亚锌矿执行复产计划事件”的融合效果子图(部分),从“澳大利亚锌矿执行复产计划事件”缓解相关铅产量恢复等事件出发,可以将事件与“铅”商品这一商品、有色产业链等行业板块类实体与行业相链接,进一步找到相应的商品、个股等信息,通过这种链接和融合,可以进一步对事件进行知识信息的扩展,形成从事理到知识概念的通路。
图14-事理图谱与产业链知识图谱融合效果
六、事理图谱的应用探讨
事理图谱有多种应用场景,我们在实践过程中,主要总结出了以下5种应用形式:
1、基于事理图谱的知识问答。由于后台有以事件和静态知识为核心的事理逻辑,可以在完成“when”,“who”,“what”,“where”等常识问题的同时,进一步回答“how”以及“why”的问题,这种问答的形式既可以是可视化搜索式,也可以是问答形式,如图15所示:
图15-基于事理的知识问答
当用户输入“特朗普和金正恩又骂战了会怎么样?”这一问句后,系统能够给出直接的回答“这很有可能会是的美国朝鲜局势更为紧张,朝鲜局势紧张可能会带来全球股市走低、避险情绪升温、金价上涨等一系列影响”。通过对该回答,再配以可视化因果逻辑链的展示方式,可以进一步为这一回答提供佐证。
2、基于事理图谱的消费意图识别。本文在前面说到,顺承事理图谱对具有时序特征的叙述性事件能够很好的刻画,它描绘了叙述性事件的整个阶段。而我们正好可以利用这
种阶段性的特征,完成消费推荐的任务。如图16所示:
图16-基于事理的消费意图识别
例如,当用户发出“丽江是个好地方,我想去看看”的状态时,通过分析该用户的消费意图,将消费意图识别为一个出行事件时,通过游走以“丽江出行”这一个顺承图谱可以推出多种消费行为。例如“出机场、看到接待点”这个子事件可以推出“机票预订与推荐”与“接送机”服务;“预订#客栈”这一子事件可以引出“酒店预订”服务,“买卧铺票”这一子事件可引出“火车票预订”这项需求。全局的来看,整个出行图谱可以作为一个整体的出行指南提供给用户,充当用户规划的“探路者”与“规划师”。
3、基于事理图谱的重要新闻判别与推荐。大数据时代下,海量新闻在网络上快速传播,新闻个性化推荐以及重要新闻筛选成为了新闻检索中的两个重要任务。目前的推荐算法主要基于协同过滤、基于内容推荐和混合推荐方法,这几种方法从本质上来说都是对内容与用户进行建模并进行相似性计算得到的一种结果。事理图谱的出现,提供了一种重要性判别方式和新闻推荐方式。“历史总是相似的,重要的事情总是周而复始的出现”,在这一假设下,通过对新闻文本进行事件提取,并结合背后的事理图谱,根据事件后续产生影响的重要性可以为整个新闻进行重要性评分,并给出该新闻事件所蕴含的已有事件和未来事件信息。通过这种方式对新闻资讯进行建模和筛选,并结合用户兴趣模型,可以完成重要新闻的判别和推荐,如图17所示:
图17-基于事理图谱的重要新闻判别与推荐
4、基于事理图谱的知识管理
知识图谱的本质上是一种以实体、实体属性、实体与实体/属性之间关系形成的一个知识库。而由于知识图谱中的知识是动态变化的,尤其在多源知识融合、知识对齐当中,为了保证知识的准确性、实时性,通常需要进行知识管理和编辑,这种操作可以类似成数据库的增、删、改、查操作,图18是我们开发的一个知识图谱编辑和管理工具,该工具可以支持对知识图谱中知识数据的CRUD操作。当然,这种知识更新的方式是人工自动发现并进行编辑,本质上来说,并没有实现知识图谱中数据的全自动更新。
图18-基于传统知识图谱的知识管理
与知识图谱不同,事理图谱这一以事件为实体节点,并融入静态实体的知识组织方式将静态的知识和动态的逻辑规则(前面说到的多种事件关系)形紧密相连,形成一个强大的逻辑链路网络,使得事理图谱天生具备了知识更新指导能力。将事理图谱与实际的业务逻辑系统相结合,并不断赋予事理更全面、更精细的逻辑体系,能够在一方面对根据外界事件知识的变化而对已有静态知识进行及时动态更新,如银行客服系统中的会话流程控制、互斥业务控制,用户邮储状态的更新等,这将提升银行客户系统的体验和智能水平。举一个实际的例子:银行业务中知识图谱中有一条知识数据,即用户同时办理了业务A和业务B,而实际上,办理业务A和办理业务B两者之间存在一种互斥关系,那么则可以通过两个业务办理的先后顺序,更新用户的业务知识信息,将办理业务B这条知识进行移除。类似的例子还有很多。
5、基于事理图谱的推理与辅助决策
知识推理是知识图谱的终极目标,基于过去已知知识进行知识推理,采用如事件驱动传导路径等进行知识发现,能够在业务的推理和辅助决策上也能带来一定帮助,如智能投研中的未知风险预警、公司舆论控制等,如图19展示了我们目前开发形成的事件驱动工具,通过人工自定义构造传导链,进行既定模式检索,可以完成对既定知识逻辑路线的发现与探索。
图19-基于传统知识图谱的事件驱动推理demo
以上图中描述的“寻迹”模式进行逻辑链条传导的方式不同,基于事理图谱的事件传导中的逻辑联系更为接近于人脑中的真实逻辑链条。前者传导的路径存在着一个基本型的假设,即知识与知识之间的属性或关系通过人工方式强制地进行映射和编制,其中有个十分明显的缺陷就是传导边上的逻辑概率量化问题。
“事理图谱”的出现,则从事件状态的逻辑转移上为这种推理机制提供了一个新的方向。如图20所示的demo所示,用户输入一个事件点击提交之后,运用事件规范化和事件相似性计算等方法,我们会在后台400万个事理图谱找到一个与用户输入事件最为相似的一个事件,以该事件为核心会返回多条相似事件所造成的影响事件。针对影响事件,我们运用事件重要性判定技术和事件实体链接技术对影响事件进行过滤,使得造成的事件中一定是某种商品或者公司的类似事件,这种方式能够就用户给定的事件,给出一个最为直接了当的标的结果。图20中展示了以“螺纹钢价格上涨”为核心的因果逻辑传导推理链条,在经过不断进行链条的推理扩展之后,步步推理至各类实体事件后最终产生的结果图。从一度推理的“螺纹钢价格上涨”导致废钢库存小幅减少,到小麦期货小幅收低等多层推理结果等,能够在一定程度上描绘出整个逻辑链条的传导机制。