近年来,互联网生态经历了高速发展,数字信息呈爆炸式增长。《中国互联网发展状况统计报告》显示:截止到2020年3月,中国网民规模达9.04亿,网页总数超2978亿。繁杂、海量的信息给人们对知识的学习和使用带来了难整合、难查找、难理解等问题。
人工智能技术如今已经渗透到人们生活和工作的方方面面,在处理和理解海量信息的难题上,“知识图谱”给人工智能技术提供了重要支撑:通过 AI 技术、大数据、以及在与用户互动的过程中不断学习,知识图谱描述客观世界的概念、实体、事件以及它们之间的关系,可以帮助机器更好地理解世界,让人工智能技术更强大。
当前,以“实体图谱”为主的知识图谱主要描述的是实体、属性及实体之间的关系,其知识表达过于简单、难以对动态的客观事件进行理解。因此需要对更复杂的知识体系进行理解与建模。
百度大脑“事件图谱”整合了客观世界复杂多样的事件数据,将实体图谱在时间、空间、动作多个维度展开,有着更强的知识表达能力,可以更好地描述客观世界的动态变化。
以事件为中心的知识结构也更符合人类对客观世界的理解。事件图谱能够帮助人迅速获取并持续追踪事件进展,快速准确地获取核心关键信息,提供辅助决策能力。
百度大脑的事件图谱是什么?都有什么核心能力?它是如何助力各行各业实现智能化升级的?让我们来一起看看吧:
“事件”指在特定的时空下,由一个或多个角色(事件主体)参与的,围绕某个主题开展的一系列活动。
“事件图谱“指持续、快速地获取客观世界中发生的事件,并丰富事件属性、建立事件间的关联关系,构成以事件为基本单位的知识网络。
如下图所示,宋慧乔、宋仲基两个人物在不同时间点经历了各种事件,两人的实体关系因此产生了时序性的变化,形成了一个典型的事件图谱知识网络。
事件图谱能够让人更快发现热点事件、更好理解众多相关事件的现状、因果与脉络,帮助人们更精准地掌握潜在影响、预测未来发展趋势并及时做出应对。同时事件图谱在各行业如投资研究、媒体创作、舆情监测、信贷风控等领域的应用中也扮演着越来越重要角色。
百度事件图谱基于业界领先的知识图谱技术,提供事件检测、事件抽取、因果推理、事件检索等技术,助力各行业智能化升级。目前百度事件图谱技术已经广泛应用在百度自有产品中,如搜索热点事件脉络,地图 POI 变更检测,机器辅助写作等,如下图所示。
除了在百度自有产品的成功应用,事件图谱还在各个行业呈现出广阔的应用前景,下面让我们来看看事件图谱可以赋能哪些行业、为各行各业解决哪些痛点吧:
除了以上场景,事件图谱在政务、公关、智能办公等领域都有着非常广泛的应用。在事件图谱技术能力的帮助下,这些场景的智能化解决方案的落地效果都能得到较大幅度提升。
下图给出了百度事件图谱的技术概览,这里重点介绍其中三大核心能力:事件检测、事件抽取、因果推理。
基于全网资讯内容,事件检测实时挖掘事件短语、发现新热事件、不断补充历史事件,能做到准确、快速、全面地从全网资讯内容中检测出各种事件,是事件图谱构建的第一个重要环节。
百度大脑事件图谱对热点事件已实现分钟级收录,事件规模已达千万量级,能够兼顾热点事件和长冷事件的全面覆盖。比如“热点事件发现”功能可支持省市区县热点事件分钟级监测发现。
事件抽取就是从非结构化自然语言文本中识别事件及其类型,抽取其事件元素。
如下图示例,从一个简单句子中如何抽取出事件的类型、论元角色如时间、地点、人物等核心事件元素:
面对复杂的句子,事件抽取技术会识别出句子中不同类型的事件,并根据论元角色集合抽取所对应的论元:
为了推动事件抽取技术的发展,百度发布了业界最大规模的事件抽取数据集 DuEE,并作为百度数据集开源项目“千言”(https://www.luge.ai/)的一部分向研究人员免费开放。
2020年百度联合中国中文信息学会和中国计算机学会举办了事件抽取技术竞赛,吸引了超过1200名国内外学者的广泛参与。
通过自研的事件定制化抽取,百度大脑事件图谱可提供简单易用的技术功能,无需任何代码能力也可完成抽取。同时进一步降低了对训练语料的数据量依赖,仅需少量训练语料,即可输出高质量事件抽取模型。
因果推理是发现并推导事件间因果关系的一项技术,也是事件图谱最前沿的探索方向。
百度大脑事件图谱通过抽取百度多年积累海量数据中的事件间因果证据,归纳形成精准的因果事理知识,对发生的事件进行因果推理(追溯原因,推导结果)。从而全面提升事件图谱的预测性和可用性,满足各场景对事件因果关系的推理需求。
在实际应用上,因果推理能力可以通过对『美联储购买国债』、『猪肉价格上升』、『新冠疫情爆发』等事件相关信息的学习推理,分析出事件因果对经济、社会、民生的多方面影响,精准把握事件发展态势,辅助人设定合理的投资策略。
如下图示例,是『黄金价格上涨』事件的因果关系推导图。
除了以上三项主要的技术能力,事件检索作为提升知识获取能力的重要技术,也在支持搜索、推荐、舆情监控等业务场景。具体来说,事件检索技术是基于事件维度的新一代智能检索。通过抽取并展示事件的参与者、地域、行业、情感倾向、摘要等结构化属性,实现全网海量资讯聚合,并按时间梳理出事件脉络,最终全方位展示事件全貌。
目前事件图谱可支持检索的事件规模已达千万级,关联全网上亿级资讯。
如下图是以『俄罗斯驱逐挪威一名高级外交官』为搜索词检索出的事件详情。
互联网技术的发展日新月异,“得知识者得天下”已经成为各行业的共识。
以事件图谱为代表的大数据+人工智能技术被时代打上追光,这也蕴含大量先验知识的宝库正在被不断的挖掘和应用。
百度大脑作为事件图谱技术的前沿探索者,已经积累了丰富的经验并具备了领先的技术能力。今后更将赋能各行各业,帮助企业降本增效,助力各行业完成智能化升级。
愿搭上百度大脑这辆快车,助我们开发人员更好的解决生活与工作中的大数据,让生活和工作更智能,更开放,更包容,更和谐。