(图片付费下载自视觉中国)
作者| 夕颜
出品| AI科技大本营(ID:rgznai100)
2012 年,谷歌正式提出知识图谱的概念,当时,研究人员的主要目的是用来优化搜索引擎技术。今年初,谷歌前员工,同时是图数据库服务企业 Dgraph 创始人Manish Rai Jain 站了出来,在一篇文章中回顾了 Dgraph 这个数据库产品的前世今生,也顺道爆料了一些谷歌这么多年没能搞定知识图谱的内幕,包括公司内部斗争,项目发展方向多次被误导等。
7 年过去了,谷歌搜索引擎已经一定程度上变成一个知识搜索引擎,但是仍然未达到让人十分满意的结果,比如某些关键词搜索虽然可能比之前的精度高了不少,但是大部分情况下,想要解决自己的实际问题,仍然需要执行多次关键词搜索,从中解析和提取他们需要的信息,然后将完整的结果组合在一起,未能实现当初用户可以得到一个类似知识库的搜索结果的设想。
但这一切都阻挡不了知识图谱概念迅速“蹿红”,并被应用到各行业和领域中,如百度的“知心”,搜狗的“知立方”, IBM的Watson 等。现在,几乎每家互联网公司在宣传中都会将知识图谱作为卖点,但究竟知识图谱在他们的产品和服务中只是一个商业噱头,还是真的让产品变得更好用,实际上还有待查证。
知识图谱是什么?
知识图谱(KnowledgeGraph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。更通俗地讲,知识图谱是由一些相互连接的实体和他们的属性构成的,即由一条条知识组成,每条知识表示为一个SPO(Subject-Predicate-Object)三元组,查询必须是 [S P]→[O]、[P O]→[S],有时候是[S O]→[P]。这些三元组相互关联,构筑成一个类人脑的信息处理结构,并且具有近乎无限的信息扩充空间和成长性。
与之对应的知识图谱技术,则是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等方向的交叉研究。
当前,人工智能其实可以简单划分为感知智能(主要集中在对于图片、视频以及语音的能力的探究)和认知智能(涉及知识推理、因果分析等),知识图谱就是认知智能领域中主要的技术之一。
2012 年谷歌提出知识图谱的概念之后,这项技术迅速火爆,在互联网语义搜索、智能问答带来了活力,让人工智能具备认知能力和逻辑能力,进而实现智能分析、智能搜索、人机交互等场景应用,成为互联网知识驱动的智能应用的基础设施。从此之后,知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。
行业应用现状
根据中国中文信息学会和语言与知识计算专委会发布的 2018 年《知识图谱发展报告》,当前,知识图谱已经在知识融合、语义搜索和推荐、问答和对话系统、大数据分析与决策中凸显出越来越重要的作用。
根据使用范围来划分,知识图谱可以分为通用知识图谱和领域知识图谱。通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,其中包含了大量现实世界中的常识性知识,覆盖面极广,主要应用于面向互联网的搜索、推荐、问答等业务场景。
领域知识图谱又叫做行业知识图谱或垂直知识图谱,通常面向某一特定领域,可看成是一个“基于语义技术的行业知识库”。领域知识图谱基于行业数据构建,通常有着严格而丰富的数据模式,对该领域知识的深度、知识准确性有着更高的要求,目前在金融、医疗、司法等领域已经成为基础数据服务,为上层智能应用提供基础设施支撑。
然而,正如文章开篇便提到的问题,即使是像谷歌这样体量巨大、资源充足,同时是知识图谱“开山鼻祖”的公司,在将知识图谱应用于产品和服务时尚且会遭遇瓶颈和困难,更不用说一些中小企业。
那么,在各领域和行业中,知识图谱技术的应用通常会有哪些痛点?知识图谱技术发展到现在有了哪些本质上的进步?未来值得关注的点和趋势有哪些?带着这些疑问,AI 科技大本营(ID:rgznai100)采访到了华为云通用 AI 服务总经理、语音语义创新 Lab 主任、首席科学家袁晶,从企业实践的角度,探寻知识图谱的真实面貌,以下为采访实录:
AI科技大本营:一直以来大家其实对于华为做知识图谱这块是了解比较少的,您是否可以介绍一下华为在知识图谱这块的起步、发展现状和已经取得的成果?
袁晶:
华为云虽然成立的时间比较晚,但是处于加速奔跑状态,从2018年开始上线了认知AI相关服务,包括自然语言处理、对话机器人等。从2018年下半年开始布局知识图谱云服务和知识计算解决方案。不久前,华为云发布了业界首个企业级知识图谱云服务,帮助企业和政府构建知识图谱,提供涉及知识获取、建模、管理和应用等不同维度的流水线式组件和服务。目前,华为云知识图谱服务已应用于多个行业,包括能源、政务、医疗、基因等不同行业和领域,利用智能化知识抽取、多源异构融合技术,让产品真正发挥价值。
AI科技大本营:知识图谱在各个行业落地时有哪些难点和痛点?
袁晶:越来越多的企业表示要构建知识图谱,但在落地过程中会发现一些问题,比如通常情况下构建图谱的数据存在多源异构的情况。所谓多源是指来源于不同的数据,异构数据可能是结构化的,有可能是半结构化,也有可能是非结构化的,而且彼此schema各不相同,如何把领域内多源异构数据融合起来,构建统一完整的领域知识图谱是一个重要的挑战。
再如经常被提到的知识抽取的问题,如何从大量异构文本中抽取三元组,抽取实体、抽取关系,都是很关键且有挑战的技术。总的来说,整个知识图谱构建过程中有很多这样的技术环节,算法与系统的结合也是很大的挑战。
AI科技大本营:最近一段时间,我们可以看到领域知识图谱其实发展势头比较迅猛,以您的观察来看,哪些领域里知识图谱做得比较好?
袁晶:目前,不同领域都在做知识图谱方向的尝试。相对来说,数据规范度比较好的行业应用知识图谱可能更加高效,比如金融领域和法律领域,这些领域的知识丰富度和文本规范度较高,因而能够比较快产生一些直接可见的应用。我们近期和中石油合作构建了油气行业知识图谱,也取得了一些很有价值且令人惊喜的成效,比如在测井解释领域,极大地节省了测井专家的时间,并利用图表征等技术提升了测井油气层识别准确率。
AI科技大本营:目前,知识图谱在行业应用里有哪些亟待突破的问题?哪些学术成果可以为知识图谱的的落地提供帮助?以及未来在知识图谱这块学术界和业界有哪些值得注意的问题?
袁晶:学术界很早就已经开始知识图谱相关的研究了,但在企业将之落地的过程其实与学术界的场景还是有所差异,比如多源异构数据的融合在实际应用场景中很复杂,而且涉及到的数据集往往数据质量本身也有问题,而学术界一般会有一些标准的数据集,在这样的数据集基础上专注在把某个算法或某项技术做到极致。
知识图谱这块新的趋势和方向有很多,比如图表征以及多模态知识图谱,如何把数据从传统的文本数据扩展到图像、语音等不同模态,构建和应用多模态知识图谱是一个值得关注的新方向,学术界和工业界都在做一些尝试。
AI科技大本营:目前,企业应用知识图谱技术的门槛有哪些?壁垒有多高?
袁晶:知识图谱对于企业来说其实只是一个工具,我认为关键是要让知识获取,知识建模,知识管理来匹配知识应用,最终还是要能满足具体的业务需求。所以,对于企业来讲,应用知识图谱的门槛在于如何高效构建知识图谱并实现可扩展可更新,或者说需要有一个相对通用的框架,帮助企业快速地发挥业务数据的价值,这也是华为云打造的知识图谱云服务提供的核心价值之一。
AI科技大本营:现在,很多企业它在从数字化向知识化转变,在这个过程中知识图谱会发挥什么样的价值?或者说为什么知识图谱是企业知识化转型的关键?
袁晶:传统数字化转型更多地是解决结构化数据的问题。现在的知识化转型主要是指挖掘出蕴藏在大量半结构化、非结构文本里的历史经验、专家知识,帮助企业提升效率和智能化程度。当前来看,知识图谱是实现这一点很重要的工具,同时也是帮助企业从数字化转型到知识化转型的非常重要的一个手段。但是,未来知识图谱是否还会是当前大家定义的这样,以及未来的认知智能是否依赖知识图谱我觉得还不一定,未来发展的可能性是多种多样的。
AI科技大本营:华为提出了 KaaS 的概念,是否可以介绍一下 KaaS 的概念?KaaS 可以为企业知识化转型、提升效能提供什么样的帮助?
袁晶:最近,华为云提出了一个KaaS(Knowledge-Computing as a Service),让知识计算成为服务的概念,让企业和行业能享用知识计算能力的便利。这个框架包含了华为云在知识获取、知识建模、知识管理和知识应用这四大层面的云服务组件,所以它其实是一个整体的解决方案,每一块都由华为云不同的云服务来承载,如在知识获取中可以使用华为云OCR服务对图片数据源进行解析;在知识建模的过程中提供不同建模方式,除了以图的形式建模,还可以以知识库的形式建模,提供服务化工具帮助企业自动挖掘文档构建对话语料库,提升知识建模的效率; 在知识计算最核心的应用层面,华为云KaaS为一些典型应用场景,如垂直领域搜索、推荐、对话、文本自动生成等提供服务,让知识真正发挥价值。
AI科技大本营:从 2018 年左右,大家更多的强调 AI 落地问题,AI 发展进入冷静期,在这样的情况下,知识图谱在 AI 后续的发展中将起到什么作用?未来,知识图谱会有哪些发展方向和趋势?
袁晶:刚才您提到落地的难度和挑战,我觉得其实任何一门技术,包括AI,经常是一个螺旋上升的趋势。在这个过程之中,知识图谱会是把AI从感知层到认知层,从数字化到知识化转变中非常重要的一个环节。它可能不是以现在这种形态或方式,但实际上它是我们走向未来的一个非常关键的步骤。趋势上来看的话,多模态知识图谱、时空知识图谱,知识图谱的动态管理、动态更新和和动态扩展等都是当前比较热的趋势和方向。
采访嘉宾:
袁晶,现任华为云通用 AI 服务总经理、语音语义创新 Lab 主任、首席科学家。加入华为前,曾任微软人工智能创造事业部副总经理、微软资深科学家主管,负责微软Bing亚太区知识图谱构建和应用。作为微软小冰AI创造技术总负责人,带领团队研发了包括看图写诗,听音作画,词曲创作等人工智能在“创作”领域的一系列功能和产品,并出版了首部人工智能诗集《阳光失了玻璃窗》,同时带领团队打造了覆盖国内90%金融机构和40%个人投资者的金融文本生成产品线。在此之前,任微软研究院研究员,在国际顶级会议期刊上发表60余篇论文,并多次获得最佳论文奖项,相关研究被《麻省理工科技评论》等国际主流科技媒体长期追踪报道,并亲自给比尔盖茨汇报相关成果。曾获国家教育部自然科学一等奖、中科院百篇优博论文奖、微软学者奖。长期担任SIGKDD, ACL, AAAI等多个国际会议的程序委员会委员,中国计算机学会(CCF)和美国电气与电子工程师学会(IEEE)高级会员。