1 月 10 日,2021 开源数据运动线上研讨会成功举办。EpiK借助区块链去中心化的协作模式搭建共建共享共益的开放知识库,推动知识图谱的开放与互联。此次大会,EpiK邀请清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席、著名知识图谱专家王昊奋、著名数据及知识图谱公司创始人及项目负责人王会珍等重量级嘉宾参与。众位专家学者纷纷就知识图谱开放与互联发表精彩演讲。
今天为大家分享中国计算机学会知识图谱 SIG 主席、著名知识图谱专家王昊奋的主题演讲《开源知识图谱如何保持实用性》,王老师指出,在区块链+知识图谱方面,Epik铭识协议有很深的研究,现在也在推出自己更强大的平台。全文如下:
非常高兴受到Epik铭识协议的邀请,给大家分享一些OpenKG在构建知识图谱过程中的一些思考和现在获得的成果。
关于知识图谱
知识图谱是用来刻画事物之间的关系,沉淀我们的领域知识。我们经常会提到知识的获取,特别来自于非结构化、结构化、多媒体,现在的物联网数据,甚至包括一些众包的数据进行一定的关联和提炼,形成我们称之为经验规范的数据,这其实就是知识。
知识图谱还有一个关键词,叫做图谱,图谱其实就是对于所抽取到的数据进行深度关联,现在有一块专门体系关注原来传统的符号主义和现在的神经连接主义,特别是深度学习为主的联系。因此,当前大家会看到我们现在对于知识的定义,就不再是原来传统的推理,而是称之为知识引擎,这个时候我们就可以赋能下游任务,包括语义的搜索,智能的问答,语言理解,媒体理解,推理引擎和我们各种各样的决策引擎,因此,知识图谱现在越来越多的受到国家、企业、行业以及科研机构关注。
当然不得不提到,清华人工智能研究院的张波院士发文提出了第三代人工智能,第三代人工智能就是从原来最早期的仅以符号为主的专业系统和仅以数据为主的现代深度学习两者的结合,去做到数据和知识的双轮驱动,为下游各种任务进行赋能。
知识图谱从上世纪的一个专家系统开始,引入了很多哲学本体的概念;伴随着Web的成长,从Web到语义网,并得到了图灵奖获得者Web之父TimBerners-Lee的大力支持。2006年,知识图谱的原型出现—Linkeddata,强调数据的开放、数据的链接和数据的语义化;2012年,谷歌在2010年把mataweb收购了以后,将最大的知识图谱合并到了谷歌知识图谱的核心,用知识图谱来赋能搜索引擎,从而让知识图谱进入大众视线。
知识图谱其实是跟一个跨学科多学科以及非常复杂的工程,它聚合了web领域,知识表示和推理领域、AI领域、自然语言处理领域、数据库领域、多媒体领域等等,是各领域各学科的结合。当前各大机构都在在构建知识图谱,这对组织与应用知识图谱给到了相当多的帮助。
关于OpenKG
OpenKG社区目的是为了去推进知识图谱本身各方面的发展,从标准的制定,到数据集的开放,再到工具链的开源开放,再到模型的开放。在这过程,我们就一直在思考到底我们能做些什么。
万维网是open的,语义万维网也是Open的,知识图谱迎来了OpenData,但在开放过程中和想象有出入,这主要是因为数据涉及到隐私保护的问题。但知识本来作为是一个数据上的高度的统一和抽象,代表一类人共识,因此,知识的开源和开放,其实相比数据开源开放来的会少很多问题。
接下来说开源工具,深度学习包括自然语言处理,包括知识表示,以及数据库,他们就构成了我们的开源工具集。深度学习被狭义地认为是人工智能,为什么它发展如此迅猛?这主要来源于开源工具,包括国内的百度深度学习的开源框架,以及开源的代码和开源的模型、开放的数据集,促成了这样的生态繁荣,所以说知识图谱要做到这样一件事,也必须这样。
最后,我也将会提及一些BlockChain方面的内容,进行简单的知识分享。
知识图谱的开放基因是多学科和多领域结合的结果。历史上曾出现过很多语义网的开放项目,包括2006年的Linkeddata,国际上知名的schemaorg,大家共同去提出的一些上层的知识表示的一个规范。其中,VPdata是现在最大的知识众包或者国际上的众包,或者知识库的知识图谱的一个开源平台,当然也包括OpenKG,当前OpenKG的口号就是链上的开放知识图谱。
OpenKG主要的特点是以中文核心为基础的一个开放知识图谱,依托中国中文信息学会作为上级指导单位,涵盖了清华大学、浙江大学、东南大学等高校以及其他产业界如小米,微软,华为等等各方面的同事,共同支持推动这一平台的发展。
OpenKG平台数据集、工具、算法均是开放的,而成员也大多是企业或高校成员,这些成员会发布各类文章,包括学术前沿、产业落地,每年都会出白皮书来指导工作。
今年新冠期间,我们做了一个新冠的专题,主要详细介绍一下新冠的病毒开放知识图谱。这里面包含了百科、科研、药物、防控、临床、流行病学等15个内容,我们是由10余家单位共同构建,包含很多科研的内容,如所属的类别,相似病毒等等,其中有药理学或者宿主以及传播路径,还有很多的防范和临床的指导。
除此之外,通用开放知识图谱也是非常重要的,包括复旦大学的知识工厂提供了CMBDP,北大提供的PTUbase,东南大学和我这边一起提供的知识.me,清华大学提供的是SDI的KG等等。
除了数据集还会有很多的工作,比如知识的关系抽取,数据库、知识表示等等,还有包括知识查询和推理,这些都可以在OpenKG上找到的比较重要的工具。
前面讲到了国际上有一个叫做cnSchemaOpenKG,它是由谷歌和微软以及雅虎、俄罗斯最大的搜索引擎定义的上层的Schema,但并不符合我们的实际,OpenKG也做了一个cnSchema,是以Schema.org作为蓝本,对其中的内容进行一些梳理,扩充了很多符合自身特色的数据源,其中提到了一个顶层的Schema和指导关联的内容。
另一个需要重点提及的是Openbase,这是OpenKG下面的一个知识图谱众包平台,Openbase的目的就是使得大家可以上传一些数据源,提供高质量的知识图谱。以新冠为例,在平台上,除了游客之外,还有审核员、校对员和管理员等角色。知识图谱是由点和边组成,审核任务包括实体审核和关系审核,当然用户也可以申请成为数据的审核组成员,但这需要完成一定的任务,就像B站上要成为一个up主一样,需要通过一定的测试来证明申请人自身的专业性以后,才可以成为这方面的审核员。
在平台角色中,游客主要是起到了下载和浏览的作用,审核者是数据标注和图谱的数据审核,验收者是对于审核者提交的内容确定最终的质量,作出接收或者是退回的操作,他是一个最终的把关和守门员的作用。
同时,为了方便大家碎片化的时间去做很多的众包任务,也进行了一些交互的设计,比如通过小程序可以让大家做很多的判断题和一些相应的选择题,在过程中,用户也可以查看相应的一些信息来得到额外信息帮助他们做判断。
接下来说一下,OpenKG在区块链上的尝试,为什么会考虑到与区块链的结合呢?
知识互联的语义部分强调的是数据的规范化描述和强关联,这也是知识图谱本身最最狭义的一个概念,但是有了互联和链接的硬需求以后,但是还会存在很多的问题,主要在于我们会面临和所有权的一个定界,同时我们也会存在很多新粒度的价值计算和可信的溯源机制,所以我们就需要进一步的落实一些去中心化的架构,来保证每个人都可以维护自己的知识库,并且通过知识的一些可信共识,来确定知识的可信度,因此需要做很多的溯源。同时在这个过程中,因为有很多人参与到了知识的加工或者做知识的挖掘工作,这就需要去做本身价值的计算。OpenKG在2019年早期,开始尝试做确权、溯源以及价值激励的思考。
知识图谱的技术是强调将分散碎片化的数据进行互联和链接融合,同时还需要强调多部门的协同,以及明确部门之间的责权利。知识的生产者需要去确权和追溯责任,同时也需要去评估可信度。在消费者角度来说,通过搜索,通过推理和分析,通过问答进行各种各样的点亮,在各种点亮的过程,就可以对价值进行更多的量化,形成很多的激励。这其中还包含了区块链的核心技术,包括共识算法,分布式帐本以及价值的传播和计算等等。
OpenKG上链,这里面分为几块内容。第一块,是所有的数据源和开源工具,是去做粗粒度的上链。这个时候的粗粒度上链,也就是当下载数据集的过程,会做点亮和传播。第二块,细粒度的知识上链,先是从cnSchema开始,也就是众包上链,接下来就是Openbase当中去审核的各种各样的三元组,包括实体和关系,在这里,三元组做了链上的传阵和分配产生的楼阈值,上传、审核、编辑、搜索下载和查询的一些操作的上链等均可追踪。
当然在这个过程中,测试平台做了一些小规模的测试,也包括一千多位确权的知识贡献者,上链的测试日均点亮的峰值达到一万多次,总计的点亮和链上的存证是160多万次,并首次验证了实现了实体和三元组粒度的知识确权。
OpenKG区块链,我们叫做可信开放的联邦知识图谱平台。目前它是一个联盟链的架构,初始节点差不多七个,交给不同的大学和企业来独立运营,相互的独立,来保证它本身是一个多中心的基础架构,并且是通过共识机制来做分布式帐本,共同提供可信基础设施。在区块链+知识图谱方面,Epik铭识协议有很深的研究,现在也在推出自己更强大的平台。