1 月 10 日,2021 开源知识运动线上研讨会成功举办。EpiK邀请清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席、著名知识图谱专家王昊奋、著名数据及知识图谱公司创始人及项目负责人王会珍等重量级嘉宾参与。
其中邢春晓老师发表主题演讲《新型区块链数据湖技术研发》从区块链的发展趋势,新型区块链关键技术,区块链赋能经济社会等层面解析区块链+知识图谱发展趋势,为开源知识运动提供了重要的技术解读。在演讲中,邢老师提及目前正与 EpiK 团队保持着密切合作,共同推动区块链+知识图谱的开源体系,开展数据和知识融合的体系的建设,为国家的数字经济提供重要的支持。以下是邢春晓老师演讲全文:
非常高兴参加这次研讨会,我演讲的题目是新型区块链关键技术研究及应用,这四个内容主要是包括区块链的发展趋势,新型区块链关键技术,区块链赋能经济社会,以及最后的总结和展望。
区块链发展趋势
新一代的数字科技正在赋能经济和社会,这与开源知识运动、信息科技的飞速发展密切相关。
我总结归纳为ABCDE,A指人工智能,开源知识就是其非常重要的部分,现在数据和知识的融合成为未来AI发展的重要方向。B,就是区块链;C,代表包括计算和量子计算,D,代表大数据;E泛化了,以前是互联网,现在是万物互联到物联网,它已经形成了一个独特的赛博空间,国际上叫做赛博Space,就是把人、机器、信息相互嵌入起来,形式新兴的社会生活和社会交往虚拟空间,深刻的改变我们的数字生活,并且赋能数字生活和中国社会。
当然大数据有数据、信息和知识,所以我们可以看到ABCD关系中它在正中心的位置上,这个位置实际上包括各种相关数据的感知、传递的作用。
大数据,四中全会首次列为生产要素了,所以它是所需要最重要资源。人工智能包括知识图谱,它是很重要的生产力,同时也是认知学习推理包括协同,需要通过区块链的分布式的模式,来构建开放不可篡改供需机制,特别是提供价值传递的网络。
计算不用说了,今天我们叫做算力、算量和算法,云计算提供了按需服务资源弹性扩展。当前,各个行业都跟区块链有紧密的相关,包括智能合约,包括在保险、教育、传输、供应链等等方面。预计,今年和明年将进入全面商业部署的年份。
区块链整个的频谱发展分为四个阶段,从技术的储备到创新式的解决方案,到完整性解决方案,以及增强解决方案,包括最近在研究的,不管是公有链还是联盟链,以及相关的私有链,已经为我们国家的很多的相关的经济社会提供了重要的技术支持。
在全球的区块链的榜单,中国有部分企业在里面,大部分是欧美的企业。底层的平台中应该还没有中国研发的底层平台,排在最前面的以太坊、比特币等,为此,建成特色平台体系仍然任重而道远,清华也在做这方面的工作。
欧盟在积极的推动,包括英国、瑞士、俄罗斯、西班牙、法国、德国等等,都在构建关于区块链的产业发展,希望成为全球区块链的引领者。
2016年,国家在信息化首次提出区块链这三个字;2017年,十九大报告提到了数字中国,智慧社会;2018年提及人工智能;2019年7月24日,提出了5656,五大现有领域以及六大发展方向,包括基础研究以及协同攻关标准化的研究,产业的发展,产业的生态和人才队伍的建设;五大重要作用以及六大应用场景,包括金融、数字经济、加民生、智慧城市、互联互通以及电子政务等等;2020年,新基建已经把区块链列为重要的信息的基础设施,也就是信任的基础设施,主要包括三个方面,一个是信息基础设施,一个是融合基础设施,还有创新低基础设施。
如今,区块链已成为重点新技术基础设施,国家在积极布局区块链,出台积极政策扶持并率先的进行相关的应用。
区块链的产业生态正在逐步的形成,当前包括金融、政务、司法、物流溯源、医疗、教育、公益等,已经成为一个重要的生态体系。
区块链关键技术
当前,国家正在研发底层的相关技术平台。我们也在发挥清华的学科推动作用,区块链的相关的技术,包括今天知识图谱,都是跨学科的,因此,清华把区块链及安全作为一个交叉创新学科的重要方向。
我所在的国家信息科学技术国家实验室是六个国家实验室之一,这些实验室应该说在各个学科顶级的,包括信息、物理、化学,光电,以及微尺度,自动化六个国家实验室,主要定位是“四个面向”,聚焦三个方面的问题。
交叉是我们一个重要的方向,特别是跨学科研究的层次的交叉,这个交叉我们可以看到分四个层面,是方法交叉,理论的借鉴,问题的引领,文化的交融。
区块链是一个重要的交叉学科。交叉是跨学科发展的方向,交叉带来创新,以人为中心的,包括今年的疫情生命科学,当然刚才说认知科学、医学结合;以社会为中心的,以伦理、教育、经济、人文,以科学为中心,天文量子科学包括数理化,当然以技术为中心的,特别是包括人工智能、互联网、计算,其中一个重要交叉攻关的就是区块链及安全,包括原始创新的方法。
区块链发展有四个重要的阶段:第一个阶段就是1.0可编程的货币,2.0可编程的金融,3.0可编程的社会,到4.0软件定义的智慧社会,知识很重要,因为软件实际上也是人类知识的结晶,由软件代码和数据或者我们说程序来体现。
1.0是以比特币为首的,包括我们看到它的前端,挖矿的节点,还有后台。2.0是以以太坊为首的,智能合约增加了激励共识网络;3.0,我们认为很重要的,包括脸书提出的libra和可插拔的共识模块等等。4.0,在3.0的基础上支持智能的经济社会和民生。
区块链的核心关键技术主要包括六个方面:体系结构,共识机制,区块链的监管,区块链的互操作,以及区块链安全性和隐私保护。
区块链的开放参考架构,包括五横四纵。这实际上是面向企业级的应用,主要有五个层面的发展方向:体系结构、基础理论、关键技术、创新的生态以及示范应用。我们把它归纳为1+3+5+N,一个一体化的分布式可信主权体系,知识实际上就是应该有主权的,现在不是知识的免费,应该是知识的付费阶段。还有3,传统的三角形理论,后来添加了4,即监控,还有就是5,五个技术的交叉融合创新和N个重大的需求。
这是从0到1的原始创新,按照一体化的分布式的主权结构和主权体系,实际上是有六个,由理论、平台、技术、应用、标准、监管构成的,三个主要是解决医学院相关关键技术的问题,特别是性能和分布以及安全之间的关系。
在一体化的“四横两纵”的技术路线中,围绕密码安全理论构建自主可控的两横,实际上两横最重要的就是数据库,围绕当时的关系数据库到非结构化的DRMS的数据库到大数据时代的大数据的系统平台以及今天可信的华鼎,因为现在我们主要是围绕华鼎1.0到4.0,更多是围绕数据的存储和智能合约为中心的新型区块链数据库系统。
今天的题目主要还是围绕新型区块链数据湖,新型区块链安全体系的着眼的重点,包括它的隐私保护、设施的应用安全、安全评测技术、密码方面的起源性。我们的方向主要是围绕区块链数据库或者数据湖,因为数据库上升到今天这个阶段已经发展到湖了,区块链和数据湖正在深度的融合,就像我们看到区块链和知识图谱的融合一样,这里面就包括了几种:
一个是传统里面关于事务处理和密态查询,查询分析,可信存储,数据索引,共享交流,包括数据的,包括知识的,特别是因为知识已经跟资产结合,数据资产,知识资产如何共享交换。
另外就是智能的分析和管理,以及智能合约的处理技术,这是我们提出的区块链数据湖管理的软件的整个架构,这个架构实际上体现以密码为核心的新型区块链数据湖的自主可控的一些关键的技术,包括高性能、高可信和高可用、高智能。
这里面很重要的就是可信的存储技术,实际上就是要通过区块链加数据湖,真正把数据和知识体系,建成可信索引,实现安全的访问,实现防篡改数据的溯源。
面向交易,特别是分布式事物处理和事务一致性的问题做了大量的研究,多层的索引技术和密态的查询技术,主要的目的是在提供全副本下的可调一致性的支持,以及优化弹性的事务处理的技术。
在架构中,分析和管理理念里面包括研究基因数据湖的联邦学习和计算以及深度学习和强化学习的调优,还有就是数据智能的分片和组件的设计。智能合约将是里面重要的其中一部分,因为现在智能合约既体现不了智能,也体现不了合约里面的监管,所以我们也正在研发面向监管的智能合约的体系和形式化的合约语言的框架,主要的目的还是能够保证我们智能合约的可验证,这里面包括它的安全性可信性和隐私,都是在这个研究的范围内。因此,安全评测就显得非常重要,包括应用层的安全,系统层的以及运行的安全,包括它的整个架构。
构建网络上的一体化的体系是非常重要的,主要是体现高效可信和开放,我们希望建立以分布式新一代互联网研究的体系,包括我们价值的传递和信任的模式的构建,这涉及到科学问题,主要还是围绕分布式信任的建立和管理能力的问题,怎么来建立包括开放的平台基础设施和底层的架构,底层架构主要是分布式共识的算法,包括真实的存储和真实的计算内容。
区块链赋能经济社会
区块链+知识图谱的重要目标是支持国家目前的数字经济,这就是当下我们常说的数字的产业化,产业的数字化,价值的产业化和产业价值化。这个价值化从单层的农业经济,双层的工业经济到三层跨行业的数据增值的服务再到智能经济时代,实现了知识价值的不断升级,知识实际上就是未来的智能经济,提供行业的知识和决策的价值,将是智能经济的一个重要一环。
我们国家信息化实际上也是从1.0的数字化转型,到2.0的网络化转型,到今天的智能化或者智慧化,实际上这都离不开我们以数据为代表来进行分级挖掘的知识体系的提升,特别是数据和知识的融合。
金融领域是区块链很重要的一个内容,知识图谱本身涉及到各行各业的相关的知识体系的构建,是其中重要的一环。另外,金融里面虚拟资产非常活跃,这方面的监管也显得非常重要,所以包括监管科技和反洗钱反犯罪的技术的研究,追踪等等。
从农业社会、工业社会、信息社会到未来的智慧社会,数据和知识将成为关键的要素,这是我们国家从数字城市到智慧城市不同时间的演变过程。
区块链在新型智慧城市里面的应用,我们提出一个非常重要的三位一体的,就是数据、知识和反馈,我觉得这个跟我们今天讲的非常的贴切,三位一体就是科学决策的体系为我们国家的社会发展提供了重要的支持。
一个是数据体系,大量的数据实际上只能是放在一块,现在串在一起,应该说链在一起,区块链真正能够把数据融合起来。
另一个知识体系,包括通用的知识,包括行业的知识。知识体系的构建,应该说是三位一体其中的一个核心的部分,包括它的抽取和融合推理验证和存储以及应用。
最后是反馈机制。对于多学科、多维度、多视角、多专业来构建问题发现,规律总结和趋势的预测,目标的决策体系都要有反馈。及时的量化,全面精准动态实时的反馈体制非常重要。
数据和知识的融合,将是未来发展的一个重要的方向,特别是在医疗健康,我们看到包括CDSS临床决策支持系统,未来这些场景以及闭环的管理和监控,包括量化的一些指标体系的服务的建设,以及数据中台和整个业务架构,知识都是一个重要的内容。当然这也离不开各种相关的能力和流程的优化。我们在医疗里已经对知识体系做了大量的相关的分析和挖掘的工作,包括国际医疗用区块链+知识的。
知识和数据正在紧密的融合,因此,今年我们开发了华鼎数据库4.0,这个数据库基于区块链相关的可信存储计算,包括查询和优化AI和数据库的结合。目前正与 EpiK 团队保持着密切合作,共同推动区块链+知识图谱的开源体系,开展数据和知识融合的体系的建设,为国家的数字经济提供重要的支持。
与此同时,我们面向行业、医院、政府和相关的应用,并推出了一些标志性项目。
AMiner是我们自主研发基于知识图谱的平台,它的底层就是科技知识图谱,主要来进行科技情报的挖掘,包括神经网络的计算以及智能的服务,这里面涉及到一亿学者,四亿的论文。
另一个标志性的就是医疗健康的平台,我们有三个自然基金的重点项目,就是基于知识图谱构建医疗,一方面是它上面的决策支持,另一个就是它的规则和模型。
区块链发展展望
第一个,区块链科技创新必然是国家间竞争重要的阵地。
第二个,区块链产业的发展,必将成为高质量经济增长的新动能、新引擎,包括中央经济工作会议都提到了“十四五”规划和远景目标,高质量发展是新阶段,同时也是未来发展新的方向,区块链在这里面扮演着重要的角色。
第三个,区块链产业的新模式,将推动信息互联网向价值互联网转化,知识的价值就体现出来,知识如何能够作为跟区块链相结合,能真正的做到互联互通和互操作,体现价值的增值服务是非常重要的一个方向。
第四个,就是区块链的战略新技术,也必将推动交叉学科的融合和发展,大家可以看到我们也是把它作为一个交叉创新的内容,当然它也有很多的风险挑战,如区块链的技术架构和核心技术仍不成熟;基础设施的建设和规模化的应用尚需时日;行业的监管机制亟待攻克难题等等。
对此,我提出四个建议,风清气正的氛围,虚实经济的融合,核心技术的掌握,以及高端人才的培养。