一年一届的数据库领域顶级会议VLDB 2018即将于当地时间8月27日-8月31日在巴西里约热内卢召开。
在本届大会上,腾讯公司TDSQL团队携手中国人民大学、武汉大学共同投中一篇Demo Paper,该工作旨在分布式数据库TDSQL上高效地实现相似查询。
TDSQL团队一直在努力为用户提供丰富的功能、高效的性能和便捷的服务。
在大会召开之际,腾讯TDSQL团队对本届大会的论文佳作进行了分析,萃取了精华之精华以飨读者,分享技术,让我们一起共同成长。
VLDB 会议全称Very Large Data Bases Conferences,是由VLDB Endowment主办的数据库领域学术会议,旨在推广全世界数据库及相关领域的研究成果、促进领域内学术交流。
VLDB是数据库及相关领域研究者、供应商、参与者、应用开发者所广泛关注的主要国际会议,也是公认的数据库领域三大顶级会议 (SIGMOD、VLDB、ICDE) 之一,并且在发表论文难度和受关注程度上,与SIGMOD可谓并驾齐驱。
本次VLDB会议,腾讯公司也设立了展台,欢迎各位与会嘉宾、专家莅临交流。
VLDB 2018会议历时5天,其中首尾日是Workshop(子研讨会),正会3天。
今年VLDB非常重视学术界和工业界交流。除12篇Industrial Paper之外,在Research Paper中也有大量工作由企业主导和参与。大会程序委员会中也有很多来自企业的Track Chair和审稿人。国内包括腾讯、阿里、华为等在内的多个企业都将在大会上设置展台与参会者进行交流。
今年VLDB上,中国高校和企业发表的论文数量超过20篇,但主要集中在图数据、空间和轨迹数据、数据挖掘与机器学习等领域,传统关系数据库 (RDBMS) 的研究工作较少。实际上RDBMS作为重要的基础软件,广泛应用在关系国计民生的各行各业,其核心技术的研发和突破也具有重要的意义(鹅厂的Demo paper就是基于腾讯的分布式数据库TDSQL实现的)。国内的一些企业,如腾讯、阿里、华为等正在大力投入RDBMS方面的研发。
本文主要从论文分布、技术发展动向、奇思妙想三个方面寻找今年VLDB论文中的看点。
首先,我们看一下今年VLDB论文的分布情况。
各领域论文分布
尽管大会将论文按照主题分成了30个Research Session,但由于每个Session中论文报告个数的限制(4-5个),Session的划分比较简单粗暴,Session间的界限和层级关系并不非常清晰。因此我们阅读了全部论文的内容,根据论文所针对的应用和数据类型,将论文进行了更加细致的分类,便于大家了解各个领域的研究热度。
VLDB 2018各领域论文分布图
从上图可以看出,关系数据库 (RDBMS) 的研究仍然是主流,共包含42篇论文,占到论文总数近1/3。图数据相关论文数量也保持稳定(去年VLDB也有20多篇图数据相关论文)。在很多实际的业务中,关系数据和图数据也是最重要的数据类型。据可靠消息,今年VLDB最佳论文也来自图数据领域。而流数据、众包、空间和轨迹数据相关的研究比去年有明显减少,但论文数量的浮动并不完全说明领域的热度。
RDBMS中各子领域论文分布
在RDBMS中,我们进一步对各个子领域进行细分,参见图2。可见存储优化和查询优化是研究热点,占到了RDBMS中近一半的论文数量。而在同样核心但研究难度更大的事务处理、容错恢复领域,研究工作相对较少。
关系数据库各个子领域论文分布图
良好的架构也是RDBMS系统研发的关键。在面向分析的数据库中,用户交互和可视化也是关键的技术。几乎每年VLDB都有这些方面的看点。此外,云数据库、UDF等方面也有相关论文。
来自工业界的论文
据不完全统计,今年会议上企业独立发表论文14篇,企业与高校合作发表论文30篇,总共44篇,占到论文总数的近1/3,可见工业界在数据库研究中参与度之高。实际上,由于企业有更多的机会接触实际业务和生产系统,而高校有更多的新思路和更低的试错成本,企业和高校深入合作经常可以产出高质量的研发工作,这在今年的VLDB上也有体现,很多有看点的论文都来自企业和高校合作。
今年VLDB上,工业界的论文来自Microsoft、SAP、IBM、Google、Amazon、阿里、华为、Facebook、Twitter、HP、Yahoo等企业。在大会接收的48篇Demo中,也有来自微软、腾讯、IBM等企业的系统性研究工作。
从VLDB的论文中,可以观察数据库领域的技术发展方向。我们对论文中的研究内容进行了思考,在这里罗列我们观察到的6个数据库技术发展动向。
新硬件
由于新的存储和计算硬件,如大内存、NVM、SSD、现代CPU、专用处理器和协处理器(GPU、FPGA等)的发展,除了Scale Out之外,数据库系统的Scale Up也是一个方向。如何利用好新的硬件资源、提高数据库系统的性能是本次大会中的研究热点之一。
NoSQL向SQL融合
NoSQL曾经是一个火热的方向,而最近几年来却被提及得越来越少,相关研究工作也逐渐减少。那么NoSQL真的过时或者消失了吗?其实NoSQL的特性主要的是高吞吐、低延迟的数据写入与更新,而SQL仍然是开发者和数据分析师所钟爱的查询接口,很多NoSQL所欠缺的强一致性也是很多应用场景所必须的。
于是NoSQL逐渐向SQL融合,成为关系数据库的底层存储,向SQL回归。
在RocksDB、BigTable等分布式NoSQL存储上支持SQL的事务处理或者数据分析,对于SQL和NoSQL取长补短是数据库发展的一个重要方向。
存算分离
高带宽、低延迟网络技术的发展,逐渐降低了分布式系统中的网络开销,数据和计算的绑定不再那么严格,而存储和计算本身的效率得到了重新的思考。
在云数据库中,存储和计算分离于是成为一个新的发展方向。存储和计算的分离提高了系统架构的灵活度,也便于针对存储和计算分别进行优化,更加充分地发挥硬件的性能、提高存储的可用性和效率。
分布式事务处理
分布式事务处理可以说是数据库领域的珠穆朗玛峰。要支持大规模的分布式事务处理,分布式数据一致性、并发控制等方面的研究挑战都非常大。在高吞吐的分布式数据库系统中,事务处理模块往往也是性能开销最大的部分。
In-database Computation
在数据库内支持复杂计算也是一个发展方向。目前数据分析人员通常需要从数据库中提取数据,再将查询结果导入到各种计算引擎中进一步处理。如果在数据库中可以执行复杂的计算,就可以节省数据拷贝、传输和转换的代价,也降低了维护和学习多套系统的成本。其实UDF也算是一种In-database Computation的形式。
图数据库
图数据在很多实际应用中也是非常重要的数据类型,图数据相关领域多年以来都是研究热点。据可靠消息,今年VLDB的最佳论文就是来自图数据领域的The Ubiquity of Large Graphs and Surprising Challenges of Graph Processing,作者是来自滑铁卢大学的Siddhartha Sahu等人。
除了技术的主要发展方向,在一些具体的技术点上,今年的VLDB大会也有一些有意思的论文。这里介绍几个。
大数据中间件
数据库中间件、消息队列中间件相信大家并不陌生,但是大数据中间件是什么?这只是一个形象的比喻。
数据库社区如何做区块链
区块链是当前的热门话题,那么做数据库的人会怎么做区块链呢?可以看看本次大会上新加坡国立大学、北京理工大学、浙江大学合作的论文ForkBase: An Efficient Storage Engine for Blockchain and Forkable Applications.
压缩数据的直接分析
在大数据分析中,从序列化和压缩的数据中将数据解压并解析成应用程序可处理的数据对象的开销很大。
把多表连接优化用在CEP上
复杂事件处理 (CEP) 根据预定义的模式制定执行计划,将流数据中的多个基本的数据项组合起来,识别出复杂的事件。这是一个研究多年的领域,在流数据处理和实时数据分析中有很多应用。
帮数据分析找代码
数据分析人员要分析数据时,首先需要编写脚本和查询去各种数据源中抽取和转换数据。这是一个非常辛苦、非常无聊的过程。那么有人想过如何帮助分析师编写数据预处理的代码吗?
以上介绍了这么多,大家对VLDB是不是有了更多的了解呢?此时此刻,TDSQL团队仍在巴西里约热内卢,沐着和煦的冬风参加VLDB大会。相信接下来团队与会人员将会有更多的收获!在后续的文章中,他二哥也会继续为大家带来更多的现场报道和技术分享,期待大家继续关注今年VLDB的动态哦!