【VLDB '20】The PGM-index: a fully-dynamic compressed learned index with provable worst-case bounds

code & docs 点这里

摘要

我们提出了第一个这样的学习型索引:它在最坏的情况下在可证明有效的时间和空间范围内支持预处理、范围查询和更新。在仅前置查询和范围查询的(静态)上下文中,这些边界是最优的。我们称之为分段几何模型索引(PGM-index)。其灵活的设计允许我们引入三个变种技术,它们在学习数据结构的上下文中是新颖的。PGM-index 的第一个变体能够使自己适应查询操作的分布,从而产生迄今为止第一个已知的分布感知学习索引。第二个变种利用构成 PGM-index 的学习模型级别可能存在的重复性,进一步压缩其简洁的空间足迹。第三个变种是 PGM-index 的多标准变体,它可以在几秒钟内通过数亿个键高效地自动调谐自身,以满足随着时间的推移在用户、设备和应用程序之间不断变化的时空限制。

在已知数据集上的大量实验结果支持了这些理论成果,实验结果表明,完全动态的 PGM-index将现有传统索引和学习索引的空间占用率提高了三个数量级,同时仍然实现了相同甚至更好的查询和更新时间效率。例如,在前置查询和范围查询的静态设置中,PGM-index 在两个数量级(83×)的更少空间内匹配缓存优化静态 B+-tree 的查询性能;而在允许插入和删除的完全动态设置中,PGM-index 将 B+-tree 的查询和更新时间性能提高了71%,空间开销上减少了三个数量级(1140×)。

理解 predecessor

PGM-index 是目前看上去最靠谱的学习型索引

你可能感兴趣的:(【VLDB '20】The PGM-index: a fully-dynamic compressed learned index with provable worst-case bounds)