
什么是学习型索引(Learned Index)?

The Case for Learned Index Structures 来自 Tim Kraska 团队,一维数据学习 CDF。


该 MIT 团队也很快开启了多分支科研上的降维打击,比如哈希、布隆过滤器、多维索引都被这套技术赋能。换汤不换药,最重要的点仍是 RMI 模型。我们这里更加集中于去思考在多维数据这个对象主体,尤其是空间数据(简单理解为 GPS 坐标、移动对象轨迹等)。


这种转换在计算上是昂贵的,并且这种方法仅对基于磁盘的 R 树有效,其中与 IO 成本相比,CPU 时间可以忽略不计。

多维 投影到 一维
LISA 专注于通过使用 lattice regression 模型将空间二维数据映射到一维来最小化磁盘上的 IO。
他的目的是磁盘 IO 优化,这是一个很容易说得通的点。

Flood 和 Tsunami

Flood 基于 RMI,探索多维数据怎么来做 Learned Index,他就是通过 M-D 投影到 1-D,沿用 RMI,有代价模型支持
Tsunami 基于 Flood 考虑 Query Workload,使得结果优化。


R 树具有与叶节点和非叶(内部)节点完全不同的节点,R-Tree 的内部节点存储其子节点的 MBR 以及指向子节点的指针,而叶节点仅存储数据,即点(Point)。

One particular issue on making a learning-augmented spatial index is to understand which part of the spatial index can be augmented with prediction models.

IF-X 没有考虑 query 负载及其分布



