一文带你理解TDengine中的缓存技术

作者｜王明明，涛思数据软件工程师

小 T 导读：在计算机系统中，缓存是一种常用的技术，既有硬件缓存，比如我们经常听到的 CPU L2 高速缓存，也有软件缓存，比如很多系统里把 Redis 当做数据库的缓存。本文为根据 TDengine 线上 Meetup 第四期王明明的分享《TDengine 缓存技术解析》（视频）整理而成。

TDengine 是一款高性能的物联网大数据平台。为了高效处理时序数据，TDengine 中大量用到了缓存技术，自己实现了哈希表、缓存池等技术。今天我会为大家讲解 TDengine 中用到的这些缓存技术。

首先我会介绍一下什么是缓存，常用的缓存技术，最后重点分享 TDengine 中的相关技术，最好讲一下改进和优化的方向。下面我们正式开始。

什么是缓存？

凡是位于速度相差较大的两种硬件之间，用于协调两者数据传输速度差异的结构，均可称之为缓存。

缓存工作的原则主要是引用的局部性，包括空间局部性和时间局部性。

空间局部性是指 CPU 在某一时刻需要某个数据，那么很可能下一步就需要其附近的数据，例如加载读磁盘数据的时候，虽然只需要一部分数据，但是每次都加载一个块，那么当需要附近数据的时候就可以直接从内存获取，避免再读取磁盘。
时间局部性是指当某个数据被访问过一次之后，过不了多久时间就会被再一次访问。例如我们手机后台运行程序，会把最近打开的应用缓存在后台，很可能一会儿还会访问相同的应用，这种情况下直接将其从后台调到前台即可。

在使用缓存时要根据系统的架构、性能的要求以及要解决的问题选择合适的缓存位置，比如内存缓存、磁盘缓存、分布式缓存等。

使用缓存有很多优点：

缓存是有状态的，包括时间状态和空间状态。

使用缓存时需要考虑的问题：

缓存一致性问题：

当使用分布式的缓存时，需要考虑多个缓存的一致性问题，防止由于不一致出现问题。
处理一致性问题时需要根据实际的应用场景兼顾 CAP 原则。根据问题的场景不同，一致性要求也不同，可以强一致性或者弱一致性(最终一致性)。
a. 比如银行转账场景需要强一致性，数据没统一之前，不允许用户进行操作，防止金额出错。
b. 大多数互联网产品为了保证可用性和分区容错性，通常采用弱一致性，比如不同地区的用户看到的同一个排行榜可能有非常短暂的不同，但数据同步成功后，排行榜就相同了，这个延迟通常在几十 ms，对于用户来说是可以接受的。

首先我们来复习一下 TDengine 的整体架构。

数据节点(dnode)：服务进程，可以包括多个 vnode 和 mnode，查询数据时需要 dnode 的网络位置来获取数据。
虚拟节点(vnode)：存储、查询的基本单位。多个 vnode 组成一个虚拟节点组(VGroup)，分布在不同的机器上，起到备份的效果。同时 vnode 也便于水平扩展。
管理节点(mnode)：存储数据库的元数据，起到管理集群的功能。

再来看一下 TDengine 的数据模型。

TDengine 中都有哪些数据需要缓存呢？

具体可以分为如下几类：

接下来我们就具体看一下 TDengine 中的缓存方案。

首先是通用的哈希缓存（meta data/ rpcObj/ qinfo）。

哈希缓存，通过一个列表来管理，每个元素是一个缓存结构，里面包括缓存信息、哈希表、垃圾回收链表、统计信息、更新频率、锁等信息。此外，有一个刷新线程定时检测缓存列表中过期的数据，将其删除。

查询计划 id (query handle)，query handle 是数据库查询时，server 先生产一个执行计划，返回给 client，然后 client 拿着这个计划 id，分多次去 server 取数据，直到数据查询完。这个缓存是消息时间范围，整个进程内有效的，不需要更新，使用完即释放。

元数据缓存（meta data)， meta data 数据主要记录数据表的 scheme，所在的节点地址。通过客户端缓存 meta data 可以避免频繁的向 mnode 取数据。但是 meta 数据需要考虑更新一致性问题。通过版本号来控制。

其次是 TSDB 内存块缓存 (double buffer/buffer pool)。

TDengine 提供双缓存/缓存池来优化数据写入查询的性能。预分配 16M*6 的 buffer pool，使用超过 1/3 容量落地，落地时 mem 转化为 imei（不可变更），负责写入磁盘。
直接将最近到达的数据保存在缓存中，可以更加快速地响应用户针对最近数据的查询分析，整体上提供更快的数据库查询响应能力。
TDengine 重启以后系统的缓存将被清空，之前缓存的数据均会被批量写入磁盘，之前缓存的数据不会重新加载到缓存中。
数据查询时首先通过 time range 定位数据所在的位置，因为 MEM 和 IMEM 中都记录有最新、最旧数据的时间戳。然后如果在 MEM 中，通过跳表来快速查询数据位置。在磁盘中，通过磁盘块文件索引查找数据，最后做结果融合返回。

再来看 last 和 last_row 缓存 (local storage)。

时序数据库总是有对最新一行数据或者某列最新一条数据查询的需求，因此设计了 last 和 last_row 缓存来快速响应用户需求。防止每次都去磁盘查询数据。
每个表开辟缓存区缓存该数据，服务启动时会全量加载，插入时会更新，此外在配置更新的时候，也会更新缓存数据。比如，默认是关闭的。用户使用命令开启缓存功能时，就会加载数据，同理关闭开关时，会释放之前的缓存区。