System Design 缓存 - 学习笔记

引用:
系统设计入门
缓存架构设计细节二三事

有哪些缓存级别

客户端缓存

缓存可以位于客户端(操作系统或者浏览器)。

CDN 缓存

CDN 也被视为一种缓存。

CDN边缘节点缓存策略因服务商不同而不同,但一般都会遵循 HTTP 标准协议,通过 HTTP 响应头中的 Cache-control: max-age 的字段来设置CDN边缘节点数据缓存时间。

当客户端向CDN节点请求数据时,CDN节点会判断缓存数据是否过期,若缓存数据并没有过期,则直接将缓存数据返回给客户端;否则,CDN节点就会向源站发出回源请求,从源站拉取最新数据,更新本地缓存,并将最新数据返回给客户端。

CDN服务商一般会提供基于文件后缀、目录多个维度来指定CDN缓存时间,为用户提供更精细化的缓存管理。

CDN缓存时间会对“回源率”产生直接的影响。若CDN缓存时间较短,CDN边缘节点上的数据会经常失效,导致频繁回源,增加了源站的负载,同时也增大的访问延时;若CDN缓存时间太长,会带来数据更新时间慢的问题。开发者需要增对特定的业务,来做特定的数据缓存时间管理。

Web 服务器缓存

反向代理和缓存可以直接提供静态和动态内容。Web 服务器同样也可以缓存请求,返回相应结果而不必连接应用服务器。

参见 NGINX缓存使用官方指南

数据库缓存

数据库的默认配置中通常包含缓存级别,针对一般用例进行了优化。调整配置,在不同情况下使用不同的模式可以进一步提高性能。

当有很多相同的查询被执行了多次的时候,这些查询结果会被放到一个缓存中。
这样,后续的相同的查询就不用操作表而直接访问缓存结果了。

// 查询缓存不开启
$r = mysql_query("SELECT * FROM student WHERE signup_date = CURDATE()");

// 开启查询缓存
$today = date("Y-m-d");
$r = mysql_query("SELECT * FROM student WHERE signup_date = '$today'");

像 CURDATE(), NOW() 和 RAND() 或是其它的诸如此类的SQL函数都不会开启查询缓存。
因为这些函数的返回值是不定的。

应用缓存

基于内存的缓存比如 Memcached 和 Redis 是应用程序和数据存储之间的一种键值存储。由于数据保存在 RAM 中,它比存储在磁盘上的典型数据库要快多了。

Redis 有下列附加功能:

  • 持久性选项
  • 内置数据结构比如有序集合和列表

参见 Spring 缓存开发实践 & Redis 集成

何时更新缓存

由于你只能在缓存中存储有限的数据,所以你需要选择一个适用于你用例的缓存更新策略。

缓存模式

System Design 缓存 - 学习笔记_第1张图片
缓存模式

应用从存储器读写。缓存不和存储器直接交互,应用执行以下操作:

  • 在缓存中查找记录,如果所需数据不在缓存中
  • 从数据库中加载所需内容
  • 将查找到的结果存储到缓存中
  • 返回所需内容

Memcached 通常用这种方式使用。
添加到缓存中的数据读取速度很快。缓存模式也称为延迟加载。只缓存所请求的数据,这避免了没有被请求的数据占满了缓存空间。

缺点:

  • 请求的数据如果不在缓存中就需要经过三个步骤来获取数据,这会导致明显的延迟。
  • 如果数据库中的数据更新了会导致缓存中的数据过时。这个问题需要通过设置TTL强制更新缓存或者直写模式来缓解这种情况。

直写模式

System Design 缓存 - 学习笔记_第2张图片
直写模式

应用使用缓存作为主要的数据存储,将数据读写到缓存中,而缓存负责从数据库中读写数据:

  • 应用向缓存中添加/更新数据
  • 缓存同步地写入数据存储
  • 返回所需内容

由于存写操作所以直写模式整体是一种很慢的操作,但是读取刚写入的数据很快。相比读取数据,用户通常比较能接受更新数据时速度较慢。缓存中的数据不会过时。

缺点:

  • 由于故障或者缩放而创建的新的节点,新的节点不会缓存,直到数据库更新为止。

回写模式

System Design 缓存 - 学习笔记_第3张图片
回写模式

在回写模式中,应用执行以下操作:

  • 在缓存中增加或者更新条目
  • 异步写入数据,提高写入性能。

缺点:

  • 缓存可能在其内容成功存储之前丢失数据。

缓存的缺点:

  • 需要保持缓存和真实数据源之间的一致性。
  • 需要改变应用程序比如增加 Redis 或者 memcached。
  • 无效缓存是个难题,什么时候更新缓存是与之相关的复杂问题。

缓存与数据库

缓存是一种提高系统读性能的常见技术,对于读多写少的应用场景,我们经常使用缓存来进行优化。
例如对于用户的余额信息表 account(uid, money),业务上的需求是:

  1. 查询用户的余额,SELECT money FROM account WHERE uid=XXX,占 99% 的请求
  • 更改用户余额,UPDATE account SET money=XXX WHERE uid=XXX,占 1% 的请求

由于大部分的请求是查询,我们在缓存中建立 uidmoney 的键值对(uid -> money),能够极大降低数据库的压力。

读操作流程:

  1. 读取缓存中是否有相关数据,uid -> money
  • 如果缓存中有相关数据 money,则返回【数据命中 hit】
  • 如果缓存中没有相关数据 money,则从数据库读取相关数据 money【数据未命中 miss】,放入缓存中 uid -> money,再返回
    缓存的命中率 = 命中缓存请求个数/总缓存访问请求个数 = hit / (hit + miss)

问题来了:
当余额数据 money 发生变化的时候:

  1. 是更新缓存中的数据,还是淘汰缓存中的数据呢?
  • 是先操纵数据库中的数据再操纵缓存中的数据,还是先操纵缓存中的数据再操纵数据库中的数据呢?
  • 缓存与数据库的操作,在架构上是否有优化的空间呢?

是更新缓存中的数据,还是淘汰缓存中的数据呢?

更新缓存

  • 数据不但写入数据库,还会写入缓存
  • 优点:缓存不会增加一次 cache miss,命中率高

淘汰缓存

  • 数据只会写入数据库,不会写入缓存,只会把数据淘汰掉
  • 优点:简单
  • 缺点:增加了一次 cache miss

取决于 更新缓存的复杂度
例如,上述场景,只是简单的把余额 money 设置成一个值,那么:

  1. 淘汰缓存的操作为 deleteCache(uid)
  • 更新缓存的操作为 setCache(uid, money)

更新缓存的代价很小,此时我们应该更倾向于更新缓存,以保证更高的缓存命中率。

如果余额是通过很复杂的数据计算得出来的,例如业务上除了账户表 account,还有商品表 product,折扣表 discount
业务场景是用户买了一个商品 product,这个商品的价格是 price,这个商品从属于 type 类商品,type类商品在做促销活动要打折扣 zhekou,购买了商品过后,这个余额的计算就复杂了,需要:

  1. 先把商品的品类,价格取出来:SELECT type, price FROM product WHERE pid=XXX
  • 再把这个品类的折扣取出来:SELECT zhekou FROM discount WHERE type=XXX
  • 再把原有余额从缓存中查询出来 money = getCache(uid)
  • 再把新的余额写入到缓存中去 setCache(uid, money - price * zhekou)

更新缓存的代价很大,此时我们应该更倾向于淘汰缓存

先操作数据库 VS 先操作缓存

当写操作发生时,假设 淘汰缓存 作为对缓存通用的处理方式,又面临两种抉择:

  1. 先写数据库,再淘汰缓存
  • 先淘汰缓存,再写数据库

对于一个不能保证事务性的操作,一定涉及 哪个任务先做,哪个任务后做 的问题,解决这个问题的方向是:
如果出现不一致,谁先做对业务的影响较小,就谁先执行。

假设先写数据库,再淘汰缓存:

  1. 更新数据库操作成功,将编号 001 的账号的余额从 50 元更新为 100 元
  • 可是淘汰缓存操作失败,缓存中是旧数据 50 元,从而造成了 数据不一致,用户查询时,在缓存中命中,返回 50 块的错误余额

结论是:应该先淘汰缓存,再写数据库
这样即使第二步写数据库失败,则只会引发一次 cache miss

缓存架构优化

传统架构:如下所示。缺点:业务方需要同时关注缓存与 数据库。

System Design 缓存 - 学习笔记_第4张图片
传统架构

主流优化方案是 服务化:加入一个服务层,向上游提供数据访问接口,向上游屏蔽底层数据存储的细节,这样业务线不需要关注数据是来自于缓存还是数据库。

System Design 缓存 - 学习笔记_第5张图片
服务化架构

你可能感兴趣的:(System Design 缓存 - 学习笔记)