System Design 缓存 - 学习笔记

引用：
系统设计入门
缓存架构设计细节二三事

有哪些缓存级别

客户端缓存

缓存可以位于客户端（操作系统或者浏览器）。

CDN 缓存

CDN 也被视为一种缓存。

CDN边缘节点缓存策略因服务商不同而不同，但一般都会遵循 HTTP 标准协议，通过 HTTP 响应头中的 Cache-control: max-age 的字段来设置CDN边缘节点数据缓存时间。

当客户端向CDN节点请求数据时，CDN节点会判断缓存数据是否过期，若缓存数据并没有过期，则直接将缓存数据返回给客户端；否则，CDN节点就会向源站发出回源请求，从源站拉取最新数据，更新本地缓存，并将最新数据返回给客户端。

CDN服务商一般会提供基于文件后缀、目录多个维度来指定CDN缓存时间，为用户提供更精细化的缓存管理。

CDN缓存时间会对“回源率”产生直接的影响。若CDN缓存时间较短，CDN边缘节点上的数据会经常失效，导致频繁回源，增加了源站的负载，同时也增大的访问延时；若CDN缓存时间太长，会带来数据更新时间慢的问题。开发者需要增对特定的业务，来做特定的数据缓存时间管理。

Web 服务器缓存

反向代理和缓存可以直接提供静态和动态内容。Web 服务器同样也可以缓存请求，返回相应结果而不必连接应用服务器。

参见 NGINX缓存使用官方指南

数据库缓存

数据库的默认配置中通常包含缓存级别，针对一般用例进行了优化。调整配置，在不同情况下使用不同的模式可以进一步提高性能。

当有很多相同的查询被执行了多次的时候，这些查询结果会被放到一个缓存中。
这样，后续的相同的查询就不用操作表而直接访问缓存结果了。

// 查询缓存不开启
$r = mysql_query("SELECT * FROM student WHERE signup_date = CURDATE()");

// 开启查询缓存
$today = date("Y-m-d");
$r = mysql_query("SELECT * FROM student WHERE signup_date = '$today'");

像 CURDATE(), NOW() 和 RAND() 或是其它的诸如此类的SQL函数都不会开启查询缓存。
因为这些函数的返回值是不定的。

应用缓存

基于内存的缓存比如 Memcached 和 Redis 是应用程序和数据存储之间的一种键值存储。由于数据保存在 RAM 中，它比存储在磁盘上的典型数据库要快多了。

Redis 有下列附加功能：

持久性选项
内置数据结构比如有序集合和列表

参见 Spring 缓存开发实践 & Redis 集成

何时更新缓存

由于你只能在缓存中存储有限的数据，所以你需要选择一个适用于你用例的缓存更新策略。

缓存模式

缓存模式

应用从存储器读写。缓存不和存储器直接交互，应用执行以下操作：

在缓存中查找记录，如果所需数据不在缓存中
从数据库中加载所需内容
将查找到的结果存储到缓存中
返回所需内容

Memcached 通常用这种方式使用。
添加到缓存中的数据读取速度很快。缓存模式也称为延迟加载。只缓存所请求的数据，这避免了没有被请求的数据占满了缓存空间。

缺点：

请求的数据如果不在缓存中就需要经过三个步骤来获取数据，这会导致明显的延迟。
如果数据库中的数据更新了会导致缓存中的数据过时。这个问题需要通过设置TTL强制更新缓存或者直写模式来缓解这种情况。

直写模式

直写模式

应用使用缓存作为主要的数据存储，将数据读写到缓存中，而缓存负责从数据库中读写数据：

应用向缓存中添加/更新数据
缓存同步地写入数据存储
返回所需内容

由于存写操作所以直写模式整体是一种很慢的操作，但是读取刚写入的数据很快。相比读取数据，用户通常比较能接受更新数据时速度较慢。缓存中的数据不会过时。

缺点：

由于故障或者缩放而创建的新的节点，新的节点不会缓存，直到数据库更新为止。

回写模式

回写模式

在回写模式中，应用执行以下操作：

在缓存中增加或者更新条目
异步写入数据，提高写入性能。

缺点：

缓存可能在其内容成功存储之前丢失数据。

缓存的缺点：

需要保持缓存和真实数据源之间的一致性。
需要改变应用程序比如增加 Redis 或者 memcached。
无效缓存是个难题，什么时候更新缓存是与之相关的复杂问题。

缓存与数据库

缓存是一种提高系统读性能的常见技术，对于读多写少的应用场景，我们经常使用缓存来进行优化。
例如对于用户的余额信息表 account(uid, money)，业务上的需求是：

查询用户的余额，SELECT money FROM account WHERE uid=XXX，占 99% 的请求

更改用户余额，UPDATE account SET money=XXX WHERE uid=XXX，占 1% 的请求

由于大部分的请求是查询，我们在缓存中建立 uid 到 money 的键值对（uid -> money），能够极大降低数据库的压力。

读操作流程：

读取缓存中是否有相关数据，uid -> money

如果缓存中有相关数据 money，则返回【数据命中 hit】
如果缓存中没有相关数据 money，则从数据库读取相关数据 money【数据未命中 miss】，放入缓存中 uid -> money，再返回
缓存的命中率 = 命中缓存请求个数/总缓存访问请求个数 = hit / (hit + miss)

问题来了：
当余额数据 money 发生变化的时候：

是更新缓存中的数据，还是淘汰缓存中的数据呢？

是先操纵数据库中的数据再操纵缓存中的数据，还是先操纵缓存中的数据再操纵数据库中的数据呢？
缓存与数据库的操作，在架构上是否有优化的空间呢？

是更新缓存中的数据，还是淘汰缓存中的数据呢？

更新缓存：

数据不但写入数据库，还会写入缓存
优点：缓存不会增加一次 cache miss，命中率高

淘汰缓存：

数据只会写入数据库，不会写入缓存，只会把数据淘汰掉
优点：简单
缺点：增加了一次 cache miss

取决于 更新缓存的复杂度：
例如，上述场景，只是简单的把余额 money 设置成一个值，那么：

淘汰缓存的操作为 deleteCache(uid)

更新缓存的操作为 setCache(uid, money)

更新缓存的代价很小，此时我们应该更倾向于更新缓存，以保证更高的缓存命中率。

如果余额是通过很复杂的数据计算得出来的，例如业务上除了账户表 account，还有商品表 product，折扣表 discount。
业务场景是用户买了一个商品 product，这个商品的价格是 price，这个商品从属于 type 类商品，type类商品在做促销活动要打折扣 zhekou，购买了商品过后，这个余额的计算就复杂了，需要：

先把商品的品类，价格取出来：SELECT type, price FROM product WHERE pid=XXX

再把这个品类的折扣取出来：SELECT zhekou FROM discount WHERE type=XXX
再把原有余额从缓存中查询出来 money = getCache(uid)
再把新的余额写入到缓存中去 setCache(uid, money - price * zhekou)

更新缓存的代价很大，此时我们应该更倾向于淘汰缓存。

先操作数据库 VS 先操作缓存

当写操作发生时，假设 淘汰缓存 作为对缓存通用的处理方式，又面临两种抉择：

先写数据库，再淘汰缓存

先淘汰缓存，再写数据库

对于一个不能保证事务性的操作，一定涉及 哪个任务先做，哪个任务后做 的问题，解决这个问题的方向是：
如果出现不一致，谁先做对业务的影响较小，就谁先执行。

假设先写数据库，再淘汰缓存：

更新数据库操作成功，将编号 001 的账号的余额从 50 元更新为 100 元

可是淘汰缓存操作失败，缓存中是旧数据 50 元，从而造成了 数据不一致，用户查询时，在缓存中命中，返回 50 块的错误余额

结论是：应该先淘汰缓存，再写数据库。
这样即使第二步写数据库失败，则只会引发一次 cache miss。

缓存架构优化

传统架构：如下所示。缺点：业务方需要同时关注缓存与数据库。

传统架构

主流优化方案是 服务化：加入一个服务层，向上游提供数据访问接口，向上游屏蔽底层数据存储的细节，这样业务线不需要关注数据是来自于缓存还是数据库。

服务化架构

System Design 缓存 - 学习笔记

有哪些缓存级别

客户端缓存

CDN 缓存

Web 服务器缓存

数据库缓存

应用缓存

何时更新缓存

缓存模式

直写模式

回写模式

缓存的缺点：

缓存与数据库

是更新缓存中的数据，还是淘汰缓存中的数据呢？

先操作数据库 VS 先操作缓存

缓存架构优化

你可能感兴趣的:(System Design 缓存 - 学习笔记)