缓存更新策略

随着移动互联网的野蛮疯长,各种互联网技术层出不穷,但是不管各种技术框架如何滋长,永远无法绕过的一个坎,那就是数据库性能。

之前讨论过一个问题,计算机为了在性能上有一个倍数式的增长,引入了缓存设计,同时也间接引入了并发问题。抛开让人闻风丧胆的并发问题,缓存的引入,本质的问题是磁盘虽然硬件成本低,但是性能低效,而缓存则相反,成本高,但是性能极好,所以在二者权衡之下,选择折中的方案,两者相结合得最大性价比。系统架构同样也面临着性能问题,响应问题。

数据库性能瓶颈

为什么说数据库性能是瓶颈呢?

因为请求可以分发到不同的tomcat上,tomcat可以瞬间部署N份实例出来,数据库你能怎么处理?实际开发过程中,我们常常会讨论一个问题:Mysql连接数配置?Mysql连接数池化?

可见,连接数是一种非常稀缺的资源!

主从同步,读写分离

那么怎么提升连接数,更好的利用这些资源?根据大多数互联网业务都具备读多写少的特性,提出了读写分离,主从配置的技术方案。通过主从同步技术分离出大量的只读库,读写分离技术将大量的读请求分摊到其他从库上,主库只做写操作,这样子勉强可以解决小问题,但是一个主库就可以抗住所有的写吗?业务上来了,一个主库的写根本无法解决问题,这算得上是治标不治本的办法!

分库分表

根据业务特性做分库,将多个库分成不同的数据库,将一个大表的数据分摊到多个表中。从此,分布式事务常伴吾身……

分布式数据库

分布式数据库技术算的上是互联网公司的一大福音,虽然技术难度较大,但是至少是一个很好的解决办法。它又做了什么?它将数据分摊到多个库上。从单库的数据迁移到分布式数据库上,个中艰难,不足为外人道,网上各种酷炫解决办法,但是很多时候却受限于业务,受限于人手……

数据库的性能瓶颈就是不断将数据分摊出去,分摊到不同的库,分摊到不同的表上……可以访问数据库的性能还是不足以让人激动,聪明的架构师们很快就想到在中间层加入一层缓存!

架构演变.png

这个缓存层给我们带来了什么作用?

由于redis的容量一般都只有几个G(那些大土豪请忽略),如此宝贵的缓存当然是放最合适的数据!行业上有个说法是:冷热数据分离,可以考虑把热数据放置在redis中。当用户发起请求时,优先访问redis缓存层,由于缓存访问速度高效的特性,响应速度更好,体验更好,且多数请求不会直接流到数据层。

任何事都是有必有弊的,缓存亦是一个道理。

计算机加入高速缓存层后,出现了并发问题,系统架构中加入缓存后,同样出现了比如:缓存更新问题,缓存穿透,缓存雪崩,缓存一致性等等的一系列问题。缓存的数据会失效,所以需要一个更新策略,来保证缓存中的数据与数据库中的数据一致。

缓存更新策略

今天先了解一些缓存更新策略,以及为什么会有这种一种策略,是为了解决什么样的问题,每种策略有何优缺点?

更新缓存的设计模式有四种:Cache aside, Read through, Write through, Write behind caching

Cache aside

  • 失效:应用程序先从cache取数据,没有得到,则从数据库中取数据,成功后,放到缓存中。
  • 命中:应用程序从cache中取数据,取到后返回。
  • 更新:先把数据存到数据库中,成功后,再让缓存失效。

从正常的业务逻辑在跑的时候,应该是不会有问题的,但是某些特殊的情况下可能会出现问题。如下图:

image.png

从上图大概可以非常清晰明了的看清楚问题出在哪里,这种并发情况下是有可能出现某个key在某段时间内的数据时不一致的,这个问题一般有两种处理方式。

  • 加锁。锁,意味着要去解决并发问题,那么也就意味着并发的处理会被串行的处理,性能自然会略低。
  • 对key加上过期时间,把控好这个过期时间,不过业务上本身是具备容忍这个时间内的数据不一致的问题方可。
  • 降低出现这个问题的概率

Read/Write Through Pattern

从设计上看,Cache aside这个模式的缺点在于需要程序去维护两个不同的存储设备,(比如一个MySQL,一个Redis),硬编码的成本较大,而且容易出现编码失误,更好的方式是,提供特殊服务专门维护,将其与业务隔离开。

  • Read Through
    Read Through 是在查询操作中更新缓存,也就是说,当缓存失效的时候(过期或LRU换出),Cache Aside是由调用方负责把数据加载入缓存,而Read Through则用缓存服务自己来加载,从而对应用方是透明的。

  • Write Through
    Write Through 在更新数据时发生。当有数据更新的时候,如果没有命中缓存,直接更新数据库,然后返回。如果命中了缓存,则更新缓存,然后再由Cache自己更新数据库(这是一个同步操作)

image.png

Write Behind Caching Pattern

俗称write back,在更新数据的时候,只更新缓存,不更新数据库,而我们的缓存会异步地批量更新数据库。这个设计的好处就是让数据的I/O操作飞快无比,因为异步(比如消息队列),write back还可以合并对同一个数据的多次操作,所以性能的提高是相当可观的。

但是这个设计的最大致命问题在于数据的不强一致性,极可能造成数据的丢失。假如使用redis作为缓存数据库,最致命的问题在于redis并不能保证绝对不丢失数据,也就是redis的持久化能力(两种持久化都无法保证数据绝对丢失)不足,redis一旦挂了,可能造成数据丢失且无法恢复。

image.png

总结

任何的架构都不是没有缺陷的,任何的技术都不是完美的。只有合适的技术选型,没有绝对完美的技术方案,架构师往往需要从业务上去做抉择,从技术团队资源上去做抉择,任何一种抉择都有一定的合理性,也都需要去填一些坑。前文提到“为什么会有这种一种策略,是为了解决什么样的问题,每种策略有何优缺点?”,当了解完三种缓存更新策略之后,是否可以明白它们出现的意义,它们要解决的业务场景,以及它们技术难点?除了三种多年来总结出来的最佳实践,是否可以根据业务指定其他更合适的业务场景?

掌握一门技术,不是要去画地为牢,而是通过它让自己的技术视野更加广阔,做到举一反三,这样你才会在在技术的道路上继续砥砺前行,然后继续穷下去……

引入缓存设计过程中,除了缓存更新的问题,还会面临很多问题,后续继续学习探索。

你可能感兴趣的:(缓存更新策略)