缓存,消息队列,分库分表是高并发解决方案三剑客。
缓存之所以能够让系统“更快”,本质上做到了如下两点:
● 减小 CPU 消耗
将原来需要实时计算的内容提前算好、把一些公用的数据进行复用,这可以减少 CPU 消耗,从而提升响应性能。
● 减小 I/O 消耗
将原来对网络、磁盘等较慢介质的读写访问变为对内存等较快介质的访问,从而提升响应性能。
对于应用系统来讲,我们经常将缓存划分为本地缓存和分布式缓存。
应用中的缓存组件,缓存组件和应用在同一进程中,缓存的读写非常快,没有网络开销。但各应用或集群的各节点都需要维护自己的单独缓存,无法共享缓存。
和应用分离的缓存组件或服务,与本地应用隔离,多个应用可直接共享缓存。
这篇文章,聊聊本地缓存和分布式缓存,希望大家读完之后,在面对不同的业务场景时,能够做出合理的缓存选型。
JDK Map 经常用于缓存实现:
● HashMap
HashMap 是一种基于哈希表的集合类,它提供了快速的插入、查找和删除操作。可以将键值对作为缓存项的存储方式,将键作为缓存项的唯一标识符,值作为缓存项的内容。
● ConcurrentHashMap
ConcurrentHashMap 是线程安全的 HashMap,它在多线程环境下可以保证高效的并发读写操作。
● LinkedHashMap
LinkedHashMap 是一种有序的 HashMap ,它保留了元素插入的顺序,可以按照插入顺序或者访问顺序进行遍历。
● TreeMap
TreeMap 是一种基于红黑树的有序 Map,它可以按照键的顺序进行遍历。
虽然使用 JDK Map 能快捷构建缓存,但缓存的功能还是比较孱弱的。
因为现实场景里,我们可能需要给缓存添加缓存统计、过期失效、淘汰策略等功能。
于是,本地缓存框架应运而生。
流行的 Java 缓存框架包括:Ehcache , Google Guava , Caffeine Cache 。
虽然本地缓存框架的功能很强大,但是本地缓存的缺陷依然明显。
1、高并发的场景,应用重启之后,本地缓存就失效了,系统的负载就比较大,需要花较长的时间才能恢复;
2、每个应用节点都会维护自己的单独缓存,缓存同步比较头疼。
分布式缓存是指将缓存数据分布在多台机器上,以提高缓存容量和并发读写能力的缓存系统。分布式缓存通常由多台机器组成一个集群,每台机器上都运行着相同的缓存服务进程,缓存数据被均匀地分布在集群中的各个节点上。
Redis 是分布式缓存的首选,甚至我们一提到缓存,很多后端工程师首先想到的就它。
下图是神州专车订单的 Redis 集群架构 。将 Redis 集群拆分成四个分片,每个分片包含一主一从,主从可以切换。应用 A 根据不同的缓存 key 访问不同的分片。
与本地缓存相比,分布式缓存具有以下优点:
通过增加集群中的机器数量,可以扩展缓存的容量和并发读写能力。同时,缓存数据对于应用来讲都是共享的。
由于数据被分布在多台机器上,即使其中一台机器故障,缓存服务也能继续提供服务。
但是分布式缓存的缺点同样不容忽视。
分布式缓存通常需要通过网络通信来进行数据读写,可能会出现网络延迟等问题,相对于本地缓存而言,响应时间更长。
分布式缓存需要考虑序列化、数据分片、缓存大小等问题,相对于本地缓存而言更加复杂。
开源中国网站最开始完全是用本地缓存框架 Ehcache 。后来随着访问量的激增,出现了一个可怕的问题:“因为 Java 程序更新很频繁,每次更新的时候都要重启。一旦重启后,整个 Ehcache 缓存里的数据都被清掉。重启后若大量访问进来的话,开源中国的数据库基本上很快就会崩掉”。
于是,开源中国开发了多级缓存框架 J2Cache,使用了多级缓存 Ehcache + Redis 。
多级缓存有如下优势:
离用户越近,速度越快;
减少分布式缓存查询频率,降低序列化和反序列化的 CPU 消耗;
大幅度减少网络 IO 以及带宽消耗。
本地缓存做为一级缓存,分布式缓存做为二级缓存,首先从一级缓存中查询,若能查询到数据则直接返回,否则从二级缓存中查询,若二级缓存中可以查询到数据,则回填到一级缓存中,并返回数据。若二级缓存也查询不到,则从数据源中查询,将结果分别回填到一级缓存,二级缓存中。
5 总结
Fred Brooks 在 1987 年所发表的一篇关于软件工程的经典论文《没有银弹:软件工程的本质性与附属性工作》。
论文强调真正的银弹并不存在,而所谓的银弹则是指没有任何一项技术或方法可以能让软件工程的生产力在十年内提高十倍。
通俗来讲:在技术领域中没有一种通用的解决方案可以解决所有问题。技术本质上是为了解决问题而存在的,每个问题都有其独特的环境和限制条件,没有一种通用的技术或工具可以完美地解决所有问题。
缓存是把双刃剑,一方面我们享受缓存带来的系统性能提升,另一方面引入缓存会提高系统复杂度,因为你要考虑缓存的失效、更新、一致性等问题。
在面临缓存选型时,一定要结合业务场景,研发效率,运维成本,人力模型,技术储备等因素,做出合理的选择。