讲师:李智慧
缓存:存储在计算机上的一个原始数据复制集,以便于访问。 – 维基百科
缓存是介于数据访问者和数据源之间的一种高速存储,当数据需要多次读取的时候,用于加快读取的速度。
缓存(Cache) 和 缓冲(Buffer) 的分别?
缓存:一般是为了数据多次读取。
缓冲:比如CPU写到 把数据先硬盘,因为硬盘比较慢,先到缓冲设备Buffer,不如内存,Buffer读和写都需要。
CPU 缓存
操作系统缓存
数据库缓存
JVM 编译缓存
CDN 缓存
代理与反向代理缓存
前端缓存
应用程序缓存
分布式对象缓存
缓存数据存储:一般数据放到内存中。
主要是存储数据结构:Hash表
业界缓存数量:百万级~亿级
缓存命中率
缓存中的每个对象使用缓存键进行识别,定位一个对象的唯一方式就是对缓存键执行精确匹配。例如,如果想为每个商品缓存在线商品信息,你需要使用商品 ID 作为缓存键。换句话说,缓存键空间是你的应用能够生成的所有键的数量。从统计数字上看,应用生成的唯一键越多,重用的机会越小。例如,如果想基于客户 IP 地址缓存天气数据,则可能有多大 40 亿个键(这是所有可能 IP 地址的数量)。如果要基于客户来源国家缓存天气数据,则可能仅需几百个缓存键(世界上所有国家的数量)。一定要想办法减少可能的缓存数量。键数量越少,缓存的效率越高。
缓存可使用内存空间直接解决了缓存对象的平均大小和缓存对象数量。因为缓存通常存储在内存中,缓存对象可用空间受到严格限制且相对昂贵。如果想缓存更多的对象,就需要先删除老的对象,再添加新的对象。清除对象会降低缓存命中率,因为缓存对象被删除后,将来的请求就无法命中了。物理上能缓存的对象越多,缓存命中率就越高。
缓存对象生存时间称为TTL(Time To Live)。在某些场景中,例如,缓存天气预报数据 15 分钟没问题。在这个场景下,你可以设置缓存对象定义 TTL 为 15 分钟。在其它场景中,你可能不能冒险使用过于陈旧的数据。例如,在一个电子商务系统中,店铺管理员可能在任何时刻修改商品价格,如果这些价格需要准确地展示在整个网站中。在这个场景下,你需要在每个商品价格修改是让缓存失效。简单讲,对象缓存的时间越长,缓存对象被重用的可能性就越高。
CDN国内公司:ChinaCache在08年的时候,互联网需求量很大的时候,ChinaCache差点垮掉。ChinaCache提前买了很多CDN服务器放到运营商(中国移动、电信)。但是优酷、土豆等互联网公司快速发展,他们也选择了自建,自己买CDN服务器放到运营商机房。
小网站:云服务提供。
大网站:Alibaba、腾讯等都是自建CDN。
// 在 WebStorage 中缓存对象的 JavaScript 代码
var preferences = { /* data object to be stored */ };
localStorage.setItem('preferences', JSON.stringify(preferences));
// 访问缓存对象的 JavaScript 代码
var cachedData = localStorage.getItem('preferences');
var preferences = JSON.parse(cachedData);
小规模可以满足需求,比如Session数据缓存。
大规模不合适:
// PHP 客户端访问 Memcached 集群
$m = new Memcached();
// 添加服务器集群
$cache->addServers(array(
array('cache1.example.com', 11211);
array('cache2.example.com', 11211);
array('cache3.example.com', 11211);
));
// 写缓存,失效时间 5 分钟
$m->set('userCount', 123, 600);
集群是分布式的子集。
集群,提供相同功能服务器构建了集群,共同对外提供服务。
怎么知道缓存放到集群中哪台服务器呢?
路由算法:
集群的伸缩性面临的问题:
比如以前只有3台缓存服务器,现在加了一台,变成4台缓存服务器。以前模3,现在模4,那么以前的绝大部分缓存都找不到了。就会导致服务直接访问数据库,就会没法及时反应,当前服务会阻塞,上层的服务也会阻塞。这会导致缓存击穿,增加数据库访问压力,导致整个应用服务瘫痪,也是常说的集群雪崩。
解决方案:一致性 Hash
模哈希的最大的值,2^32次方,服务器放到环的节点上,顺时针找到余数距离最近的服务器。比如100台服务器,增加1台大道101台,那么只有1%的数据访问不到。
有个问题:路由选择导致有的服务器命中很高,比如一台服务器的缓存占了70%,其它99台机器才缓存了30%。
解决:基于虚拟节点的一致性 Hash 算法
一个实体服务器V0, 那么可以虚拟出5台虚拟节点,比如V0.0, V0.1, V0.2, V0.3, V0.4, V0.5,比较均匀地分布在环上,别的实体服务器也做相同的操作,最终就能平均缓存命中概率。
虚拟节点一致性 Hash 算法,能到到存储负载的均衡性。
缓存比数据库访问速度快100倍。请求1k数据,分布式缓存约需要500微妙,数据库大概需要50毫秒。
使用缓存对提高系统性能有很多好处,但是不合理的使用缓存可能非但不能提高系统的性能,还会成为系统的累赘,甚至风险。实践中,缓存滥用的情节屡见不鲜 – 过分依赖缓存、不合适的数据访问特性等。
频繁修改的数据:这种数据如果缓存起来,由于频繁修改,应用还来不及读取就已经失效或更新,徒增系统负担。一般说来,数据的读写比在 2:1
以上,缓存才有意义。
没有热点的访问:缓存使用内存作为存储,内存的资源宝贵而有限,不能将所有数据都缓存起来,如果应用系统访问数据没有热点,不遵循二八定律,即大部分数据访问不是集中在小部分数据上,那么缓存就没有意义,因为大部分数据还没有被再次访问就已经被挤出缓存了。
纠错:这里的FIFO队列应该改为FIFO链表。
一般会对缓存的数据设置失效时间,一旦超过失效时间,就要从数据库重新加载。因此应用要容忍一定时间的数据不一致,如卖家已经编辑了商品属性,但是需要过一段时间才能被买家看到。在互联网应用中,这种延迟通常是可以接受的,但是具体应用仍需慎重对待。还要一种策略是数据更新时立即更新缓存,不过也会带来更多系统开销和事务一致性的问题。因此数据更新时通知缓存失效,删除该缓存数据,是一种更加稳妥的做法。
“计算机科学中只有三件事最困难:缓存失效,命名事物,技术错误。” – Phil Karlton
缓存是为了提高数据读取性能的,缓存数据丢失或者缓存不可用不会影响到应用程序的 – 它可以从数据库直接获取数据。但是随着业务的发展,缓存承担大部分的数据访问压力,数据库已经习惯了有缓存的日子,所以当缓存服务崩溃的时候,数据库会因为完全不能承受如此大的压力而宕机,进而导致整个网站不可用。这种情况,被称作缓存雪崩,发生这种故障,甚至不能简单的重启缓存服务和数据库服务器来回复网站访问。
缓存中存放的是热点数据,热点数据又是缓存系统利用 LRU (最近最久未用)算法对不断访问的数据筛选淘汰出来的,这个过程需要花费较长的时间,在这段时间,系统的性能和数据库负载都不太好,那么最好的缓存系统启动的时候就把热点数据加载好,这个缓存预加载叫做缓存预热(Warm up)。对于一些元数据,比如城市地名列表、类目信息,可以启动时加载数据库中全部数据到缓存进行预热。
如果不恰当的业务、或者恶意攻击持续高并发的请求某个不存在的数据,因为缓存没有保存该数据,所有的请求都会落到数据库上,会对数据库造成很大的压力,甚至崩溃。一个简单的对策是将不存在的数据也缓存起来(其Value值为null
),并设定一个较短的失效时间。