2019独角兽企业重金招聘Python工程师标准>>>
整理了一些缓存相关的问题
术语
- 命中
根据百度百科的解释,终端用户访问加速节点时,如果该节点有缓存住了要被访问的数据时就叫做命中,如果没有的话需要回原服务器取,就是没有命中。取数据的过程与用户访问是同步进行的,所以即使是重新取的新数据,用户也不会感觉到有延时。 命中率=命中数/(命中数+没有命中数), 缓存命中率是判断加速效果好坏的重要因素之一。简单来说,就是先去读取缓存,读取到了就是命中了。
- 过期
过期有两种,一种是时间过期,一种是淘汰过期。
时间过期好说,就是时间到了,被消除了。
所谓淘汰过期,只是在某些缓存服务器中对缓存内容大小进行了限制,当缓存接近于设置大笑时,会根据缓存服务的缓存策略进行操作,例如redis含有的一些淘汰策略:
- voltile-lru:从已设置过期时间的数据集(server.db[i].expires)中挑选最近最少使用的数据淘汰
- volatile-ttl:从已设置过期时间的数据集(server.db[i].expires)中挑选将要过期的数据淘汰
- volatile-random:从已设置过期时间的数据集(server.db[i].expires)中任意选择数据淘汰
- allkeys-lru:从数据集(server.db[i].dict)中挑选最近最少使用的数据淘汰
- allkeys-random:从数据集(server.db[i].dict)中任意选择数据淘汰
- no-enviction(驱逐):禁止驱逐数据
缓存失效
也叫做缓存雪崩。某些项目可能会在配置项中写一个固定的缓存过期时间,在并发比较高的情况下,可能会同时产生一些一些缓存键,这些缓存的的过期时候由于都是直接调取配置项,所以过期时间基本一致,这样就会导致在某一时间这些缓存同时失效,请求全部到DB,DB可能会压力过重。
解决方法:在缓存的时候给过期时间加上一个随机值,这样就会大幅度的减少缓存在同一时间过期。
缓存一致性
当数据时效性要求很高时,并且存在读与写场景都存在的并发场景,如何保证缓存的正确性?在写操作中,是先删除缓存还是操作完再重新覆盖缓存?如果在集群中,又如何保证副本缓存的同步?关于缓存一致性,内容稍微有点多,将在后期中详细叙述。
缓存并发
当某一个缓存失效,通常的操作顺序都是先查找数据,再进行操作,然后更新DB与cache。但在高并发的情况下,一个缓存过期会导致多个进程同时查找DB,如果缓存更新,对某个key有大量的并发请求,此时请求获得的结果可能是更新之前也可能是更新之后,从而会导致“一致性”的问题。
解决办法:由于缓存并发问题一般发生在查询期间,所以当缓存失效的时候,对key加锁。其他请求判断到请求锁存在,就等待,直到重新缓存完毕并解锁。
缓存击穿
指查询一个一定不存在的数据,由于缓存是不命中时被动写的,并且出于容错考虑,如果从存储层查不到数据则不写入缓存,这将导致这个不存在的数据每次请求都要到存储层去查询,失去了缓存的意义。当在流量较大时,出现这样的情况,一直请求DB,很容易导致服务挂掉。
解决办法:无论是否查询到结果,都写入缓存,但是查询结果不存在的时候,设置过期时间稍短一点。
笔者认为,在缓存失效前重新写入缓存能有效的避免一些缓存问题,具体怎么在缓存失效前重新写入,方法有很多种,这里就不讨论了。
以上内容同步更新到了订阅号【后端与web安全】(backend_websecurity)中,欢迎关注,不定期更新内容。转载请以链接方式注明出处。