一 监控
查看memcahe服务器的状态,通常我们使用2个命令
1)telnet 127.0.0.1 11211
查看全局
stats
查看slab
stats slabs
查看item
stats items
2)vmstat 1 -S M
二 调优
根据笔者个人经验,memcached调优需要注意一下几点。
1)节点过热
如果memcached有个别节点容量耗光,同时并发很大。那么需要重新分配一致性hash的服务器分布。或者增加虚拟节点
2)缓存预热
如果线上压力非常大,memcache集群扩容,我们需要对对新的memcached服务器进行预热,所有客户端要将数据双写入这个新节点里。一般缓存容量的阈值为70-80%
3)分散部署
由于memcache服务器对CPU消耗非常小,基本上在20W/second并发情况下,CPU负载也不会超过1%,因此CPU和磁盘会造成浪费。所以尽可能利用手头多的服务器部署。
例如有100G缓存的需求,初始分配5台20G内存的机器,不如使用10台10G的机器。这样可以提高缓存的绝对并发能力。同时降低单个节点宕机的损失。另外可以提高网络吞吐率。还可以把空闲的磁盘和CPU共享给其他应用来使用。
4)slab、chunk、page、增长因子
chunk中,与48B是chunk本身数据结构的容量,所以chunk设置太小,会导致本身占用过多,大量浪费的现象。但是如果设置过大,也会产生内存碎片。所以这个要酌情处理。
page大小,决定了最大缓存对象,默认是1M。但我们有时候也可以保存超过1M的字符串,xmemcached客户端会对重复的字符串进行压缩。
增长因子很关键,设置过大,过小都会造成浪费。所以要根据缓存对象大小的正太分布。增长率比较合适。memcached启动的时候是不占内存的。只有在使用缓存的时候,一次向操作系统申请一个page的空间。如果在这个page里的slab之中的chunk使用特别少,那么其他空间就成为了内存碎片无法继续分配。
5)缓存雪崩
假设线上有10台memcache的集群,内存负载为80%。如果这个时候宕机3台。那么将会失去80%×30%=24%的缓存数据。持久化层的压力会瞬间加大。导致所有请求处理缓慢,像雪崩一样是整个集群无法工作。所以这个时候我们要预留尽可能多的空闲。因此内存阈值70%是比比较合理的。
6)服务器榨取
案例1:在一台64G内存的服务器上,1个48G内存的memcached
案例2:在一台64G内存的服务器上,4个12G内存的memcached
经过测试显示,案例2的性能比案例1明显提高了50%,服务器处理能可以到 71.5W#/sec
7)缓存穿透
在一定场景下,应用的请求会直接查询DB而返回null。这样会导致DB大量的空查询。压力急剧上升遭受攻击。这个时候,需要将null或者空结果集进行缓存。
作者简介
昵称:澳洲鸟,猫头哥
姓名:朴海林
QQ:85977328
MSN:
[email protected]
本文的研究,离不开《至高天》系统架构师团队的支持
猫头哥:http://phl.iteye.com/
根根:http://blog.csdn.net/suileisl
芝麻的奋斗:http://sesame84.iteye.com/
wan560:http://blog.csdn.net/wan560/
terrily:http://terrily.iteye.com/