支撑万亿级访问的微博后端是怎么炼成的
原创2016-05-25赵强壹佰案例
壹佰案例
微信号Top100Case
功能介绍TOP 100软件案例研究峰会是科技界一年一度案例研究盛会,每年甄选有代表的100个技术创新/研发管理案例,旨在揭幕100件案例背后的思考、长尾价值,为听众提炼最佳学习路径,帮助他人的项目或团队获得启示、成长,正如"他山之石,可以攻玉"。
2016年6月25-26日,第27届MPD技术管理工作坊将在深圳华侨城洲际酒店举行。本次工作坊,我们邀请了新浪微博技术经理肖鹏老师,分享《新浪微博数据库的六个变革》, 从时间线的维度解析新浪微博数据库和数据库平台支持团队的成长以及技术变更,希望为处于成长期的听众带来“前车之鉴”。
壹佰案例在MPD开始前采访了肖鹏老师,先行“剧透”新浪微博数据库的技术秘密。
壹佰案例:请肖鹏老师先简单介绍一下自己,您关注的技术领域有哪些?
肖鹏:我目前在新浪微博研发中心平台研发部负责数据库相关工作,个人比较关注数据库的高可用、高可靠以及性能和架构优化方面。
之前比较集中在MySQL方向, 近几年也开始接触NoSQL,比如Redis、HBase等,对于涉及数据方面的架构设计、优化以及大规模集群运维有一定的心得。
壹佰案例:简单介绍下微博数据库的概况,除了MySQL、Redis还采用了哪些技术?
肖鹏:微博数据库主流使用MySQL和Redis,辅助一定的HBase,并且由于缓存和队列和数据库的关联比较紧密,我们也是一起负责的,这样就形成了后端数据层的一个闭环,所有模块都是由我们团队负责的,这样就减少了沟通,并让DBA对整个业务架构有更深层次的把控。
另外除了经典的MySQL和Redis之外,我们还自研了一些周边的中间件系统,比如Redis中间件Tribe,以及异构数据同步的Databus等。
壹佰案例:微博的什么业务存在NoSQL上,什么业务存在MySQL上,这样做的选择是什么?
肖鹏:在技术选型上,主要还是根据业务的具体场景。一般来说对于高并发低容量的(尤其是对响应时间非常敏感的业务),我们会建议使用Redis,然后由于我们内部的Redis进行了自定制,可以作为cache也可以作为storage,所以会根据业务的整个架构决定是当cache使用,还是当storge使用。
对于其它的我们都会建议使用MySQL,毕竟MySQL是一个相当通用的数据库,而对于一些类似于日志类的多写少读,并且预估容量会比较大的,我们会使用TokuDB引擎来解决。
最近,由于Redis的数据结构对于开发非常简单易用,所以我们很多的需求都转向了Redis,我们也在调研内存落地到SSD盘上的解决方案。
壹佰案例:通过一些资料我们得知,微博2015年在Redis的开发上下了很大力气,具体做了哪些工作,解决了哪些问题?
肖鹏:我们在2015年主要面临的问题是Redis容量变大的调整,很多单实例突破到100G这个量级,给我们的拆分工作带来了很多困难,为此我们专门开发了Redis中间件Tribe来解决这个问题。
壹佰案例:春节红包对微博数据库这块有哪些挑战?微博是如何应对的?
肖鹏:春节红包主要的挑战还是短时间内的高并发问题,由于微博的红包是公开性质的,所以面临一个红包会有成千上万人同时抢的问题,这种高并发会对数据库带来很大的并发锁压力。
针对这个问题,我们先在整体架构上进行了优化,分多层进行过滤,争取做到到数据层的压力是缩小的而不是放大的;第二就是根据业务特点利用Redis的高并发特点来进行抗量,然后通过队列进行消峰,尽量保障到达MySQL层是相对串行的;最后,对于MySQL还是进行拆库拆表,尽量利用多实例来解决高并发问题。
壹佰案例:您mpd的话题是微博数据库六个变革,可否简单剧透下六个变革都是什么?以及做变革的背景。
肖鹏:这次主题主要是对微博从无到有的过程中数据库如何在满足业务需求的前提下,不断提升平台的可靠性和可用性,并使用自动化努力提高工作效率进行总结。基本上,会按照时间维度来进行总结。
•业务解藕,平台架构改造
•内存为王,引入Redis
•长尾效应,引入HBase和TokuDB
•效率第一,自动化建设
•服务化,自助平台的开发
•弹性伸缩,云时代的到来
以上六个变更基本都是随着业务发展需求而进行的,整体上可以用“发现问题,解决问题”来总结。我将在深圳MPD上用180分钟的时间详细讲解以上内容。
壹佰案例:微博这种体量的数据肯定面临拆库的问题,有什么经验分享吗?
肖鹏:开玩笑的说我们新人培训的第一个内容就是数据库拆分,由于我们经常进行数据拆分,所以也有一些经验心得。
第一要理解业务形态,拆分后的数据应该满足业务需求,并且尽量不增加SQL开发的复杂程度。
第二就是要写具体的方案,一定要考虑如何进行读写服务的切换,开发需要如何进行配合。
第三也就是最重要的,就是一定要有回退方案,一旦拆分失败,不能影响线上业务的正常运行也不要出现丢数据的情况发生。
壹佰案例:作为数据库领域的“老司机”,您对新手DBA有什么建议吗?
肖鹏:有几点建议新人的。
第一,数据库入门的门槛说高不高,说低也不低,如果要从事这行,最好将MVCC,ACID,CAP等理论搞清楚,并沉下心系统地通读一本MySQL的书籍,这样有助于整体了解数据库,不要光靠网上的各种文章博客来学习,否则容易“以偏概全”;
第二,数据库实践意义很重,有条件最好实际操作,比如复制,比如切主库,比如拆库。
第三,锻炼写文档画架构图的能力,很多DBA自己明白,但是给别人就讲不明白了,这样对部门来说不利于知识传承,对个人也不好。
第四,最后一点,如果有可能最好选择一些大平台进行学习,这样成长的速度会飞快,因为量变引发质变,在海量的环境下面对的问题和挑战是完全不一样的。
扩展阅读:
专访58沈剑:除了架构,我还想认真谈谈管理
QQ亿级日活跃业务后台核心技术揭秘
亿级日PV的魅族云同步的核心协议与架构实践