内存数据库Tokyo Cabinet在电子商务网站中的应用
摘自:《信息与电脑》杂志2011年3月刊 数据库技术
栾志高 张吉
(中博信息技术研究院有限公司 信息应用院,江苏南京210012)
摘 要:本文介绍了Tokyo Cabinet内存数据库和配套的Tokyo Tyrant数据库接口。结合电子商务网站新技术背景,分析了这种内存数据库的高并发性、负载均衡和故障转移等特性,以及应用前景和优点。
关键词:Tokyo Cabinet;Tokyo Tyrant;内存数据库;Web 2.0;高并发性;电子商务
中图分类号:TP39 文献标识码:A 文章编号:1003-9767(2011)03-0092-02
1. 引言
随着Web 2.0概念的不断发展,电子商务网站更倾向于友好的用户体验。随之改变的设计思路是将用户的操作切割成更细的颗粒操作,并辅助以Ajax、延迟加载、局部刷新等一系列技术手段。通过优化用户的视觉观感和操作体验,改善用户的购物体验,并有效刺激用户消费。
在这种思路的指引下,对网站系统的设计要求也变得更高。相对于同样的用户访问量,细化操作颗粒,一方面会降低数据库操作的单次数据流量,另一方面,将对数据库产生更频繁的请求,并发请求将变得更大。在一般情况下,数据库的并发能力是相对固定的,虽然可以通过提升硬件性能或负载均衡等方式来提升,但是会增加系统的复杂程度和投入成本。因此,基于这样的背景,内存数据库的使用变得日益重要。通过内存数据库的高并发能力以及负载均衡等特性,不仅可以有效提升电子商务网站的性能,提升用户体验,还可以在节约成本的前提下有效提高系统的可靠性。
2. Tokyo Cabinet内存数据库
2.1 什么是内存数据库
内存数据库抛弃了磁盘数据管理的传统方式,基于全部或大部分数据都在内存中这样的理念,重新设计了体系结构,并且在数据缓存、快速算法、并行操作方面也进行了相应的改进,所以数据处理速度比传统数据库的数据处理速度要快很多,一般都在10倍以上。
2.2 内存数据库 Tokyo Cabinet
内存数据库Tokyo Cabinet是基于C/C++的开源项目。它包括两个重要的组成部分。一个是数据库内核Tokyo Cabinet和数据库接口Tokyo Tyrant。
Tokyo Cabinet是一种DBM数据库,数据是由一系列key-value所组成。它包括了六种数据存储方式,TCHDB(哈希数据库)、TCBDB(B+ Tree数据库)、TCFDB(固定长度的数据库)、TCMDB(内存中的哈希数据库)、TCNDB(内存中的B+ Tree数据库)、TCTDB(表格数据库)。Tokyo Cabinet可以支持每秒10000个并发客户端,以及每秒超过60000次的查询。
Tokyo Tyrant是Tokyo Cabinet的数据库接口,它为应用程序提供了便捷的数据访问服务。它不仅支持Memcached协议,也可以通过HTTP协议进行数据交换。Tokyo Tyrant可以支持每秒10000个并发请求,吞吐量也超过20000qps,更为重要的是它支持通过主从模式来实现负载均衡,以及热备模式来实现故障转移。
3. Tokyo Cabinet在电子商务网站中的应用
接下来我们将讨论一下电子商务网站中Tokyo Cabinet的应用前景和应用方式。
3.1 提高系统的并发性
3.1.1 使用Tokyo Cabinet和Tokyo Tyrant提高吞吐量
在传统的电子商务网站中,更多的采用是三层体系。在数据层中,主要是数据的一次性获取,以及数据级缓存。在业务层和展现层中多采用页面级缓存或静态化等技术。而现在随着延迟加载和AJAX等技术的应用,页面的每一次加载时需要查询数据库的事务数明显增多,并且每次请求所获取的数据流明显减少。这就意味着在单台数据库可以服务的事务数固定的情况下,数据库可以支持的用户数明显减少。正因这样的原因,许多大型的网站,包括电子商务和SNS网站,正在借助内存数据库来大幅提高并发能,而Tokyo Cabinet和Tokyo Tyrant就是很好的选择。
图2中,分析比较了Memcached、MySQL+Memcached和Tokyo Tyrant这三者的TPS(每秒事务数)。MySQL+Memcached是现在很多网站所采用的,MySQL作为后端数据存储,Memcached用于前端数据缓存。在相同线程数的情况下,Tokyo Cabinet+Tokyo Tyrant的TPS约是MySQL+Memcached的2倍左右,略差于纯内存形式的Memcached。考虑到纯内存的Memcached没有数据持久化的功能,Tokyo Tyrant+Tokyo Cabinet在平衡数据存储和并发性能方面做的是比较成功的。
3.1.2 使用负载均衡提高并发
当单台Tokyo Cabinet已经无法满足性能需求时,Tokyo Tyrant提供了更为高级的负载均衡方式。这种模式在传统的MySQL服务器集群中采用的较多,但MySQL的配置较为复杂,而Tokyo Tyrant的配置相对简单。如图3所示,Tokyo Cabinet会通过时间戳来标记数据的版本,通过对Log日志的分发,将增量数据同步到从库中。而应用程序根据操作类型的不同,把写入或读取操作分配在不同的Tokyo Tyrant(主从)上进行。
另外,因为Tokyo Tyrant提供了HTTP协议的接入方式,在许多实际应用中,也有通过Nginx在前端建立负载均衡层,然后通过Nginx将不同操作,如写入或是读取,分配给不同的Tokyo Tyrant,甚至可以做到为不同的从库设置权重,以平衡在负载均衡时所需要承担的压力。这种方式的缺点是因为多了Nginx来实现负载均衡,性能上必然有损失。但优点是对于应用程序来说,任何对Tokyo Tyrant的读写操作都是透明的,不需要关心底层的Tokyo Tyrant的个数和主从分配方式。
3.2 提高系统的可靠性
3.2.1 故障转移模式的应用
Tokyo Tyrant也提供了通过热备方式来实现故障转移,对提高网站的可靠性来说非常有用。
首先客户端通过Memcached协议的addServer方法,向应用程序的服务器池中添加备份Tokyo Tyrant信息。当客户端应用程序通过Memcached协议向活动Tokyo Tyrant发起访问请求后,Memcached协议会判断活动Tokyo Tyrant是否工作正常,并且反馈给客户端。如果活动Tokyo Tyrant出现故障,那么客户端会从服务器池中调用备份Tokyo Tyrant的连接,经备份Tokyo Tyrant来完成相应的操作。而在这种模式中,两台Tokyo Cabinet的数据是自动同步的,所以相对于应用程序来说,是完全透明的。
3.2.2 对大数据文件有可靠支持
Tokyo Cabinet在64位的系统上。可以管理的数据量可以达到8EB,而在32位的系统上。可以管理的数据量可以达到8TB,而且在64位的系统中。单个数据库文件的大小也不仅仅限于2GB,可以更大,而且对于文件写入校验也非常灵活和高效,可以在保证性能的前提下,增加文件的可靠性,防止数据库文件的损坏。
3.3 降低软硬件投入成本
3.3.1 节省购买数据库授权的成本
当前主流数据库包括Oracle、Microsoft SQL Server和MySQL,MySQL有免费版本可供使用,但Oracle和Microsoft SQL Server均要购买授权。一方面,相对于MySQL来说,Tokyo Cabinet在性能方面有较大的优势。另一方面,相对于Oracle和Microsoft SQL Server来说,Tokyo Cabinet可以在保证并发性能的前提下,节省一笔可观的授权费用。
3.3.2 节省DBA的人力成本
从另一个角度来说,许多中小型的电子商务网站,对于数据库的使用仅仅限于一般的应用,换句话说仅仅是数据的存储工具。一般的技术人员在开发的同时,即可对数据库进行简单优化,这些优化已经能满足正常的需求。但是为了深入使用数据库自身的负载均衡、故障转移等功能,需要聘请专门的DBA进行开发、管理和维护。而Tokyo Cabinet和Tokyo Tyrant的维护和应用相当简单,一般的技术人员,经过短期的学习和培训,就可以实现负载均衡和故障转移等功能,甚至可以进行配置优化和二次开发。从这点上来说,把部分数据移植到内存数据库后,在人力成本上并不会有特别的增加。这点对于中小电子商务网站来说非常关键。
3.3.3 复用现有的硬件资源
Tokyo Cabinet和Tokyo Tyrant安装简单,不需要占用很多的系统的资源,而且在运行中自身占用内存和CPU等核心资源非常有限。因此在负载均衡或是故障转移等模式下,可以将从库或备用库安装在一些负载小的多应用服务器上,达到即节省硬件投入又有效提高可用性和可靠性。
3.3.4 开发成本小
Tokyo Cabinet和Tokyo Tyrant是完全的开源项目。当前Tokyo Cabinet提供了包括了C、C++、JAVA、.NET、Ruby、Perl甚至PHP的接口类库。而Tokyo Tyrant更可支持Memcached客户端协议,也可以通过HTTP协议进行数据交换。Memcached协议已经有比较高的认可度,相关的接口类库也很成熟,从这点来说,使用Memcached协议来连接Tokyo Tyrant是非常简易的。因此,在电子商务网站的开发和维护时,可以节省很多研发时间,有效地提高投入产出比。
4. 结论
综上,Tokyo Cabinet和Tokyo Tyrant的组合,构成了一款非常高效的内存数据库。它不仅具备优秀的高并发性能,也具备了一定的高可用性和高可靠性,在系统扩展和维护的简易性上也是可圈可点的。在中小电子商务网站中,可以将常用数据库与Tokyo Cabinet相结合,复杂的业务处理、统计事务等安排在常规数据库上,而将需要进行高速查询的数据分散在内存数据库中,从而使压力得以分散。而且,相对于昂贵的Oracle和Microsoft SQL Server,基于Linux的Tokyo Cabinet和Tokyo Tyrant提供了一种非常好的免费解决方案。
参考文献:
[1] 平林�中�. Tokyo Cabinet: a modern implementation of DBM, online at: http://fallabs.com/tokyocabinet/
[2] Matt Yonkovit. MySQL-Memcached or NOSQL Tokyo Tyrant �C part 3, online at http://www.mysqlperformanceblog.com/2009/10/19/mysql_memcached_tyrant_part3/