NoSQL入门简介
一NoSQL来源与定义
NoSQL一词首先是Carlo Strozzi在1998年提出来的,指的是他开发的一个没有SQL功能,轻量级的,开源的关系型数据库。注意,这个定义跟我们现在对NoSQL的定义有很大的区别,它确确实实字如其名,指的就是“没有SQL”的数据库。不过,NoSQL的发展慢慢偏离了初衷,Carlo Strozzi也发觉,其实我们要的不是”no SQL”,而应该是”no relational”,也就是我们现在常说的非关系型数据库了。
二, 为什么要使用NoSQL
<!--[if !supportLists]-->1、<!--[endif]-->对数据库高并发读写的需求
web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息,所以基本上无法使用动态页面静态化技术,因此数据库并发负载非常高,往往要达到每秒上万次读写请求。关系数据库应付上万次SQL查询还勉强顶得住,但是应付上万次SQL写数据请求,硬盘IO就已经无法承受了。
2、对海量数据的高效率存储和访问的需求
类似Facebook,twitter,Friendfeed这样的SNS网站,每天用户产生海量的用户动态,以Friendfeed为例,一个月就达到了2.5亿条用户动态,对于关系数据库来说,在一张2.5亿条记录的表里面进行SQL查询,效率是极其低下乃至不可忍受的。再例如大型web网站的用户登录系统,例如腾讯,盛大,动辄数以亿计的帐号,关系数据库也很难应付。
3、对数据库的高可扩展性和高可用性的需求
在基于web的架构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增的时候,你的数据库却没有办法像web server和app server那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移, 如何才能实现不断线, 动态迁移数据,对于大型在线网站来说,将是非常重要的。
正式因为关系型数据库有了以上种种的缺点, 因此才有了使用NoSQL的必要。NoSQL使用KeyValue进行存储, 同时,大多数的NoSQL数据库使用内存来保存数据,然后经过一段时间后将数据同步到磁盘中, 由于使用内存进行读写, 很好地满足了应对高并发读写的要求。其次, NoSQL数据库提供了根据key值进行横向分表, 已经主从数据库互备,来实现在线系统的数据的动态迁移,服务器在线扩展和数据的高可用性。
三, 一些NoSQL相关的重要的理论。
1分布式经典的CAP理论
在分布式领域,有个重要的CAP理论,是说Consistency(一致性), Availability(可用性), partition tolerance(分布)三部分系统, 在系统中,只能满足两个, 而不可能同时实现三个。系统架构师不要浪费是时间来实现满足三个条件的完美系统。
在传统的关系型数据库如mysql中, 更多的保证了事务的一致性,但是在满足高可用性和扩展性上存在这一定的缺陷。而NoSQL的设计者, 从一开始, 就非常了解这个CAP的理论。NoSQL, 主要服务的场景是大并发海量的数据的存储, 但是存储的一致性并没有如银行类系统那么高的要求, 因此通过放弃对强一致性的追求, 从而达到更高的可用性,扩展性,快速响应调用的需求。并通过鸽巢原理来达到最终一致性。
2鸽巢原理和最终一致性
在一个包含多个读写进程对数据库操作的系统中。
强一致性是指:A写入的数据x, ABC三个进程读到的都是x
弱一致性是指:A写入数据x,存在着一段时间,ABC读到不是x, 直到最后同步
最终一致性:是一种特殊的弱一致性, 它保证了系统在时间段内没有新的更新,所有的返回都得到了最后更新的值。
鸽巢原理:如果n+1个物体被放进n个盒子,那么至少有一个盒子包含两个或更多的物体。
根据鸽巢原理:数据库的副本数遵循(N,R,W)的规则, N个副本, 如果R个读取的值一致则表示读取成功, 如果W个写入成功, 则表示写入成功, 不必要求N个都全部写入成功。 只要R+W>N,数据的最终一致性就可以得到保障。
3一致性哈希
一致性哈希提出必须满足的4个适应条件
1平衡性:哈希的结果可以尽可能分布到所有的空间中, 使数据空间得到充分利用。
2单调性:如果加入新的节点之后 ,哈希算法不会将原来映射到旧节点的数据映射到新的节点上
3分散性, 不应该有相同的数据, 被映射到不同的节点上, 从而出现数据冲突。
详细的详细哈希算法的实现, 可以查看amazing dynamo的实现。