作者:一一哥
NoSQL,泛指非关系型的数据库,NoSQL即Not-Only SQL,它可以作为关系型数据库的良好补充.
随着互联网Web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速.而传统的关系数据库在应付Web2.0网站,特别是超大规模和高并发的SNS类型的Web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,例如:
1️⃣.High performance - 对数据库高并发读写的需求.
Web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息,所以基本上无法使用动态页面静态化技术,因此数据库并发负载非常高,往往要达到每秒上万次读写请求.关系数据库应付上万次SQL查询还勉强顶得住,但是应付上万次SQL写数据请求,硬盘IO就已经无法承受了.其实对于普通的BBS网站,往往也存在对高并发写请求的需求,例如网站的实时统计在线用户状态,记录热门帖子的点击次数,投票计数等,因此这是一个相当普遍的需求.
2️⃣.Huge Storage - 对海量数据的高效存储和访问的需求.
类似Facebook,twitter,Friendfeed这样的SNS(社交)网站,每天用户产生海量的用户动态,以Friendfeed为例,一个月就达到了2.5亿条用户动态,对于关系数据库来说,在一张2.5亿条记录的表里面进行SQL查询,效率是极其低下乃至不可忍受的.再例如大型Web网站的用户登录系统,例如腾讯,盛大,动辄数以亿计的帐号,关系数据库也很难应付.
3️⃣.High Scalability && High Availability- 对数据库的高可扩展性和高可用性的需求.
在基于Web的架构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增的时候,你的数据库却没有办法像web server和app server那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力.对于很多需要提供24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移,为什么数据库不能通过不断的添加服务器节点来实现扩展呢?
NoSQL数据库的产生就是为了解决大规模数据集合以及多重数据种类带来的挑战,尤其是大数据应用难题.
2.1 键值(Key-Value)存储数据库
相关产品:Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkeley DB
典型应用:内容缓存,主要用于处理大量数据的高访问负载;
数据模型:一系列键值对;
优势:快速查询;
劣势:存储的数据缺少结构化.
2.2 列存储数据库
相关产品:Cassandra, HBase, Riak;
典型应用:分布式的文件系统;
数据模型:以列簇式存储,将同一列数据存在一起;
优势:查找速度快,可扩展性强,更容易进行分布式扩展;
劣势:功能相对局限.
2.3 文档型数据库
相关产品:CouchDB、MongoDB;
典型应用:Web应用(与Key-Value类似,Value是结构化的);
数据模型:一系列键值对;
优势:数据结构要求不严格;
劣势:查询性能不高,而且缺乏统一的查询语法.
2.4 图形(Graph)数据库
相关数据库:Neo4J、InfoGrid、Infinite Graph;
典型应用:社交网络;
数据模型:图结构;
优势:利用图结构相关算法;
劣势:需要对整个图做计算才能得出结果,不容易做分布式的集群方案.
Spring Data提供了一些项目,用来帮你使用各种各样的NoSQL技术,包括MongoDB, Neo4J,
Elasticsearch, Solr, Redis, Gemfire, Couchbase和Cassandra。
其中Spring Boot为Redis, MongoDB, Elasticsearch, Solr和Cassandra等都提供了自动配置。
Redis:REmote DIctionary Server(远程字典服务器),它是一个完全开源免费且遵守BSD协议,用C语言开发的,高性能key-value型分布式内存数据库,它是基于内存运行并支持持久化的NoSQL数据库.可用于缓存,事件发布或订阅,高速队列等场景.该数据库使用ANSI C语言编写,支持网络,提供字符串,哈希,列表,队列,集合结构直接存取,基于内存,可持久化.Redis是当前最热门的NoSql数据库之一,也被人们称为数据结构服务器.
应用场景概述
目前全球最大的Redis用户是新浪微博,在新浪有200多台物理机,400多个端口正在运行Redis,有4G+的数据在Redis上来为微博用户提供服务.
1️⃣.缓存(数据查询、短连接、新闻内容、商品内容等等,最常用);
2️⃣.消息队列,任务队列(秒杀、抢购、12306 等)等队列;
3️⃣.获取最新的N个数据(取最新文档、排行榜等);
4️⃣.计数器应用,网站访问统计等;
5️⃣.发布/订阅消息(消息通知);
6️⃣.数据过期处理(可以精确到毫秒),优惠券/红包等;
7️⃣.商品列表,评论列表,聊天室好友列表等实时性要求较高的场景;
8️⃣.分布式集群架构中的 session 分离;
9️⃣.应用排行榜.