一般大型网站,它的数据并不是存在数据库里的,而是存在缓存里的,缓存是存在内存里的,这样它的访问速度就会特别快。存在数据库的,是存在硬盘上的,从硬盘上读数据肯定没有从内存读数据快。缓存应用一般是为了提高访问速度。
NoSQL(NoSQL = Not Only SQL),意即“不仅仅是SQL”,泛指非关系型的数据库,随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS(社交网络)类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展,NoSQL数据库的生产就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。
键值(Key-Value)存储数据库
这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下了。[3] 举例如:Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB.
列存储数据库
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.
文档型数据库
文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可 以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB, MongoDb. 国内也有文档型数据库SequoiaDB,已经开源。
图形(Graph)数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。[2] 如:Neo4J, InfoGrid, Infinite Graph.
因此,我们总结NoSQL数据库在以下的这几种情况下比较适用:
1、数据模型比较简单;
2、需要灵活性更强的IT系统;
3、对数据库性能要求较高;
4、不需要高度的数据一致性;
5、对于给定key,比较容易映射复杂值的环境。
NoSQL数据库的四大分类表格分析
分类 | Examples举例 | 典型应用场景 | 数据模型 | 优点 | 缺点 |
---|---|---|---|---|---|
键值(key-value)[3] | Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB | 内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。[3] | Key 指向 Value 的键值对,通常用hash table来实现[3] | 查找速度快 | 数据无结构化,通常只被当作字符串或者二进制数据[3] |
列存储数据库[3] | Cassandra, HBase, Riak | 分布式的文件系统 | 以列簇式存储,将同一列数据存在一起 | 查找速度快,可扩展性强,更容易进行分布式扩展 | 功能相对局限 |
文档型数据库[3] | CouchDB, MongoDb | Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容) | Key-Value对应的键值对,Value为结构化数据 | 数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构 | 查询性能不高,而且缺乏统一的查询语法 |
图形(Graph)数据库[3] | Neo4J, InfoGrid, Infinite Graph | 社交网络,推荐系统等。专注于构建关系图谱 | 图结构 | 利用图结构相关算法。比如最短路径寻址,N度关系查找等 | 很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案 |
介绍
redis是业界主流的key-value nosql 数据库之一。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件(保证数据的持久化,memcached是只在内存里的,不能持久化),并且在此基础上实现了master-slave(主从)同步。
redis的优点:
安装Redis环境
要在 Ubuntu 上安装 Redis,打开终端,然后输入以下命令:
sudoapt−getupdate s u d o a p t − g e t u p d a t e sudo apt-get install redis-server
这将在您的计算机上安装Redis
启动 Redis
$redis-server
查看 redis 是否还在运行
$redis-cli
这将打开一个 Redis 提示符,如下所示:
redis 127.0.0.1:6379>
在上面的提示信息中:127.0.0.1 是本机的IP地址,6379是 Redis 服务器运行的端口。现在输入 PING 命令,如下所示:
redis 127.0.0.1:6379> ping
PONG
这说明现在你已经成功地在计算机上安装了 Redis。
redis string操作:
存数据
set(name, value, ex=None, px=None, nx=False, xx=False)
ex,过期时间(秒)
px,过期时间(毫秒)
nx,如果设置为True,则只有name不存在时,当前set操作才执行
xx,如果设置为True,则只有name存在时,岗前set操作才执行
比如我想存个名字叫huangyongpeng
set name “huangyongpeng”
存个年龄是22的
set age 22
其中name和age都是key
如果我想取
get name
get age就行
查看所有的key
keys *
如果想设置超时时间
set sex ‘male’ ex 3
这样性别这个记录3秒后就会消失
批量设置
mset oppo 3000 iphone 5000 mi 3350
网站访问量,如何省空间
假如有一个要求是一个千万级网站,需要实现看每天有多少个用户登录过以及哪些用户登录过:
你可以设置一个二进制中为0值usercount,每来一个用户就将用户id的位数的0设为1
假如id为400的用户登录,则
setbit usercount 400 1就可以了
你要查看一天有多少人登录直接
bitcount usercount
你要看id为400的用户今天登录没,则
getbit usercount 400就行了
redis hash操作
hash表现形式上有些像pyhton中的dict,可以存储一组关联性较强的数据 , redis中Hash在内存中的存储格式如下图:
对应的也有批量设置hmset(name, mapping)
如:
hmset info sex male hobby reading
取值hget(name,key)
在name对应的hash中获取根据key获取value
如:
hget info name —–>huang
取多个值hmget(name, keys, *args)
如:
hmget info name age sex —–>huang 22 male
获取name对应hash的所有键值
hgetall(name)
获取name对应的hash中键值对的个数
hlen(name)
获取name对应的hash中所有的key的值
hkeys(name)
获取name对应的hash中所有的value的值
hvals(name)
检查name对应的hash是否存在当前传入的key
hexists(name, key)
如:
hexists info name
将name对应的hash中指定key的键值对删除
hdel(name,*keys)
hscan(name, cursor=0, match=None, count=None)
假如hash表如info 里面有上万个键值对,而我只需要其中的几条,这时候我们就可以通过hscan来进行简单的模糊匹配
如:
我想在info 中找到以a开头的键
hscan info 0 match a*
其中0是全局匹配
如果我想匹配包含a的键
hscan info 0 match *a*
这样就匹配出name和age俩对键值对了
redis list操作
List操作,redis中的List在在内存中按照一个name对应一个List来存储。如图:
lpush(name,values)
在name对应的list中添加元素,每个新的元素都添加到列表的最左边
如:
lpush h_list huangyongpeng xiaoming zhangsan
rpush(name,values)
在name对应的list中添加元素,每个新的元素都添加到列表的最右边
lrange(name, start, end)
在name对应的列表分片获取数据
如:
lrange h_list 0 -1—–>zhangsan xiaoming huangyongpeng
llen(name)
name对应的list元素的个数
linsert(name, where, refvalue, value))
在name对应的列表的某一个值前或后插入一个新值
如:
linsert h_list before xiaoming lisi—–>zhangsan lisi xiaoming huangyongpeng
lset(name, index, value)
对name对应的list中的某一个索引位置重新赋值
如:
lset h_list 1 Lisi——->zhangsan Lisi xiaoming huangyongpeng
lrem(name, value, num)
在name对应的list中删除指定的值
如:
lrem h_list 1 Lisi
其中1是删除几个
lpop(name)
在name对应的列表的左侧获取第一个元素并在列表中移除,返回值则是第一个元素
rpop 是从右边开始删除
lindex(name, index)
在name对应的列表中根据索引获取列表元素
如:
lindex h_list 1——->huangyongpeng(列表中zhangsan huangyongpeng)
rpoplpush(src, dst)
从一个列表取出最右边的元素,同时将其添加至另一个列表的最左边
src,要取数据的列表的name
dst,要添加数据的列表的name
redis set 集合操作
Set操作,Set集合就是不允许重复的列表
sadd(name,values)
name对应的集合中添加元素
如:
sadd s_set 1 2 3 2 5
其中一个2会去除
smembers(name)
获取name对应的集合的所有成员
如:
smembers s_set——->1 2 3 5
scard(name)
获取name对应的集合中元素个数
sdiff(keys, *args)
在第一个name对应的集合中且不在其他name对应的集合的元素集合
如:
sadd s_set2 2 4 5 6 7
sdiff s_set s_set2—–>1 3
sdiffstore(dest, keys, *args)
获取第一个name对应的集合中且不在其他name对应的集合,再将其新加入到dest对应的集合中
如:
sdiffstore s_set3 s_set s_set2
smembers s_set3——–>1 3
sinter(keys, *args)
获取多一个name对应集合的交集
sinterstore(dest, keys, *args)
获取多一个name对应集合的交集,再讲其加入到dest对应的集合中
sismember(name, value)
检查value是否是name对应的集合的成员
smove(src, dst, value)
将某个成员从一个集合中移动到另外一个集合
spop(name)
从集合的右侧(尾部)移除一个成员,并将其返回
srandmember(name, numbers)
从name对应的集合中随机获取 numbers 个元素
srem(name, values)
在name对应的集合中删除某些值
sunion(keys, *args)
获取多一个name对应的集合的并集
sscan(name, cursor=0, match=None, count=None)
类似上面的hscan
有序集合
在集合的基础上,为每元素排序;元素的排序需要根据另外一个值来进行比较,所以,对于有序集合,每一个元素有两个值,即:值和分数,分数专门用来做排序。
zadd(name, *args, **kwargs)
在name对应的有序集合中添加元素
如:
zadd z_set 1 huang
zadd z_set 10 yong
zadd z_set 8 peng
zadd z_set -1 hao
zrange z_set 0 -1——>hao huang peng yong
zrange z_set 0 -1 withscores—->hao -1 huang 1 peng 8 yong 10
zcard(name)
获取name对应的有序集合元素的数量
zrange( name, start, end, desc=False, withscores=False, score_cast_func=float)
按照索引范围获取name对应的有序集合的元素
如:
zrange z_set 0 -1——>hao huang peng yong
zrevrange(name, start, end, withscores=False, score_cast_func=float)
从大到小
zrangebyscore(name, min, max)
根据分数范围查找
如:
zrangebyscore z_set 1 8——>huang peng
zrank(name, value)
获取某个值在 name对应的有序集合中的排行(从 0 开始)
如:
zrank z_set huang——->1
zrem(name, values)
删除name对应的有序集合中值是values的成员
zscore(name, value)
获取name对应有序集合中 value 对应的分数
zinterstore(dest, keys, aggregate=None)
获取两个有序集合的交集,如果遇到相同值不同分数,则按照aggregate进行操作
aggregate的值为: SUM MIN MAX
其他常用的命令
keys(pattern=’*’)
根据模型获取redis的name
如:
查询以z开头的
keys z*——->z_set
expire(name ,time)
为某个redis的某个name设置超时时间
rename(src, dst)
对redis的name重命名为
如:
将iphone改名为phone
rename iphone phone
randomkey()
随机获取一个redis的name(不删除)
type(name)
获取name对应值的类型
scan(cursor=0, match=None, count=None)
全局的模糊查询
move(name, db))
将redis的某个值移动到指定的db下
这儿得说下redis的使用,每个调用redis的都有自己独立的db,互不影响,比如qq 使用redis时创建了一个name的键,微信使用redis时也创建了一个那么的键,这俩个是互不影响的,它们都有自己独立的db(redis最多支持16个db)。
切换db用select
如:我想切换到第二个db下:
select 1
import redis
r = redis.Redis(host='127.0.0.1', port=6379)
r.set('foo', 'Bar')
print(r.get('foo'))
print(r.keys())
管道
edis-py默认在执行每次请求都会创建(连接池申请连接)和断开(归还连接池)一次连接操作,如果想要在一次请求中指定多个命令,则可以使用pipline实现一次请求指定多个命令,并且默认情况下一次pipline 是原子性操作。
import redis
pool = redis.ConnectionPool(host='127.0.0.1', port=6379)
r = redis.Redis(connection_pool=pool)
# pipe = r.pipeline(transaction=False)
pipe = r.pipeline(transaction=True)
pipe.set('name', 'haha')
pipe.set('role', 'gg')
pipe.execute()