数据库介绍及常见数据库分类
简单的说,数据库(因为Database)就是一个存放数据的仓库,这个仓库是按照一定的数据结构(数据结构是指数据的组织形式或数据之间的联系)来组织、存储的,我们可以通过数据库提供的多种方式来管理数据库里的数据。
更简单形象的理解,数据库和我们生活中存放杂物的储物间仓库性质一样,区别只是存放的东西不同,杂物间存放实体的物件,而数据库里存放的是数据。
数据库诞生于距距现在大概六十多年前,随着信息技术的发展和人类社会的不断进步,特别是2000年以后,数据库不在仅仅是存储和管理数据了,而转变成用户所需要的各种数据管理方式。数据库有很多种类和功能,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各方面得到了广泛的应用。
按照早期的数据库理论,比较流行的数据库模型有三种,分别为层次式数据库、网络式数据库和关系型数据库(前两者已经基本消失)。而当今的互联网中,最常用的数据库模型主要是两种,即关系型数据库和非关系型数据库。
q 关系型数据库的由来
虽然网状数据库和层次数据库已经很好地解决了数据的集中和共享问题,但是在数据独立性和抽象级别上仍有很大欠缺,而关系型数据库就可以较好地解决这些问题。
q 关系型数据库介绍
关系型数据库模型是把复杂的数据结构归结为简单的二元关系(即二维表格形式)。在关系数据库中,对数据的操作几乎全部建立在一个或多个关系表格上,通过对这些关联表的表格分类、合并、连接或选取等运算来实现数据的管理。
关系型数据库诞生距今已有40多年了,从理论产生发展到现实产品,例如:MySQL和Oracle数据库。Oracle在数据库领域里上升到了霸主地位,形成每年高达数百亿美元的庞大产业市场,而MySQL也是不容忽视的数据库,以至于被Oracle重金收购(先被SUN收购,然后SUN被Oracle收购,据说MySQL卖了10亿美金)。
q 关系型数据库表格之间的关系举例
表1:学生表 |
||
学号 |
姓名 |
年龄 |
S001 |
张三 |
16 |
S002 |
李四 |
17 |
S003 |
王五 |
18 |
S004 |
赵六 |
19 |
表2:课程表 |
||
课程号 |
课程名 |
学分 |
C1001 |
语文 |
5 |
C1002 |
数学 |
5 |
C1003 |
外语 |
5 |
C1004 |
物理 |
4 |
表1:学生选课表 |
||
学号 |
课程号 |
成绩 |
S001 |
C1001 |
80 |
S002 |
C1002 |
90 |
S003 |
C1003 |
59 |
S004 |
C1004 |
66 |
q 小结:什么是关系型数据库
1、二维的表格;
2、市场占有量较大的位MySQL和Oracle数据库;
3、通过SQL结构化查询语言来存取、管理数据;
4、保持数据一致性方面很强。ACID理论?
q 非关系型数据库诞生的背景
非关系型数据库也被称为NoSQL数据库,NoSQL的本意是“Not Only SQL”,指的是非关系型数据库,而不是“No SQL”的意思(没有SQL语句?),因此,NoSQL的产生并不是要彻底否定关系型数据库,而是作为传统关系型数据库的一个有效补充。NoSQL数据库在特定的场景下可以发挥出难以想象的高效率和高性能。
随着互联网web2.0(以前的基本上是静态网页,而现在是交互的网站)网站的兴起,传统的关系型数据库在应付web2.0网站,特别是对于规模日益扩大的海量数据,超大规模和高并发的微博、微信、SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,例如:传统的关系型数据库IO瓶颈、性能瓶颈都难以有效突破,于是开始出现了大批针对特定场景,以高性能和使用便利为目的的功能特异化的数据库产品,NoSQL(非关系型)类的数据库就是在这样的情景中诞生并得到了非常迅速的发展。NoSQL不将数据的一致性作为重点,或者是作为次重点。
NoSQL是非关系型数据库的广义定义。它打破了长久以来关系型数据库与ACID理论大统一的局面。NoSQL数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。该术语(NoSQL)在2009年初得到了广泛认同。当今的应用体系结构需要数据存储在横向伸缩性上能够满足需求。而NoSQL存储就是为了实现这个需求而诞生的。
q NOSQL非关系型数据库小结:
1、NOSQL不是否定关系数据库,而是作为关系数据库的一个重要补充。
2、NOSQL为了高性能、高并发而生,忽略影响高性能、高并发的功能。
3、NOSQL典型产品memcached(纯内存),redis(持久化缓存),mongodb(面向文档)
(1) 键值(Key-Value)存储数据库
键值数据库就类似传统语言中使用的哈希表。可以通过key来添加、查询或者删除数据,因为使用key主键访问,所以会获得很高的性能及扩展性。
键值(Key-Value)数据库主要是使用一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署、高并发。
典型产品:Memcached、Redis、MemcacheDB、Berkeley DB
(2) 列存储(Column-oriented)数据库
列存储数据库将数据存在列族(column family)中,一个列族存储经常被一起查询的相关数据。举个例子,如果我们有一个Person类,我们通常会一起查询他们的姓名和年龄,而不是薪资。这种情况下,姓名和年龄就会被放入一个列族中,而薪资则在另外一个列族中。
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是他们的特点是指向了多个列。这些列是由列家族来安排的。
典型产品:Hbase、Cassandra
(3) 面向文档数据库
文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。
面向文档数据库会将数据以文档的形式存储。每个文档都是自包含的数据单元,是一系列数据项的集合。每个数据项都有一个名称与对应的值,值既可以是简单的数据类型,如字符串、数字和日期等;也可以是复杂的类型,如有序列表和关联对象。数据存储的最小单位是文档,同一个表中存储的文档属性可以是不同的,数据可以使用XML、JSON或者JSONB等多种形式存储。
典型产品:MongoDB、CouchDB
(4) 图形数据库
图形数据库允许我们将数据已图的方式存储。实体会被作为定点,而实体之间的关系则会被作为边。比如我们有三个实体,Steve Jobs,Apple和Next,则会有两个”Founded by”的边将Apple和Next连接到Steve Jobs。
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。
典型的产品有:Neo4J、InfoGrid。
Oracle前生叫SDL,由Larry Ellison和另外两个编程人员在1977创办,他们开发了自己的拳头产品,在市场上大量销售,1979年,Oracle公司引入了第一个商用SQL关系型数据库管理系统。Oracle公司是最早开发关系型数据库的厂商之一,其产品支持最广泛的操作系统平台。目前Oracle关系型数据库产品的市场占有率数一数二。
Oracle公司是目前全球最大的数据库软件公司,也是近年业务增长极为迅速的软件提供与服务商。
主要应用范围:传统大企业,大公司,政府,金融,证券等等。
版本升级:Oracle8i,Oracle9i,Oracle10g,Oracle11g,Oracle12c
MySQL数据库是一个中小型关系型数据库管理系统,软件开发者为瑞典MySQL AB公司。在2008年1月16号被Sun公司收购,后Sun公司又被oracle公司收购。目前MySQL被广泛地应用在Internet上的大中小型网站中。由于体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多大中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库,甚至国内知名的淘宝网页选择弃用ORACLE而更换为更开放的MySQL。
MySQL数据库主要应用范围:互联网领域、大中小型网站,游戏公司,电商平台等等。
MariaDB数据库管理系统是MySQL数据库的一个分支,主要由开源社区维护,采用CPL授权许可。开发这个MariaDB数据库分支的可能原因之一是:甲骨文公司收购了MySQL之后,有将MySQL闭源的潜在风险,因此MySQL开源社区采用分支的方式来避开这个风险。(CentOS7已经将集成的MySQL替换为了MariaDB)
开发MariaDB数据库的目的是完全兼容MySQL数据库,包括API和命令行,使之能轻松的成为MySQL的代替品。在存储引擎方面,使用XtraDB来代替MySQL的InnoDB。MariaDB由MySQL的创始人Michael Widenius主导开发,他早前曾以10亿美元的价格,将自己创建的公司MySQL AB卖给了SUN,此后,随着SUN被甲骨文收购,MySQL的所有权也落入了Oracle的手中。MariaDB数据库的名称来自MySQL的创始人Michael Widenius的女儿Maria的名字。
MariaDB基于事务的Maria存储引擎,替换了MySQL的MyISAM存储引擎,它使用Percona的XtraDB。这个版本还包括了PrimeBase XT和FederatedX存储引擎。
MariaDB数据库直到5.5八本,均依照MySQL的版本发行。因此,使用MariaDB5.5的人会从MySQL5.5中了解到MariaDB的所有功能。
Microsoft SQL Server是微软公司开发的大型关系型数据库系统。SQL Server的功能比较全面,效率高,可以作为中型企业或者单位的数据库平台。SQL Server可以与Windows操作系统紧密集成,不论是应用程序开发速度还是系统事务处理运行速度,都能得到较大的提升。对于在Windows品台上开发的各种企业级信息管理系统来说,不论是C/S架构还是B/S架构,SQL Server都是一个很好的选择。SQL Server的缺点是只能在Windows系统下运行。
主要应用范围:部分企业电商,使用windows服务器平台的企业。
美国Microsoft公司于1994年推出的微机数据库管理系统。它具有界面友好、易学易用、开发简单、接口灵活等特点,是典型的新一代桌面关系型数据库管理系统。它结合了Microsoft Jet Database Engine和图形用户界面两项特点,是Microsoft Office的成员之一。Access能够存取Access/Jet、Microsoft SQL Server、Oracle,或者任何ODBC兼容数据库的资料。
Access是入门级小型桌面数据库,性能安全性都很一般。可供个人管理或小型网站使用
DB2,PostgreSQL,Informix,Sybase等。
Memcached是一个开源的、高性能的、具有分布式内存对象的缓存系统。通过它可以减轻数据库负载,加速动态的Web应用,最初版本由LiveJournal的Brad Fitzpatrick在2003年开发完成。目前全球有非常多的用户都在使用它来构建自己的大负载网站或提高自己的高访问网站的响应速度。注意:Memcache是这个项目的名称,而Memcached是服务器端的主程序文件名。
缓存一般用来保存一些经常被读取的对象或数据(例如,浏览器会把经常访问的网页缓存起来一样),通过缓存来存取对象或数据要比在磁盘上存取快很多,前者是内存,后者是磁盘。Memcached是一种纯内存缓存系统,把经常存取的对象或数据缓存在Memcached的内存中,这些被缓存的数据被程序通过API的方式被存取,Memcached里面的数据就像一张巨大的HASH表,数据以key-value对的方式存在。Memcached通过缓存经常被存取的对象或数据,从而减轻频繁读取数据库的压力,提高网站的响应速度,构建出速度更快的可扩展的Web应用。官网:http://memcached.org/
由于Memcached为纯内存缓存软件,一旦重启所有数据都会丢失,因此,新浪网基于Memcached开发了一个开源项目Memcachedb。通过为Memcached增加Berkeley DB的持久化存储机制和异步主辅复制机制,使Memcached具备了事务恢复能力、持久化数据存储能力和分布式复制能力,Memcachedb非常适合需要在超高性能读写速度、持久化保存的应用场景,但是最近几年逐渐被其他的持久化产品代替,例如redis。
q 小结:
1、key-value型数据库
2、纯内存数据库,重启丢失数据
3、持久化产品memcachedb(sina)
和Memcached类似,redis也是一个key-value型存储系统。但redis支持的存储value类型相对更多,包括string(字符串)、list(链表)、set(集合)和zset(有序集合)等。这些数据类型都支持push/pop、add/remove及取交集、并集和差集及更丰富的操作,而这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与Memcached一样,为了保证效率,redis的数据都是缓存在内存中的。区别是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。
Redis是一个高性能的key-value数据库。redis的出现,很大程度上补偿了Memcached这类key-value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。它提供了Python,Ruby,Erlang,PHP客户端,使用很方便。
官网:http://www.redis.io/documentation
q 小结:
1、支持内存缓存,这个功能相当于Memcached。
2、支持持久化存储,这个功能相当于Memcachedb,ttserver
3、数据类型更丰富,比其他key-value库功能更强
4、支持主从集群,分布式
5、支持列队等特殊功能。
应用:缓存从存取Memcached更改为redis。
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,类似json的bjson格式,因此可以存储比较复杂的数据类型。MongoDB最大的特点就是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。它的特点是高性能、易部署、易使用,存储数据非常方便。
q 主要功能特性:
1、面向集合存储,易存储对象类型的数据。“面向集合”(Collenction-Orented),意思是数据被分组存储在数据集中,被称为一个集合(Collenction)。每个集合在数据库中都有一个唯一的标识名,并且可以包含无限数目的文档。集合的概念类似关系型数据库(RDBMS)里的表(table),不同的是它不需要定义任何模式(schema)
2、模式自由。模式自由(schema-free),意味着对于存储在MongoDB数据库中的文件,我们不需要知道它的任何结构定义。如果需要,你完全可以把不同结构的文件存储在同一个数据库里。
3、支持动态查询
4、支持完全索引,包含内部对象
5、支持查询
6、支持复制和故障恢复
7、使用高效的二进制数据存储,包括大型对象
8、自动处理碎片,以支持云计算层次的扩展性。
Apache Cassandra是一套开源分布式Key-Value存储系统。它最初由Facebook开发,用于存储特别大的数据。Facebook目前在使用此系统。
Cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra的一个写操作,会被复制到其他节点上去,对Cassandra的读操作,也会被路由到某个节点上面去读取。对于一个Cassandra集群来说,扩展性能是比较简单的事情,只管在集群里面添加节点就可以了。
Cassandra是一个混合型的非关系型数据库,类似于Google的BigTable。其主要功能比Dynimite更丰富,Cassandra最初由Facebook开发,后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。
官网:http:// cassandra.org
主要特性:
1、分布式
2、基于column的结构化
3、高伸展性
Hbase,MemcacheDB,BerkeleyDB,Tokyo Tyrant(ttserver)
排名地址:https://db-engines.com/en/ranking