数据研发学习笔记4.4:大数据之NoSQL数据库

文章目录

  • 1 NoSQL简介
  • 2 NoSQL兴起的原因
  • 3 NoSQL与关系数据库的比较
  • 4 NoSQL的四大类型
    • 4.1 键值数据库
    • 4.2 列族数据库
    • 4.3 文档数据库
    • 4.4 图形数据库
  • 5 NoSQL的三大基石
    • 5.1 CAP
    • 5.2 BASE
    • 5.3 最终一致性
  • 6 从NoSQL到NewSQL数据库
  • 7 文档数据库MongoDB
    • 7.1 MongoDB简介
    • 7.2 MongoDB概念解析
    • 7.3 安装MongoDB

1 NoSQL简介

数据研发学习笔记4.4:大数据之NoSQL数据库_第1张图片
通常,NoSQL数据库具有以下几个特点:

  • 灵活的可扩展性
  • 灵活的数据模型
  • 与云计算紧密融合

现在已经有很多公司使用了NoSQL数据库:Google、Facebook、Mozilla、Adobe
Foursquar、LinkedIn、Digg、McGraw-Hill Education、Vermont Public Radio、百度、腾讯、阿里、新浪、华为……

2 NoSQL兴起的原因

(1)关系数据库已经无法满足Web2.0的需求。
主要表现在以下几个方面:

  • 无法满足海量数据的管理需求
  • 无法满足数据高并发的需求
  • 无法满足高可扩展性和高可用性的需求

MySQL集群是否可以完全解决问题?

  • 复杂性:部署、管理、配置很复杂
  • 数据库复制:MySQL主备之间采用复制方式,只能是异步复制,当主库压力较大时可能产生较大延迟,主备切换可能会丢失最后一部分更新事务,这时往往需要人工介入,备份和恢复不方便
  • 扩容问题:如果系统压力过大需要增加新的机器,这个过程涉及数据重新划分,整个过程比较复杂,且容易出错
  • 动态数据迁移问题:如果某个数据库组压力过大,需要将其中部分数据迁移出去,迁移过程需要总控节点整体协调,以及数据库节点的配合。这个过程很难做到自动化。

(2)“One size fits all”模式很难适用于截然不同的业务场景

  • 关系模型作为统一的数据模型既被用于数据分析,也被用于在线业务。但这两者一个强调高吞吐,一个强调低延时,已经演化出完全不同的架构。用同一套模型来抽象显然是不合适的
  • Hadoop就是针对数据分析
  • MongoDB、Redis等是针对在线业务,两者都抛弃了关系模型

(3)关系数据库的关键特性包括完善的事务机制和高效的查询机制。但是,关系数据库引以为傲的两个关键特性,到了Web2.0时代却成了鸡肋。

主要表现在以下几个方面:

  • Web2.0网站系统通常不要求严格的数据库事务
  • Web2.0并不要求严格的读写实时性
  • Web2.0通常不包含大量复杂的SQL查询(去结构化,存储空间换取更好的查询性能)

3 NoSQL与关系数据库的比较

数据研发学习笔记4.4:大数据之NoSQL数据库_第2张图片
数据研发学习笔记4.4:大数据之NoSQL数据库_第3张图片
数据研发学习笔记4.4:大数据之NoSQL数据库_第4张图片
总结如下:

(1)关系数据库

  • 优势:以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持
  • 劣势:可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持Web2.0应用,事务机制影响了系统的整体性能等

(2)NoSQL数据库

  • 优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力等
  • 劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一致性,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等

关系数据库和NoSQL数据库各有优缺点,彼此无法取代。

  • 关系数据库应用场景:电信、银行等领域的关键业务系统,需要保证强事务一致性

  • NoSQL数据库应用场景:互联网企业、传统企业的非关键业务(比如数据分析)

  • 采用混合架构
    案例:亚马逊公司就使用不同类型的数据库来支撑它的电子商务应用。对于“购物篮”这种临时性数据,采用键值存储会更加高效
    当前的产品和订单信息则适合存放在关系数据库中。大量的历史订单信息则适合保存在类似MongoDB的文档数据库中。

4 NoSQL的四大类型

NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库。
数据研发学习笔记4.4:大数据之NoSQL数据库_第5张图片
数据研发学习笔记4.4:大数据之NoSQL数据库_第6张图片
数据研发学习笔记4.4:大数据之NoSQL数据库_第7张图片

4.1 键值数据库

数据研发学习笔记4.4:大数据之NoSQL数据库_第8张图片

4.2 列族数据库

数据研发学习笔记4.4:大数据之NoSQL数据库_第9张图片

4.3 文档数据库

“文档”其实是一个数据记录,这个记录能够对包含的数据类型和内容进行“自我描述”。XML文档、HTML文档和JSON 文档就属于这一类。SequoiaDB就是使用JSON格式的文档数据库,它的存储的数据是这样的:
数据研发学习笔记4.4:大数据之NoSQL数据库_第10张图片

  • 数据是不规则的,每一条记录包含了所有的有关“SequoiaDB”的信息而没有任何外部的引用,这条记录就是“自包含”的
  • 这使得记录很容易完全移动到其他服务器,因为这条记录的所有信息都包含在里面了,不需要考虑还有信息在别的表没有一起迁移走
  • 同时,因为在移动过程中,只有被移动的那一条记录(文档)需要操作,而不像关系型中每个有关联的表都需要锁住来保证一致性,这样一来ACID的保证就会变得更快速,读写的速度也会有很大的提升

数据研发学习笔记4.4:大数据之NoSQL数据库_第11张图片

4.4 图形数据库

数据研发学习笔记4.4:大数据之NoSQL数据库_第12张图片
不同类型数据库比较分析
数据研发学习笔记4.4:大数据之NoSQL数据库_第13张图片

  • MySQL产生年代较早,而且随着LAMP大潮得以成熟。尽管其没有什么大的改进,但是新兴的互联网使用的最多的数据库
  • MongoDB是个新生事物,提供更灵活的数据模型、异步提交、地理位置索引等五花十色的功能
  • HBase是个“仗势欺人”的大象兵。依仗着Hadoop的生态环境,可以有很好的扩展性。但是就像象兵一样,使用者需要养一头大象(Hadoop),才能驱使他
  • Redis是键值存储的代表,功能最简单。提供随机数据存储。就像一根棒子一样,没有多余的构造。但是也正是因此,它的伸缩性特别好。就像悟空手里的金箍棒,大可捅破天,小能成缩成针

5 NoSQL的三大基石

数据研发学习笔记4.4:大数据之NoSQL数据库_第14张图片

5.1 CAP

C(Consistency):一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,所有节点在同一时间具有相同的数据
A(Availability):可用性,是指快速获取数据,可以在确定的时间内返回操作结果,保证每个请求不管成功或者失败都有响应;
P(Tolerance of Network Partition):分区容忍性,是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。

CAP理论告诉我们,一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求,最多只能同时满足其中两个,正所谓“鱼和熊掌不可兼得”。
数据研发学习笔记4.4:大数据之NoSQL数据库_第15张图片
数据研发学习笔记4.4:大数据之NoSQL数据库_第16张图片

5.2 BASE

说起BASE(Basically Availble, Soft-state, Eventual consistency),不得不谈到ACID。
数据研发学习笔记4.4:大数据之NoSQL数据库_第17张图片
一个数据库事务具有ACID四性

  • A(Atomicity):原子性,是指事务必须是原子工作单元,对于其数据修改,要么全都执行,要么全都不执行
  • C(Consistency):一致性,是指事务在完成时,必须使所有的数据都保持一致状态
  • I(Isolation):隔离性,是指由并发事务所做的修改必须与任何其它并发事务所做的修改隔离
  • D(Durability):持久性,是指事务完成之后,它对于系统的影响是永久性的,该修改即使出现致命的系统故障也将一直保持

BASE的基本含义是基本可用(Basically Availble)、软状态(Soft-state)和最终一致性(Eventual consistency):

  • 基本可用(Basically Availble),是指一个分布式系统的一部分发生问题变得不可用时,其他部分仍然可以正常使用,也就是允许分区失败的情形出现
  • 软状态(soft-state)”是与“硬状态(hard-state)”相对应的一种提法。数据库保存的数据是“硬状态”时,可以保证数据一致性,即保证数据一直是正确的。“软状态”是指状态可以有一段时间不同步,具有一定的滞后性
  • 最终一致性(Eventual consistency)。一致性的类型包括强一致性和弱一致性,二者的主要区别在于高并发的数据访问操作下,后续操作是否能够获取最新的数据。对于强一致性而言,当执行完一次更新操作后,后续的其他读操作就可以保证读到更新后的最新数据;反之,如果不能保证后续访问读到的都是更新后的最新数据,那么就是弱一致性。而最终一致性只不过是弱一致性的一种特例,允许后续的访问操作可以暂时读不到更新后的数据,但是经过一段时间之后,必须最终读到更新后的数据。 最常见的实现最终一致性的系统是DNS(域名系统)。一个域名更新操作根据配置的形式被分发出去,并结合有过期机制的缓存;最终所有的客户端可以看到最新的值。

5.3 最终一致性

最终一致性根据更新数据后各进程访问到数据的时间和方式的不同,又可以区分为:

  • 因果一致性:如果进程A通知进程B它已更新了一个数据项,那么进程B的后续访问将获得A写入的最新值。而与进程A无因果关系的进程C的访问,仍然遵守一般的最终一致性规则
  • “读己之所写”一致性:可以视为因果一致性的一个特例。当进程A自己执行一个更新操作之后,它自己总是可以访问到更新过的值,绝不会看到旧值
  • 单调读一致性:如果进程已经看到过数据对象的某个值,那么任何后续访问都不会返回在那个值之前的值
  • 会话一致性:它把访问存储系统的进程放到会话(session)的上下文中,只要会话还存在,系统就保证“读己之所写”一致性。如果由于某些失败情形令会话终止,就要建立新的会话,而且系统保证不会延续到新的会话
  • 单调写一致性:系统保证来自同一个进程的写操作顺序执行。系统必须保证这种程度的一致性,否则就非常难以编程了

6 从NoSQL到NewSQL数据库

数据研发学习笔记4.4:大数据之NoSQL数据库_第18张图片
数据研发学习笔记4.4:大数据之NoSQL数据库_第19张图片

7 文档数据库MongoDB

7.1 MongoDB简介

  • MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。
  • 在高负载的情况下,添加更多的节点,可以保证服务器性能。
  • MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。
  • MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。
    数据研发学习笔记4.4:大数据之NoSQL数据库_第20张图片

MongoDB主要特点:

  • 提供了一个面向文档存储,操作起来比较简单和容易
  • 可以设置任何属性的索引来实现更快的排序
  • 具有较好的水平可扩展性
  • 支持丰富的查询表达式,可轻易查询文档中内嵌的对象及数组
  • 可以实现替换完成的文档(数据)或者一些指定的数据字段
  • MongoDB中的Map/Reduce主要是用来对数据进行批量处理和聚合操作
  • 支持各种编程语言:RUBY,PYTHON,JAVA,C++,PHP,C#等语言
  • MongoDB安装简单

7.2 MongoDB概念解析

在mongodb中基本的概念是文档、集合、数据库。
数据研发学习笔记4.4:大数据之NoSQL数据库_第21张图片

通过下图实例,我们也可以更直观的的了解MongoDB中的一些概念:
数据研发学习笔记4.4:大数据之NoSQL数据库_第22张图片
数据研发学习笔记4.4:大数据之NoSQL数据库_第23张图片
数据库

  • 一个mongodb中可以建立多个数据库。
  • MongoDB的默认数据库为"db",该数据库存储在data目录中。
  • MongoDB的单个实例可以容纳多个独立的数据库,每一个都有自己的集合和权限,不同的数据库也放置在不同的文件中。

文档

  • 文档是一个键值(key-value)对(即BSON)。MongoDB 的文档不需要设置相同的字段,并且相同的字段不需要相同的数据类型,这与关系型数据库有很大的区别,也是 MongoDB 非常突出的特点。
  • 一个简单的文档例子如下:
    在这里插入图片描述

集合

  • 集合就是 MongoDB 文档组,类似于 RDBMS (关系数据库管理系统:Relational Database Management System)中的表格。
  • 集合存在于数据库中,集合没有固定的结构,这意味着你在对集合可以插入不同格式和类型的数据,但通常情况下我们插入集合的数据都会有一定的关联性。
  • 比如,我们可以将以下不同数据结构的文档插入到集合中:
    在这里插入图片描述

MongoDB 数据类型
数据研发学习笔记4.4:大数据之NoSQL数据库_第24张图片

7.3 安装MongoDB

Window平台安装 MongoDB:

  • MongoDB提供了可用于32位和64位系统的预编译二进制包,你可以从MongoDB官网下载安装,MongoDB预编译二进制包下载地址:http://www.mongodb.org/downloads
  • 注意:在 MongoDB2.2 版本后已经不再支持 Windows XP 系统。

Linux平台安装MongoDB:

  • MongoDB提供了linux平台上32位和64位的安装包,你可以在官网下载安装包。
  • 下载地址:http://www.mongodb.org/downloads

启动 MongoDB服务

  • 只需要在MongoDB安装目录的bin目录下执行’mongod’即可

其他相关笔记:
数据研发学习笔记4.1:大数据之概述与处理架构Hadoop
数据研发学习笔记4.2:大数据之分布式文件系统HDFS
数据研发学习笔记4.3:大数据之分布式数据库HBase
数据研发学习笔记4.4:大数据之NoSQL数据库
数据研发学习笔记4.5:大数据之云数据库
数据研发学习笔记4.6:大数据之MapReduce
数据研发学习笔记4.7:大数据之数据仓库Hive
数据研发学习笔记4.8:大数据之Spark
数据研发学习笔记4.9:流计算
数据研发学习笔记4.10:图计算
数据研发学习笔记4.11:大数据之数据可视化

你可能感兴趣的:(数据研发学习笔记)