NoSql背景与历史

关系型数据库应用于海量数据时暴露的问题:

  1. 高效的数据处理
  2. 高效的并行化
  3. 可扩展性
  4. 成本

RDBMS构建的先决条件:

  1. 数据的结构已经明确定义
  2. 数据是致密的,并且很大程度上是一致的
  • 即数据的属性可以预先定义好,他们之间的相互关系非常稳固并且被系统的引用
  • 定义在数据上的索引能保持一致性,能统一应用以提高查询的速度。

Nosql具有灵活性,但是失去了事务完整性和灵活的索引即查询能力。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

可扩展性是一种能力,主要分为两种:

  1. 配置一个大而强的资源,通常属于垂直可扩展性,如使用配有大量CPU内核且直接挂载大量存储的超级计算机。
  2. 依靠由普通机器组成的集群,通常属于水平扩展性,用添加额外的结点来应付额外的负载。这是比较常用的。

水平扩展集群上处理大规模数据的方法里,MapReduce模型算是最好的。是函数式编程中两个常用的函数。

  1. map函数对列表的每个元素执行操作或函数,原有列表本身不会修改,所以可多个同时操作,线程之间互不影响。如(1,2,3,4)->函数->(2,4,6,8)
  2. reduce函数(fold函数),对数据结构(列表)中的所有元素执行一个函数,最终返回的那个结果或输出,如(2,4,6,8)->求和函数->20

思路简洁,可用在元组或者键值对组成的集合,map产生新集合,reduce对新生成的集合执行聚合以计算最终结果。

例子:

       [ { "94303" : "Tom" } , { "94303" : "Jane" } , { "94301" : "arun" } , { "94302" : "chen" }]

map:[ { "94303" : [  "Tom",  "Jane" ] } , { "94301" : "arun" } , { "94302" : "chen" }]

reduce:[ { "94303" :2} , { "94301" : 1 } , { "94302" :1 }]

你可能感兴趣的:(NoSQL)