云存储浅析

GFS/BigTable/App Engine
HDFS/HBase/
Dynamo/S3/SimpleDB/EC2

比较Google和Amazon各自的存储模型,是很有趣的事情,他们的这些工作是目前云计算圈子里技术灵感的源泉,也是几十年来分布式系统理论研究应用的一个集大成之作。

存储虚拟化

文件系统抽象
数据库系统抽象

分布式存储系统

分布式文件系统
分布式数据库系统

key-value存储是更抽象的接口,或者叫对象存储系统,对象OID索引到对象
比较BigTable/HBase/Dynamo???

问题的关键在于:

功能性要求
性能要求(high throughput, low latency).
非功能性要求(容错,伸缩性,存储系统暂不考虑信息安全性)

解决思路在于大规模集群技术。
replication cluster
load balance cluster

由replication自然引起consistency模型的问题,这是整个存储系统中最困难的一个地方。再加上concurrency control的考虑,整个问题的复杂度倍增,这是个组合问题。

replication * concurrency = consistency.

相比于传统数据库ACID的要求,云存储主要是加入了replication的因素。

进一步的考虑,需要对数据进行partition,或者说hash.一个大文件划分成多个数据块,一个大表划分成几个部分。系统需要维护这种映射关系。在google和hadoop架构下,是通过中心服务器来管理的,master server,这就导致系统单点问题。amazon则通过分布式dht来做,节点是虚拟的,所有虚拟节点构成ring。

replication同步机制
GFS是同步模型
Dynamo是异步模型

同步模型的一致性易于做到些(考虑到容错,其实也不那么直接),异步模型必然要引出多版本的概念

failure detector

Google chubby闪亮登场
解决分布式系统中必须解决的一个全局状态问题。
SPOF问题
集群配置

API和协议

NFS
Fuse
CIFS

key-value存储系统接口

SOAP
RESTful

云存储解决了数据存储的问题,如何在如此大量的数据里面,进行必要的分析,挖掘到有用的信息,就进入并行计算的领域,这方面Map/Reduce独领风骚。这个思想是受FP的启发而出现的。FP在并行计算领域有独特优势(?),现在许多FPL的社区慢慢的热闹起来,这是一个重要原因。





你可能感兴趣的:(Google,hbase,领域模型,云计算,FP)