大规模分布式存储系统-读书笔记-第一章

分布式存储系统是大量普通PC服务器通过Internet互联,对外作为一个整体提供存储服务。

  • 特性:

可扩展;低成本;高性能;易用。

  • 技术:
数据分布;一致性;容错;负载均衡;事务与并发控制;易用性;压缩/解压缩。
  • 数据分类
非结构化数据:文档、文本、图片、音频、视频

结构化数据:关系数据

半结构化数据

  • 分布式文件系统
非结构化数据对象

Facebook Haystack;

Taobao File System(TFS);

Google File System(GFS);

Amazon EBS

三种类型的数据:Blob(Binary Large Object);定长块;大文件

大规模分布式存储系统-读书笔记-第一章_第1张图片

  • 分布式键值系统
关系简单的半结构化数据

CRUD

Amazon Dynamo;

Taobao Tair、Memcache;

  • 分布式表格系统
关系较为复杂的半结构化数据

CRUD、支持扫描某个主键范围;针对单张表格的操作,不支持多表关联、联结、嵌套子查询等复杂的操作

Google Bigtable;

Megastore;

Microsoft Azure Table Storage;

Amazon DynamoDB.

  • 分布式数据库
结构化数据

MySQL Sharding;

Amazon RDS;

Microsoft SQL Azure;

Google Spanner;

Alibaba OceanBase.


你可能感兴趣的:(Big,Data,分布式存储)