Web Intelligence Week 4 - Distributed File System

分布式数据库的结构

  • metadata全部储存在Master(Name Node)里面。
  • Chunk Server说中每一个Chunk都有几份备份(Replicas)
  • 写入时要保证每个replica都写入正确

Web Intelligence Week 4 - Distributed File System_第1张图片

数据库的发展

数据库的几个基本任务

  • transactions
  • query - SQL
  • indexs - B+ tree
  • disk management

不同的阶段

  • 第一阶段:所有的记录都储存在一张表里面。
  • 表太大了,每次查询都要遍历每个column
  • 第二阶段:关系型数据库
  • 数据量再次增大,每次的大规模写入读出都可能会遇到hardware fail,为了增加tolerance.....。index在大数据下不够快速
  • 第三阶段:分布式文件系统

Parallel Database
Web Intelligence Week 4 - Distributed File System_第2张图片

  • Traditional parallel databases lacked the ability to support long-running processing while also tolerating hardware faults.

Web Intelligence Week 4 - Distributed File System_第3张图片

  • NoSQL databases allow for limited queries (i.e. only restricted joins) while also exploiting more fault-tolerant big-data architectures

Big - Table and HBase

Web Intelligence Week 4 - Distributed File System_第4张图片

  • HBase是一个分布式的、面向列的开源数据库(百度百科)
  • 数据模型(官方文档中文翻译)
Web Intelligence Week 4 - Distributed File System_第5张图片
  • 每一个ColumnFamily可以包含不同的列,可以动态的对每个ColumnFamily加入列。每个ColumnFamily里面的列是储存在上图中的Region/Tablet Server中(分布式文件系统的一个Chunk)
  • 时间戳
  • Big-table / HBase distributes partitions records across many different servers based on a single key.


越看越看不懂,留待以后上课再说
















你可能感兴趣的:(Web Intelligence Week 4 - Distributed File System)