MPP架构是什么?

文章目录

    • MPP是什么
      • SMP- Symmetric Multi-Processor 对称多处理器结构
      • NUMA -Non-Uniform Memory Access 非一致存储访问结构
      • MPP -Massive-Parallel Processing 海量并行处理架构
    • MPP DB
      • - Share Disk
      • - Share Nothing
    • 典型MPP DB
      • Greenplum
      • Teradata
      • Impala
      • Presto
      • ES

学习笔记:大数据架构详解:从数据获取到深度学习

MPP是什么

  • 系统架构层面的服务器分类,如下三类:

SMP- Symmetric Multi-Processor 对称多处理器结构

  • 特点
    Uniform Memory Access
    共享存储:cpu,内存,io
  • 不足
    扩展能力有限
    内存总线限制访问内存的效率

NUMA -Non-Uniform Memory Access 非一致存储访问结构

  • 特点
    拥有多个CPU模块,每个模块由多个CPU组成,有独立的本地内存,io槽口
    节点之间通过互联模块进行连接和信息交互:同一台物理服务器内部实现,cpu异地访问时必须等待
    较好解决SMP系统的扩展问题
  • 不足
    互联模块访问效率和本地内存访问不在一个效率层级,系统性能无法和cpu数线性增加

MPP -Massive-Parallel Processing 海量并行处理架构

另一种系统扩展的方式

  • 特点
    SMP组合的方式:每台SMP服务器(节点)通过节点互联网络连接。
    节点互联网络:MPP内部使用,对用户通明,在不同SMP服务器外部通过IO实现,每个节点只访问本地内存和存储,节点信息交互和节点本身是并行处理的。
    每个节点只访问本地资源(内存,存储),Share Nothing结构。
  • 不足
    复杂的机制来调度和平衡各个节点的负载和并行处理过程。

MPP DB

- Share Disk

使用独立的cpu,内存,,共享硬盘系统,不存在数据同步问题,有存储瓶颈问题
OracleRac

- Share Nothing

水平扩展灵活,元数据同步、故障恢复问题

典型MPP DB

了解MPP的架构特点,再来看看有代表性的一些产品,是不是有一种大同小异、豁然开朗的感觉。

Greenplum

PostgreSQL的基础上 、MPP架构
关系型分布式数据仓库
兼容Hadoop生态,-》HAWQ,存储层改用HDFS.

  • 架构
    MPP架构是什么?_第1张图片
  • 大规模存储
    Hash分片,表分区:数据到各个Segment Host
  • 并行处理
  • 支持索引
    B-Tree
    Bitmap
    Hash

Teradata

暂无了解

Impala

MPP架构是什么?_第2张图片

Presto

Distributed SQL Query Engine for Big Data
MPP架构是什么?_第3张图片
官方文档

  • presto目标定位
    Presto is a tool designed to efficiently query vast amounts of data using distributed queries. If you work with terabytes or petabytes of data, you are likely using tools that interact with Hadoop and HDFS. Presto was designed as an alternative to tools that query HDFS using pipelines of MapReduce jobs such as Hive or Pig, but Presto is not limited to accessing HDFS. Presto can be and has been extended to operate over different kinds of data sources including traditional relational databases and other data sources such as Cassandra.

    Presto was designed to handle data warehousing and analytics: data analysis, aggregating large amounts of data and producing reports. These workloads are often classified as Online Analytical Processing (OLAP).

  • presto组件

  • presto使用

  • presto 与 Impala区别

ES

MPP架构是什么?_第4张图片

你可能感兴趣的:(big-data)