DataWorks系列(一): Dataworks下的MaxCompute(ODPS)的基本简介--经典六问

文章目录

    • Dataworks下的MaxCompute(ODPS)基本简介(一):
      • 一:MaxCompute是什么?
      • 二:MaxCompute里面有什么?
      • 三:MaxCompute系统架构是什么?
      • 四:如何导入数据到MaxCompute?
      • 五:MaxCompute对于有一定开发经验的人员来说有什么好处?
      • 六:MaxCompute存储性能如何?
        • TPC-DS测试

Dataworks下的MaxCompute(ODPS)基本简介(一):

最近一直再用阿里云的产品,先来聊一聊咋们接触最多的maxcompute
这篇文章是写给有一定开源大数据产品使用经验的开发者写的,对标开源大数据产品,阿里的大数据OLAP服务有什么区别

一:MaxCompute是什么?

作为一种完全封装托管好的EB级数据仓库解决方案,用来处理海量数据的计算服务

二:MaxCompute里面有什么?

  • 大规模数据存储

    用于大于100GB,最大达EB级的计算需求和存储需求

  • 多种计算模型

    支持sql计算,MR计算,Graph图计算,基于DAG图计算,交互式计算,内存计算,机器学习

三:MaxCompute系统架构是什么?

DataWorks系列(一): Dataworks下的MaxCompute(ODPS)的基本简介--经典六问_第1张图片

四:如何导入数据到MaxCompute?

  • 批量历史数据通道–Tunnel通道

    适用于全量数据或历史数据的批量导入,并提供了命令行和java接口

  • 实时增量数据通道–DataHub通道

    datahub还支持多种开源的数据传输产品:Flume,logstash,Sqoop等

五:MaxCompute对于有一定开发经验的人员来说有什么好处?

  • 便捷的SQL开发

    MaxCompute的sql和hive的差不太多,所以熟悉开源产品hive的开发者,泄气maxcompute来肯定是得心应手的。

  • MapReduce

    MaxCompute提供的Java MapReduce编程模型。您可以使用MapReduce提供的接口(Java API)编写MapReduce程序,处理MaxCompute中的数据。

  • Graph

    一套面向迭代的图计算处理框架。使用图进行建模,图由点(Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图进行编辑、演化,最终得出结果。

  • Java SDK

    我们可以编写java程序打成jar包到资源处,通过进行api调用运行

  • Python SDK

    我们可以编写Python程序打成py包到资源处,通过进行api调用运行

六:MaxCompute存储性能如何?

Maxcompute存储格式升级为自己的迭代版本AliORC,与开源的Apache ORC和Apache Parquet有所不同

TPC-DS测试

通过模拟真实场景的数据模型,和真实数据量,对比多个不同的hadoop版本之后得出一个性能对比图

DataWorks系列(一): Dataworks下的MaxCompute(ODPS)的基本简介--经典六问_第2张图片

DataWorks系列(一): Dataworks下的MaxCompute(ODPS)的基本简介--经典六问_第3张图片

你可能感兴趣的:(阿里云,大数据,dataworks,maxcompute,阿里云)