关于MaxCompute的基本了解

大数据计算服务（MaxCompute，原名 ODPS）是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 为您提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决海量数据计算问题，有效降低企业成本，并保障数据安全。

同时，DataWorks 和 MaxCompute 关系紧密，DataWorks 为 MaxCompute 提供了一站式的数据同步，任务开发，数据工作流开发，数据管理和数据运维等功能，详情请参见DataWorks（原大数据开发套件）。

MaxCompute 主要服务于批量结构化数据的存储和计算，可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完善，越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据（百 GB、TB 乃至 PB）级别。

在分析海量数据场景下，由于单台服务器的处理能力限制，数据分析者通常采用分布式计算模式。但分布式的计算模型对数据分析人员提出了较高的要求，且不易维护。使用分布式模型，数据分析人员不仅需要了解业务需求，同时还需要熟悉底层计算模型。MaxCompute 的目的是为您提供一种便捷的分析处理海量数据的手段，您可以不必关心分布式计算细节，便可达到分析大数据的目的。

MaxCompute 已经在阿里巴巴集团内部得到大规模应用，例如：大型互联网企业的数据仓库和 BI 分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。

产品优势

大规模计算存储

MaxCompute 适用于 100GB 以上规模的存储及计算需求，最大可达 EB 级别。

多种计算模型

MaxCompute 支持 SQL、MapReduce、Graph 等计算类型及 MPI 迭代类算法。

强数据安全

MaxCompute 已稳定支撑阿里全部离线分析业务7年以上，提供多层沙箱防护及监控。

低成本

与企业自建私有云相比，MaxCompute 的计算存储更高效，可以降低 20%-30% 的采购成本。

功能概述

数据通道

支持批量、历史数据通道

TUNNEL是 MaxCompute 为您提供的数据传输服务，提供高并发的离线数据上传下载服务。支持每天 TB/PB 级别的数据导入导出，特别适合于全量数据或历史数据的批量导入。Tunnel 提供 Java 编程接口供您使用，并且在 MaxCompute 的客户端工具中，有对应的命令实现本地文件与服务数据的互通。

实时、增量数据通道

针对实时数据上传的场景，MaxCompute 提供了延迟低、使用方便的DataHub服务，特别适用于增量数据的导入。DataHub 还支持多种数据传输插件，例如：Logstash、Flume、Fluentd、Sqoop 等，同时支持日志服务 Log Service 中的日志数据一键投递至 MaxCompute，进而使用 DataWorks 进行日志分析和挖掘。

与其它阿里云服务的集成使用

MaxCompute（原 ODPS）是一种大数据计算服务，能提供快速、完全托管的 PB 级数据仓库解决方案，已经与阿里云部分产品集成，可以快速实现很多业务场景。

MaxCompute 与大数据开发套件

大数据开发套件是基于 MaxCompute 计算和存储，提供工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。在数加中，大数据开发套件控制台即为 MaxCompute 控制台。

通过大数据开发套件，您既可直接编写并运行 MaxCompute SQL，又能可视化配置工作流并定时调度运行 MaxCompute SQL、MR 等任务。更多使用说明请参考大数据开发套件帮助文档。

您可以将大数据开发套件理解成 MaxCompute 的 web 客户端。

MaxCompute 与数据集成

MaxCompute 可以通过数据集成加载不同数据源数据，同样也可以通过数据集成把 MaxCompute 的数据导出到各种业务数据库。

数据集成已经集成到大数据开发套件作为数据同步任务进行配置、运行。您可直接在大数据开发套件上配置 MaxCompute 数据源，再配置读取 MaxCompute表或者写入 MaxCompute表任务，整个过程只需在一个平台上进行操作。

MaxCompute 与机器学习

机器学习是基于 MaxCompute 的一款机器学习算法平台。数加上创建好 MaxCompute 项目，开通好机器学习，即可通过机器学习平台的算法组件对 MaxCompute 数据进行模型训练等操作。详情请参见机器学习操作文档。

MaxCompute 与 QuickBI

数据在 MaxCompute 进行加工处理后，将 Project添加为 QuickBI 数据源，即可在 QuickBI 页面对 MaxCompute 表数据进行报表制作，实现数据可视化分析。

MaxCompute 与 AnalyticDB

AnalyticDB是海量数据实时高并发在线分析（Realtime OLAP）的云计算服务，与 MaxCompute 双剑合璧实现大数据驱动业务系统的场景。通过 MaxCompute 离线计算挖掘，产出高质量数据后，导入分析型数据库，供业务系统调用分析。

将 MaxCompute 数据导入到 AnalyticDB，有以下两种方式：

通过 DMS for AnalyticDB 的导入导出功能进行配置。

通过大数据开发套件配置数据同步任务，读 MaxCompute和写 AnalyticDB。

MaxCompute 与推荐引擎

推荐引擎是在阿里云计算环境下建立的一套推荐服务框架，推荐服务通常由三部分组成：日志采集，推荐计算和产品对接，而推荐计算的离线计算输入和输出都是 MaxCompute（原 ODPS）表。

在推荐引擎控制台的资源管理页面，通过添加云计算资源的方式，将 MaxCompute 项目添加为推荐引擎的计算资源。

MaxCompute 与表格存储

表格存储（Table Store）是构建在阿里云飞天分布式系统之上的分布式 NoSQL 数据存储服务，MaxCompute2.0 支持直接通过外部表方式访问表格存储中的表数据并进行处理，详情请参见访问 OTS 非结构化数据。

MaxCompute 与 OSS

对象存储 OSS是海量、安全、低成本、高可靠的云存储服务，MaxCompute2.0 支持直接通过外部表方式访问表格存储中的表数据并进行处理，详情请参见访问 OSS 非结构化数据。

MaxCompute 与 OpenSearch

阿里云开放搜索 OpenSearch是一款阿里巴巴自主研发的大规模分布式搜索引擎平台。数据通过 MaxCompoute 进行计算处理后，可以在 OpenSearch 平台上通过添加数据源的方式将 MaxCompute 数据接入。

MaxCompute 与移动数据分析

移动数据分析（Mobile Analytics）是阿里云推出的一款移动 App 数据统计分析产品，为开发者提供一站式数据化运营服务。当移动数据分析自带的基础的分析报表不能满足 APP 开发者的个性化需求时，可以将数据一键同步至 Maxcompute，结合自己的业务需求来进一步加工、分析自己的数据。

MaxCompute 与日志服务

日志服务能快速完成数据采集、消费、投递以及查询分析等功能。日志数据采集后，需要更多的个性化分析、挖掘，您可以在日志服务上投递日志到 MaxCompute，通过 MaxCompute 对日志数据进行个性化、深层次的数据分析、挖掘。

MaxCompute 与RAM

RAM是阿里云为客户提供的用户身份管理与资源访问控制服务。MaxCompute与RAM的集成使用主要有两个场景：

场景一：通过数加·大数据开发套件使用MaxCompute时，子账户的身份管理

主帐号开通并创建项目后，若需要通过数加·大数据开发套件使用MaxCompute且多个账户协同开发，必须由主帐号到RAM服务中创建子账户，将RAM子账户添加为项目成员从而进行协同开发，具体的操作可以参考大数据开发套件文档准备RAM子账号、添加项目成员和角色。

注意：此时RAM只起到用户身份管理功能，相关的权限管理不在RAM上控制。MaxCompute命令对RAM子账户的相关授权可以参考文档添加 RAM 子账号。

场景二：MaxCompute处理非结构化数据时，通过RAM对非结构化数据进行授权

目前MaxCompute支持直接处理非结构化数据（包含OSS和Table Store），前提条件之一就是需要在 RAM 中授予 MaxCompute 访问 OSS或Table Store 的权限，具体可以参考文档访问 OSS 非结构化数据、访问Table Store非结构化数据。

关于MaxCompute的拓展了解：

Apsara Clouder大数据专项技能认证：利用MaxCompute部署股票交易策略

（本课程是阿里云大学Apsara Clouder大数据专项技能认证：利用MaxCompute部署股票交易策略相关课程,仅能试听免费课时,需购买认证包才能学完全部课时,考取证书。）

更多精品课程：

7天玩转云服务器

云数据库Redis版使用教程

玩转云存储对象存储OSS使用入门

阿里云CDN使用教程

负载均衡入门与产品使用指南

阿里云大学官网（阿里云大学 - 官方网站，云生态下的创新人才工场）

关于MaxCompute的基本了解

你可能感兴趣的:(关于MaxCompute的基本了解)