关于阿里云大数据计算服务MaxCompute的详细内容:
阿里云大数据计算服务MaxCompute使用教程
(MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。)
如果您是 MaxCompute 初学者
如果您是初学者,建议您从如下模块开始读起:
简介: MaxCompute 产品的总体介绍以及包含的主要功能。通过阅读该章节,您会对 MaxCompute 有一个总体的认识。
快速开始:通过示例,指导您如何进行申请账号、安装客户端、创建表、授权、导入导出数据、运行 SQL 任务、运行 UDF/Mapreduce 程序等操作。
基本介绍:MaxCompute 的基本概念及常用命令介绍。您可以进一步熟悉如何操作 MaxCompute。
工具:在分析数据之前,您需要掌握 MaxCompute 常用工具的下载,配置以及使用方法。我们提供以下客户端工具:
Client:您可以通过此工具对 MaxCompute 进行操作。
建议您熟悉以上的模块后,再有针对性地对其他模块进行深入学习。
如果您是数据分析师
如果您是数据分析师,建议您熟读 SQL 模块:
SQL:您可以查询并分析存储在 MaxCompute 上的大规模数据。包含的主要功能如下:
支持 DDL 语句,您可以通过 Create、Drop 和 Alter 对表和分区进行管理。
您可以通过 Select 选择表中的某几条记录;通过 Where 语句查看满足条件的记录,实现过滤功能。
您可以通过等值连接 Join 实现两张表的关联。
您可以通过对某些列 Group By,实现聚合操作。
您可以通过 Insert overwrite/into 把结果记录插入到另一张表中。
你可以通过内置函数和自定义函数(UDF)来实现一系列的计算。
如果您拥有一定开发经验
如果您拥有一定的开发经验,了解分布式概念,并且某些数据分析可能无法用 SQL 来实现,此时推荐您学习 MaxCompute 更高级的功能模块。如下所示:
MapReduce:MaxCompute 提供的 Java MapReduce 编程模型。您可以使用 MapReduce 提供的接口(Java API)编写 MapReduce 程序,处理 MaxCompute 中的数据。
Graph:一套面向迭代的图计算处理框架。使用图进行建模,图由点(Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图进行编辑、演化,最终得出结果。
Eclipse Plugin:方便您使用 MapReduce,UDF 以及 Graph 的 Java SDK 进行开发工作。
Tunnel:您可以使用 Tunnel 服务向 MaxCompute 批量上传离线数据或者从 MaxCompute 下载离线数据。
SDK:
Java SDK:向开发者提供 Java 接口。
Python SDK:向开发者提供 Python 接口。
注意:
目前MapReduce以及Graph功能仍处于公测中,若您想使用这部分功能,可以通过工单系统提交申请。申请时请指明您的项目空间名称,我们会在 7 个工作日内处理。
如果您是项目 Owner 或者管理员
如果您是一个项目空间的 Owner 或者管理员,您需要熟知以下模块:
安全指南:您可以通过阅读该章节,了解如何进行给用户授权、跨项目空间的资源共享、设置项目空间的数据保护功能、policy 授权等操作。
MaxCompute 收费指南:介绍 MaxCompute 的收费模式。
以及部分只有项目空间 Owner 才能使用的命令,例如:常用命令中其他操作的SetProject 操作。
内容导读
课时1:客户端配置以及基本命令介绍 03:09
课时2:SQL基本操作介绍 03:42
课时3:tunnel命令操作介绍 21:04
课时4:MaxCompute与主流关系数据库DDl基本语法差异 02:26
课时5:MaxCompute Studio安装配置说明20:52
阿里云大学官网(阿里云大学 - 官方网站,云生态下的创新人才工场)