阿里大数据ACA笔记-1熟悉大数据计算服务基本概念1.1 什么是MaxCompute

 

最近打算考大数据助理工程师ACA,没有找到相应的考试大纲,只能依靠大数据ACP的大纲进行复习,不知道能否顺利通过ACA的考试,以下是一些自己的理解笔记,以后会慢慢更新还请各位道友指正。

  1. 概念:定义

    1. Gartner

    2. 麦肯锡

  2. 优势

    1. 数据储存

    2. 计算方式

  3. 功能介绍

    1. 数据上传

      1. 实时

      2. 异步

    2. 算法多样

      1. SQL:基础+内置函数->不够用->自定义函数

      2. MapReduce

      3. Graph

      4. 工具:SDK(java、python)

 

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的GB/TB/PB级数据仓库解决方案。ODPS(Open Data Processing Service)

什么是大数据?

对于“大数据”(Big data)研究机构Gartner(咨询公司,在界定及分析那些决定了商业进程的发展趋势与技术方面,为决策者在投资风险和管理、营销策略、发展方向等重大问题上提供重要咨询建议,帮助决策者作出正确抉择)给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球(全球管理咨询公司,公司的使命就是帮助领先的企业机构实现显著、持久的经营业绩改善,打造能够吸引、培育和激励杰出人才的优秀组织机构)研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

 

产品优势

  • 大规模计算存储

MaxCompute适用于100GB以上规模的存储及计算需求,最大可达EB级别。

  • 多种计算模型

MaxCompute支持SQL、MapReduce、Graph(因为MapReduce是计算模型,推论->Graph计算模型)等计算类型及MPI迭代类算法。

 

google大数据三大思想:

  1. Google Bigtable:是一个分布式的结构化数据存储系统,它被设计用来处理海量:通常在千台普服务器上的 PB 级的数据。目标: 适用性广泛、可扩展、高性能和高可用性。

  2. Google FileSystem:面向大规模数据密集型应用的、可伸缩分布式文件系统,GFS虽然运行在廉价的普遍硬件设备上,但是它依了提供灾难冗余能力,为大量客户机提供了高性能的服务。

  3. Google MapReduce:编程模型,也是处理和生成超大数据集的算法相关实现。

 

 

功能概述

MaxCompute中没有数据,需要需要从数据源导入到MC创建的表中。

数据是对象

数据通道

批量、历史数据通道:TUNNEL

实时、增量数据通道:DataHub

 

计算是工具

计算及分析任务

MaxCompute支持多种计算模型,详情如下。

  • SQL:MaxCompute以表的形式存储数据,支持多种数据类型,并对外提供SQL查询功能。您可以将MaxCompute作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。

说明

  • MaxCompute SQL不支持事务、索引及Update/Delete等操作。提高速度

  • MaxCompute的SQL语法与Oracle、MySQL有一定差别,您无法将其他数据库中的SQL语句无缝迁移到MaxCompute上来。详情请参见与其他SQL语法的差异。

内置函数有可能不够用->

  • UDF:即用户自定义函数。

MaxCompute提供了很多内建函数来满足您的计算需求,同时您还可以通过创建自定义函数来满足不同的计算需求。

  • MapReduce:MaxCompute MapReduce是MaxCompute提供的Java MapReduce编程模型

  • Graph:MaxCompute提供的Graph功能是一套面向迭代的图计算处理框架。图计算作业使用图进行建模,图由点 (Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图进行编辑、演化,最终求解出结果,典型应用:PageRank、单源最短距离算法 、K-均值聚类算法等。

  • SDK:SDK是MaxCompute提供给开发者的工具包,当前支持Java SDK及Python SDK(->python更适合大数据计算)。

 

 

 

 

你可能感兴趣的:(阿里大数据ACA)