大数据计算服务MaxCompute

数据采集(ETL)

  1. 获取数据
  2. 数据清洗
  3. 数据转换

数据分析计算

  1. 根据需求获取想要的数据
  2. 分析的结果需要存储起来
  • MySQL
  • redis
  • ES

数据展示

  • 其他的业务系统需要使用分析计算好的数据
  • 从存储系统中查询数据大屏显示

01MaxCompute相关概述

精准营销 用户画像 供需预测  =》需求非常强的算力

实际工作中MR是用来做ETL 数据加载 数据清洗

02相关概念

项目空间Project

  1. 开通MaxComputer服务--安装启动mysql软件
  2. 创建项目空间Project-----在mysql中创建一个数据库cxmall
  3. 创建表--创建表
  4. 表分区---分区

表Table 分区Partition 任务Task(1.采集用户行为数据2.分析计算,得到结果数据3.推送信息)

资源Resource java程序MR程序->jar 脚本文件.sh

函数Function 自带的函数sum() count() avg() 自定义函数UDF函数

任务(Task)

单个SQL Query 或者MapReduce程序统称为一个任务

工作流

有向无环图 描述各个Task之间的依赖关系和约束

作业(Job)

由一个或多个Task以及表示。。。工作流组成

作业实例(Instance)

当作业被提交就会拥有作业实例

03基础架构

客户端

接入层

逻辑层

计算层

大数据计算服务MaxCompute_第1张图片

 

04应用场景

05计费规则

计量计费

存储计费

计算计费

下载计费

账单

阿里飞天系统对外提供的具体组件

夸父:网络

  • 网络通信模块
  • 连接千万台主机,主宰众神之间的沟通

目标

  • 可靠、高效、实用、简单

夸父的力量

  • 共享连接降低系统资源消耗
  • 共享智慧诠释团队无边力量

女娲:协同

  • 终极的可靠中心
  • 提供名字服务,识别众神

女娲的目标

  • 可靠性
  • 还是可靠

仓颉

  • 统一的消息格式,序列化反序列化时使用
  • 众神之间沟通的语言

仓颉的目标

  • 兼容
  • 高效
  • 易用

伏羲:调度

  • 管理计算资源,调度Service和job
  • 提供编程接口

伏羲的目标

  • 易用性:编写分布式程序很简单
  • 可扩展性:完善的容错机制
  • 可共享型:支持Service和job支持。。。

盘古:存储

  • 管理存储资源,支持无结构数据存储
  • 保证数据的正确、可靠

目标

  • 可靠性:硬盘或者机器坏时数据仍正确使用
  • 可扩展性:增加机器即可增加存储空间和系统吞吐量
  • 多用户共享:提供访问控制,配额管理和资源统计

神农:监控

  • 素问:收集众神信息,异常情况报警
  • 灵柩:异常情况报警,自动故障预防/处理

神农的目标

  • 低系统影响
  • 易扩展
  • 高智能

后羿

  • 通过虚拟技术共享计算资源
  • 单机应用在云平台运行

你可能感兴趣的:(笔记,big,data,大数据)