基于 MaxCompute SQL 的半结构化数据处理实践

一、MaxCompute 基础介绍

阿里云数据与分析产品解决方案

MaxCompute作为企业级数据仓库服务,集中存储和管理企业数据资产、面向数据应用处理和分析数据,将数据转换为业务洞察。通过与阿里云内、外部服务灵活组合,可构建丰富的数据应用。全托管的数据与分析解决方案,可简化平台运维、管理投入,提升面向业务的服务能力,加速价值实现。

从下图可以看出 MaxCompute 是处于一个核心位置,首先 MaxCompute 是一个数据仓库,而且是一个基于 Serverless架构超大规模集群产品,具备安全管理能力等企业级能力。之前是偏离线数据处理平台,当前已经具备BI分析能力的企业级数据仓库。

一般企业的离线数据链路,从数据源包含关系型数据库、非结构化存储、大数据存储、消息队列等等,都可以通过数据集成离线的方式,批的方式,进入到数据仓库中。前端的各种分析应用,也可以有一些实时的分析,通过 MaxCompute-Hologres做查询加速,这是离线的场景。实时链路是从消息队列数据源,通过Datahub数据总线,到实时计算Flink,对接到实时数仓Hologres,再对接到前台。中间的数据是通过 Hologres 和 MaxCompute 还有 Flink,做流批一体。MaxCompute在数据仓库的基础上,扩展了数据库的一些联邦查询能力,包括Data Lake、Mysql、Hbase等,数据的集成,包括元数据的同步和查询去同步数据数据湖数据处理的能力。还包含基于数据仓库数据之后,人工智能PAI机器学习的能力。构成了完整的大数据底座。在这之上,DataWorks提供了,一站式的开发治理平台,可以做任务调度、元数据数据数据质量的血缘管理、数据开发等能力。

基于 MaxCompute SQL 的半结构化数据处理实践_第1张图片

MaxCompute 大数据计算服务简介

MaxCompute(大数据计算服务)是一款多功能、高性能、易于使用的数据仓库服务。

MaxCompute内建完善的企业级安全及管理功能、支持开放数据生态,以统一平台满足多使用场景(数据仓库/BI、数据湖分析、机器学习)需要,被广泛用于数据化运营、画像及推荐、智能预测等应用场景。

MaxCompute 底层有统一Iass层的存储和计算调度,存储是盘古,调度是伏羲,把存储跟计算资源做了一层封装,用资源池的方式对上层应用无感知的提供使用,上层应用只需要使用这个资源组,而不需要知道具体的任务运行在什么资源上面。MaxCompute 可以提供结构化数仓的存储能力,也可以提供数据湖包括开放格式、半结构化、非结构化等数据处理的能力。对于用户来说,所有使用场景都在项目里面,每个项目之间租户隔离,可以有本项目的资源,也可以共享资源。项目直接通过安全共享的方式,可以同步数据。再上层用统一的访问认证、管理、安全、监控、元数据等能力。

可以总结出以下几点:

  • 简单易用的SQL 端到端开发方式,支持Spark,分布式Python(Mars)等开源技术栈,内置完善的企业管理功能和开放的接口,简单易用开放
  • 统一元数据、统一数据存储,一份统一的企业数据资产,云原生的多租户系统,最高效的跨业务&跨组织数据连接与共享
  • 自适应的按需弹性资源,精准匹配业务规模的变化,避免资源浪费或不足,业务负载隔离,消除业务间资源争抢
  • 存储与计算独立伸缩,支持TB到EB级的存储扩展;连接广泛外部数据源,开展联邦计算
  • 深度优化,自动数仓,集成多年双11优化能力,智能调优+专家服务支持

基于 MaxCompute SQL 的半结构化数据处理实践_第2张图片

MaxCompute 功能介绍

MaxCompute 功能可以分为下图几类。最核心的存储计算能力是不对外开发的。存储主要用的是数据库表,计算资源会在SQL任务或者其他计算模型上使用时体现出来。看SQL计算能力,可以端到端完成整个数仓的数据处理和数据模型管理等能力,包括一些基础的数据类型,内部表做一些分区,外部表处理非机构化数据等。支持流式写入,流式upsert插入数据,删改数据等能力。查询时可以用非常复杂的查询方法,可以看解析计划Explain。UDF侧,MaxCompute支持Java UDF和Python UDF,还包括内容安全UDF。

管理能力,下图深色部分是在专有云里会有独立的增强包来对企业提供额外的计算能力。公共云上是直接Serverless方式提供给用户,只收资源费用。 管理能力也包含计量计费的能力,包括预付费和按量计费。任务有任务管理,查询有查询加速,专有云部署时,大规模跨域计算等企业级能力。MaxCompute除了SQL引擎外,还有向量检索,TensorFlow,Spark,Mars,Hologres,这些都可以基于MaxCompute的底层存储计算资源,用不同的引擎,提供对应场景的能力。合规治理部分,灰色部分有一些是DataWorks提供,包括本身数仓安全管理能力,元数据管理能力,审计能力,数据加密,数据脱敏,数据质量等功能。再通过SDK/API和MaxCompute提供的配套工具来完成数据开发,数据上传下载,还有一些三方应用,二方应用来完成整个数仓的生态构建。

基于 MaxCompute SQL 的半结构化数据处理实践_第3张图片

MaxCompute 主要解决方案

企业数据仓库/数据中台

将原始数据整合为可被广泛使用的知识,用于后续消费使用,包括:

•集成存储:收集、存储和集中管理企业内外数据;

•处理分析:清洗、加工、整合多方数据;面向业务需求统计、挖掘;统一的存储和处理可以提供弹性伸缩的存储计算能力,减少成本

•标准化:建立企业数据仓库模型(分层/分主题),建立数据标准,形成可复用数据资产,并且通过数据治理,进行数据生命周期安全、成本治理等、持续保障数据质量和标准化

•数据互通:在企业内流转共享标准数据,打通数据孤岛,让关联的数据发挥更大的价值

数据中台不仅是技术平台,还包含组织和管理流程要求,强调以公共数据产

你可能感兴趣的:(sql,big,data,数据库)