飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute

飞天大数据产品价值解读 — SaaS模式云数据仓库 MaxCompute
摘要:企业在数字化转型过程中面临数据技术平台建设和运营的诸多挑战,随着现代化数据仓库向多功能、服务化方向发展演进,技术侧的变革为解决企业数据平台各项挑战带来新的可能。MaxCompute作为阿里云飞天大数据中的数据仓库产品,已经成为了阿里内部及众多的外部客户广泛使用且高度信赖的企业数据平台。本次直播将为您介绍SaaS模式云数据仓库MaxCompute核心能力及优势,并结合大数据分析平台经典使用场景,为您介绍MaxCompute 为企业带来的业务敏捷性、面向分析统一平台、显著降低TCO等关键业务价值。

演讲嘉宾简介:曲宁,阿里云智能产品专家。

本次分享主要围绕以下五个方面:
一、飞天大数据平台解决方案
二、MaxCompute:SaaS模式企业级云数据仓库
三、MaxCompute产品价值
四、基于MaxCompute的解决方案及案例介绍
五、总结

一、飞天大数据平台解决方案
企业级数字化转型挑战
目前,企业在数字化转型过程中面临着很多的挑战,这些挑战可以分为几类问题:首先,企业主要以应用为导向,快速的满足业务需求。为了满足不同部门的业务需求,建立了很多数据平台,这些平台缺乏整体规划,形成了很多的数据孤岛,数据共享成本高,缺乏企业级统一的数据获取出口,难以自助分析。
其次,现代企业要求业务团队具备了面向业务快速变化的敏捷创新能力,需要具备数据智能的研发能力,面向用户体验的场景创新能力,都对IT系统提出了更高要求。如何能够满足不同团队对数据分析的要求,满足内部用户的开发使用体验,这个过程中开发效率成为了敏捷创新的阻碍因素,从产品的规划到最终的上线往往横跨数月的时间。
另外,企业过去通过自建大数据平台的方式来获得很强的技术平台掌控能力,但在实际的IDC运营管理过程中会出现运维成本过高的问题,同时因为IT人才成本高、流动大,自建平台存在服务质量不高的情况。企业往往按照业务需求做资源规划,导致日常资源利用率不高,存在很多资源浪费,同时在业务波峰时会产生资源不够的情况。企业自建平台基于开源的组件,会存在系统安全、数据安全及合规方面的问题和隐患。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第1张图片

现代化大数据平台
现代化数据仓库向多功能多服务化演进,技术侧的变革带来了解决企业数字化转型的挑战的可能。现代化大数据平台主要有两个方向,首先是云计算的兴起,逐步往SaaS化方向演进,提供按需分配的计算需求。第二点由于传统的数据仓库难以满足现代化大数据的需求,需要建立实时化的数仓,对非结构化数据进行低成本的分析,同时通过AI能力挖掘更深的价值。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第2张图片

飞天大数据平台解决方案
大数据平台解决方案是一种多产品组合的解决方案,通过多种产品间组合,构建多种多样的数据应用。阿里云采用飞天大数据平台解决方案,此方案适用于电商、游戏、社交等互联网行业数据化运营场景,如智能推荐,日志分析,业务运营分析,用户画像,数据治理,业务大屏以及搜索等。阿里云最佳实践的大数据平台同时具备技术领先性和降本提效,提供业务价值收集等优势。飞天大数据平台解决方案中MaxCompute作为旗舰产品,成为了非常核心的角色。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第3张图片

二、MaxCompute:SaaS模式企业级云数据仓库
MaxCompute产品优势
MaxCompute目前的定位是SaaS模式企业级云数据仓库,MaxCompute服务托管在阿里云上,创建超大规模的资源池,由阿里云进行部署和管理,对外提供API接口,用户使用时通过不同的用户端搜索API的方式访问使用。MaxCompute免去了开通的步骤,开箱即用。其次MaxCompute有超大的资源池,具备按需使用,高弹性的特点。第三点,MaxCompute是存储计算分离的架构,提供结构化的存储,提供按需使用的计算资源。在低成本情况下提供较好的可扩展性。

应用场景
MaxCompute在服务化的场景下,广泛的支持几种场景,首先是to C营销数据分析场景,对用户行为进行收集分析,构建画像,打标签,为用户做更多的服务。还有针对线上的运营活动,实时收集和查询线上运营情况,做运营策略的变更。同时为各行业大家数据仓库,从而构建更多的数据应用。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第4张图片

云原生场景
Serverless已经成为了数据平台的发展趋势,Serverless天然的按需分配,高扩展性的能力是解决数据中台问题的最佳的方案。MaxCompute是Serverless的云原生数据仓库服务,提供超大规模的资源市场,用户感知不到资源池,只是需要在逻辑层做项目的开通,数据仓库的自建,数据的建模,在项目空间中做数据分析。MaxCompute是一套非常敏捷的服务模式,极大的降低数据平台的门槛,将以月为单位的数据处理过程降低到天级别,加速价值实现。

示例: 2 min-从开通MaxCompute服务到基于公共数据集运行第一个SQL查询
进入DataWorks管理控制台,点击创建工作空间,输入工作空间名称、点击下一步选择MaxCompute按量付费选项、描述实例名称、选择MaxCompute数据类型及访问身份。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第5张图片

创建完之后进入DataWorks数据开发的如入口中,开始第一个SQL的处理。MaxCompute提供了面向全网的公共数据集,用户都可以进行查询。整个过程从开通到第一个查询只需要两分钟的时间。Serverless意味着更敏捷的业务响应和快速试错、创新。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第6张图片

多租户系统有诸多优势同时对多租户平台的安全管理能力也提出了更高的要求。如当下安全事件频发,那么云上大数据服务应如何保障企业数据和服务安全?MaxCompute在平台创立之期就是天然的Serverless和多租户的环境,阿里对MaxCompute内置了大量的安全管理机制,这些安全机制提供了全面、多层次的安全管理能力,持续保护云上数据服务安全。首先是基础设施托管的安全与保障,同时面向访问控制与授权、数据安全、风险管控、多租户安全隔离做了很多管理功能。具体而言,在数据安全方面MaxCompute提供数据加密、实时审计和备份恢复等功能。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第7张图片

从下图中可以找到tab_dev表是由谁,在什么时间,通过什么操作删除了,方便后续追溯。MaxCompute为用户提供了实时审计能力。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第8张图片

Demo3:持续备份与恢复
在数据丢失之后,重要的数据需要找回。MaxCompute内建了服务级别的自动备份能力,通过如下图中的restore命令,可以找回丢失的数据。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第9张图片

面向分析的统一数据平台
MaxCompute是面向分析的统一数据平台,一个平台满足数据时代的多种需求,简化企业数据平台架构,加速获取深入的业务洞察。MaxCompute具备更实时的数据洞察能力,通过在产品级别打通集成消息服务,采集Datahub自定义日志,实时的获取事件并进行分析。MaxCompute中有很多数据格式,有些数据格式不适合放在同一处,MaxCompute可以提供联邦查询的能力,联动数据库系统,数据不加载在同一个库中, 但是可以提供同一种数据处理平台。MaxCompute是面向分析的数据平台,与 PAI 无缝集成,同时内建主流机器学习框架支持,无需移动数据获得深入洞察分析。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第10张图片

MaxCompute深度集成了Spark,可以实现“一套数据支持多种引擎”,在全托管的统一数据平台上使用主流或者熟悉的计算引擎,可以满足更丰富计算场景的需要。目前很多用户习惯使用Spark引擎,MaxCompute Spark是MaxCompute提供的Apache Spark计算框架,完全兼容Spark的API、应用及生态工具,共享了同样的数据存储,同样的计算资源,同一种数据库管理体系。MaxCompute项目用户,可以在统一的数据存储、权限管控体系内,利用Spark进行应用开发。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第11张图片

现代化的数据仓库 + 数据湖解决方案
数据湖成为了云上数据存储和交换的中心,大量的非结构化数据存放在OSS上,通过外表或者Spark直接与云上数据湖进行很好的打通,做联邦外表的查询,通过load命令将OSS上的数据快速的加载到数据仓库中。MaxCompute可以连接企业多种外部数据源,通过统一、一致的数据管理体系(MaxCompute统一元数据),多种来源的数据可在统一的计算环境中跨孤立存储系统进行无缝数据的访问和处理。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第12张图片

BI+AI集成的一体化数据平台
真实的人工智能场景依赖大数据平台提供数据供给,进行数据预处理。如何在企业统一的数据资产及安全体系之上,同时开展BI分析和AI分析,充分挖掘数据价值? 最理想的状态是不移动数据,将计算与数据解耦合,在一套平台上处理大数据AI的分析。 MaxCompute+PAI是大数据与人工智能融合的分析平台,利用PAI可以很好的处理MaxCompute中的数据,从而支持智能化分析。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第13张图片

高性能低成本的技术底座
数据平台发展到目前为止都是在解决性能、成本、效能等几方面的问题,若对比分析自建平台和MaxCompute中成本的比重,自建平台成本结构主要包括一次性软硬件成本、扩容、管理,运维等等方面的成本。MaxCompute成本结果包括云服务使用成本,但系统管理成本是非常低的。MaxCompute可以极大的减少前期投入,快速验证价值。其次,MaxCompute在30TB及100TB数据级上都可以得到很好的性能,相比于Hadoop自建,成本低一半,性能快一倍,得到了TPC组织的官方认可。MaxCompute可以提供高性能、低成本的大数据分析服务。通过对比IDC自建平台与MaxCompute的成本,MaxCompute可以节省1/3的真实TCO成本。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第14张图片

MaxCompute不止在离线仓上有很强的算力的能力,同时面向BI和集成分析场景,支持弹性并发加速的能力。从下图可以发现,MaxCompute在不同的规模的测试集上都有非常优秀的表现。

开放生态的数据平台
抛开独立的技术平台,离不开周边系统的配套,离不开与企业环境的集成。MaxCompute拥有开放生态的服务,支持与众多服务集成,包括开放的一方服务接口,如MaxCompute Studio IDE、JDBC、SDK、开源Spark Connector、开源Kafka Connector、MMA迁移工具等。同时MaxCompute可以融入企业已有的IT环境中,与阿里云众多的服务进行深度的集成,包括DataWorks、PAI、Quick BI、Datahub、DTS、日志服务、阿里云Kafka等,最大化降低数据链路集成工作。MaxCompute 还集成了很多第三方的服务,包括Tableau、R、Python、Python SDK等,最终提升开发效率。阿里云提供了完整的大数据产品解决方案,包括数据的采集,实时离线一体化计算、数据应用的展示,以MaxCompute 作为数据仓库的底座可以快速的与阿里云多个产品集成,满足企业的智能化应用需求。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第15张图片

企业级可治理的数据管理平台
当企业发展到一定规模后,必然会遇到数据治理问题。数据与业务增长并不是线性关系,数据是指数级增长,业务是平滑增长。各个数据平台打通之后,数据治理的成本越来越高。阿里巴巴大数据治理最佳实践,提供数据发现机制,支持统一元数据采集与数据资产目录构建支持数据探查与数据分析、联邦查询以及资源优化服务,让企业更方便地探查数据价值,更有效的统一元数据管理,更安全的生产数据,更智能的优化大数据成本。以数据存储为例,很多数据存储在数据仓库中但无法使用,有些作业没有计算,有些作业重复计算,阿里通过自动化方式,围绕引擎采集第一手数据,提供多领域多视角优化视图。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第16张图片

四、基于MaxCompute的解决方案及案例介绍

MaxCompute能够解决自建数据平台的痛点问题
自建平台面临着很多的挑战,包括建设成本高、扩展性与弹性不足、资源利用率低、运维维护成本高等。MaxCompute 云上的服务可以很大程度上解决云下的痛点问题。因此,迁移上云(MMA)已经成为了比较成熟的解决方案,主要包括数据迁移的评估,数据迁移,作业迁移转换等,从而将自建平台迁移到云上,使得MaxCompute 云上服务的特性和优势被企业所用。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第17张图片

大数据上云解决方案
大数据搬站是云上生态体系的融和与升级,阿里云就可以提供一套完整的飞天大数据平台解决方案。某母婴行业头部客户在自建数据平台是遇到了很多的痛点,包括集群水位高、性能差、亟待大数据综合治理。同时IDC大数据每年投入成本高,希望降本提效。阿里云从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、
DataWorks 后,部分任务有10倍以上的性能提升,将开源数据格式进行转换,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将母婴客户现有的场景实时化(“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID”及“获取文章的实时发布信息”),并且基于Flink进行实时推荐增加转化率。大数据平台整体成本节省了30%以上。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第18张图片

智能实时数仓解决方案
智能实时数仓解决方案适用于电商、游戏、社交等互联网行业大规模数据实时查询场景。方案优势包括阿里云实时数仓全套链路,与离线数仓无缝打通。满足一套存储,两种计算(实时计算和离线计算)的高性价比组合。某视频行业客户基于MaxCompute+Realtime Compute+Hologres的组合,做目标用户标签数据开发、用户画像实时洞察、实时视频推荐等工作。MaxCompute开箱即用、完善生态、性能强悍、弹性资源的特性使得客户可以最大化的平衡成本和弹性的需要。基于MaxCompute可以支持数据分层、反作弊、计算优化、存储优化等场景。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第19张图片

MaxCompute产品规格
MaxCompute提供按量计费能力,用户初期使用时,建议选择按量计费,根据业务的变化,匹配资源,开通后不使用时无费用产生。当用户业务比较成熟时,建议选择包年包月,单价更低,享受更多折扣,控制相关预算和成本。
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute_第20张图片

收费标准
按量计费中依然提供极致的弹性计算资源,资源池为共享型,计算任务按需抢占,不可指定使用量也无使用限制。当前仅SQL、MR、Spark、交互式分析几类计算任务有计费。存储资源只收表(Table)存储的容量费用。且容量大小是压缩后的数据。存储资源中的资源池为共享型,按需存储,无使用限制。包括表(Table)和资源(Resource)等存储。数据上传至MaxCompute为免费,仅对通过公网下载,进行按量收费。包年包月标准版中的计算资源包含计算资源单元和非预留计算资源两种。包年包月套餐版中包含了计算和存储两部分费用,买一份套餐,存储资源不需要额外计费。

五、总结
MaxCompute作为阿里云飞天大数据中的数据仓库产品,已经成为了阿里内部及众多的客户广泛使用且高度信赖的企业数据平台。同时,MaxCompute可以满足现代企业数字化多种需求。基于MaxCompute,企业可以构建低成本、高效能的敏捷数据平台。MaxCompute有超大规模数据存储能力,将企业多源数据集中在一起,统一数据资产,在企业内部使得每位员工在安全共享的环境下使用和分析数据,从而赋能数据驱动的组织变革。MaxCompute是数据仓库及数据中台的理想技术底座。

作者:曲宁,阿里云智能产品专家。

原文链接:https://yqh.aliyun.com/detail..._content=g_1000160911

本文为阿里云原创内容,未经允许不得转载。

你可能感兴趣的:(javascript)