数据湖探索的精准定位分析

今天我们介绍的是数据湖探索。什么是数据湖探索呢？数据湖探索 DLI 数据湖探索（Data Lake Insight，简称DLI）是完全兼容Apache Spark、Apache Flink、openLooKeng（基于Presto）生态，提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。企业使用标准SQL、Spark、Flink 程序就可轻松完成多数据源的联合计算分析，挖掘和探索数据价值。

Serverless DLI的优势是什么呢？

存算分离，存储和计算解耦，分开申请和计费，降低成本的同时，提高了资源利用率自动扩缩容根据业务负载，对计算资源进行预估和自动扩缩容按量计费真正的按使用量（扫描量/CU时）计费，不运行作业时“0”费用免运维、高可用用户无需感知底层运维、升级、跨AZ高可用，跨AZ 双活。

那么这个产品的产品功能是什么呢？又在那些领域得到实际的应用了呢？

产品功能 All in SQL 无需大数据背景，会SQL就会大数据分析。SQL语法全兼容标准ANSI SQL 2003 Serverless Spark/Flink/openLooKeng 完全兼容Apache Spark、Apache Flink、Presto生态和接口，线下应用可无缝平滑迁移上云，减少迁移工作量；一份资源支持流处理、批处理、交互式分析多种计算跨源分析支持多种数据格式，云上多种数据源、ECS自建数据库以及线下数据库，数据无需搬迁，即可实现对云上多个数据源进行分析，构建企业的统一视图，帮助企业快速完成业务创新和数据价值探索企业级多租户支持对计算资源和数据按租户进行细粒度授权管理，满足中大企业使用数据中台时对权限管理的需求。

不同业务场景下使用DLI服务

1.数据库分析

应用的数据（如：注册信息）存在关系型数据库中，想对数据库内的数据进行分析。

痛点：1.数据量日益增多，复杂查询关系型数据库查不出来.2.数据分库分表存在多个关系型数据库中，无法做全量分析.3.不想因为分析业务影响在线业务

优势：1.熟悉的SQL体验。2.DLI的SQL语法全兼容关系型数据库的标准ANSI SQL 2003，0学习成本，使用习惯保持一致。

极致性能：DLI采用分布式内存计算模型，轻松处理海量数据。

建议搭配使用：[云数据迁移 CDM]。

2.电商行业的精准营销

电商行业需要获取多个途径的信息做关联分析，以便更好地做精准营销，提高转化率。如：关联【页面广告点击事件数据】和【用户注册数据】，获取不同年龄段喜欢的广告类型，以便对不同年龄段用户投放更精准的广告。

优势：1.跨源分析。2.数据免搬迁，就可以关联分析存在OBS中的【页面广告点击事件数据】和RDS中的【用户注册数据】。3.纯SQL操作。DLI已对接多个数据源，直接通过SQL建表就可以完成数据源的映射。

建议搭配使用：1.[对象存储服务OBS]。2.[数据接入服务DIS]。

[图片上传失败...(image-cbc211-1652065516150)]

3.游戏行业的日志分析

游戏公司日常通过数据分析平台，借助数据力量没突破行业瓶颈。例如：寻找优质的投放渠道、提高新手期玩家留存、优化运营活动提升玩家活跃、数据驱动产品迭代等。

痛点：1.日志分析通常是按周期进行调度，每次调度之间存在大量空闲期。

优势：1.按量计费。2.DLI按量计费只在使用期间收费，成本较独占集群降低50%以上。3.融合分析DLI三大引擎间元数据互通，数据实时清洗后入库进行离线ETL处理，处理结果直接可用交互式分析进行数据探索。

建议搭配使用：1.[数据接入服务 DIS]。2.[云数据库服务MySQL]。

4.大企业的日志分析

大企业的部门比较多，不同部门在使用云服务时，需要对不同部门的员工的权限进行管理，包括计算资源的创建、删除、使用、隔离等。同时，也需要对不同部门的数据进行管理，包括数据的隔离、共享等

优势1.细粒度权限控制。2.列级别权限控制；INSERT。3.INTO/OVERWRITE单独权限控制；表元数据只读权限控制。4.统一的管理机制使用统一的IAM管理用户（无需单独创建DLI用户），支持IAM细粒度授权。

5.基因行业的基因数据处理

现在基因行业有很多基于Spark分布式框架的第三方分析库，如ADAM、Hail等。

痛点：1.安装ADAM、Hail等分析库比较复杂。2.每次新建集群都需要安装一遍。

优势：1.支持自定义镜像。2.支持基于基础镜像打包ADAM、Hail等第三方分析库，直接上传到容器镜像服务SWR，在DLI中运行作业时会自动拉取SWR中的自定义镜像。3.内置多个基础镜像。4.内置华为增强版Spark/Flink多版本基础镜像，开源Tensorflow/Keras/PyTorch的AI镜像。

建议搭配使用：1.容器镜像服务

6.金融行业的实时风控

为了提高消灭或减少风险事件发生的各种可能性，需要使用风控系统对典型的场景包括：注册风控、登录风控、交易分控等进行风控

痛点：风控系统对实时性要求很高。

优势：1.高吞吐低时延。2.采用Apache Flink的Dataflow模型，完全的实时计算框架。采用高性能计算资源，单CPU每秒吞吐1千~2万条消息。3.丰富的云生态使用SQL就可以将处理后的数据流式写入CloudTable、SMN等多个云服务

建议搭配使用：1.数据接入服务 DIS。2.消息通知服务 SMN。

7.政府行业实时大屏

为了更好地做好新冠疫情的管控，各地政府需要通过实时大屏掌握新冠疫情的现存确诊、累计确诊、境外输入等关键数据，为下一步疫情调控提供数据支撑。

痛点：政府技术人员通常会SQL，但对大数据了解不多

优势：1.毫秒级查询性能。2.内置的openLooKeng引擎在内存计算框架的基础上，还利用许多查询优化技术来满足高性能毫秒级的交互式分析的需要。3.简单易用纯SQL开发方式，SQL语法全兼容标准ANSI SQL 2003。

建议搭配使用：1.云数据迁移 CDM。2.云数据库 MySQL3.数据可视化 DLV。

8.地理大数据分析

地理大数据具有大数据的相关特征，数据体量巨大，例如全球卫星遥感影像数据量达到PB级；数据种类多，有结构化的遥感影像栅格数据、矢量数据，非结构化的空间位置数据、三维建模数据；在大体量的地理大数据中，通过高效的挖掘工具或者挖掘方法实现价值提炼，是用户非常关注的话题

优势：1.提供地理专业算子支持全栈Spark能力，具备丰富的Spark空间数据分析算法算子，全面支持结构化的遥感影像数据、非结构化的三维建模、激光点云等巨量数据的离线批处理，支持带有位置属性的动态流数据实时计算处理。2.CEP SQL提供地理位置分析函数对地理空间数据进行实时分析，用户仅需编写SQL便可实现例如偏航检测，电子围栏等地理分析场景。

本文由博客群发一文多发等运营工具平台 OpenWrite 发布

数据湖探索的精准定位分析

你可能感兴趣的:(程序员)