7月28日,以“数智进化,现在即未来”为主题的袋鼠云2022产品发布会于线上正式开幕。发布会上,袋鼠云宣布将集团进行全新升级:从“数字化基础设施供应商”,升级为“全链路数字化技术与服务提供商”,并由袋鼠云产研负责人思枢对外正式发布了全新的四大产品体系:数据智能分析与洞察平台“数雁EasyDigit”、低代码数字孪生平台EasyV、一站式大数据开发与治理平台“数栈DTinsight”和极速湖仓引擎“数驹DTengine”。
他表示,“当前,数字化转型已然成为几乎所有企业的必选项,越来越多的企业将数据视为核心资产,加快数字化转型的战略部署。行业的变革、客户的需求不断督促着我们向前,袋鼠云产品研发迭代升级的脚步从未停止。
回顾过去,袋鼠云秉承让数据创造价值的使命,在大数据领域的多个方面实现突破;在未来,袋鼠云要深耕行业,实现业务与数据的双向驱动,进一步夯实企业数字化转型的数据基座,最大化帮助企业释放数据价值。”
思枢重点向大家分享了全新四大产品体系中的坚实底座——袋鼠云自主研发的极速湖仓引擎「数驹DTengine」。
以下为思枢演讲全文:
大家好,我是袋鼠云产研负责人——思枢。非常感谢大家参与袋鼠云2022产品发布会,也很荣幸能够有机会在这里向大家介绍袋鼠云焕新升级后的系列产品。
首先想问大家一个问题,这也是很多数字化企业面临的问题:数据革命时代来临时,如何加快数据价值化呈现?
在这个过程中会面临4个问题:一是部署问题,如何简单快速部署一套大数据组件;二是数据源接入问题,如何对接多源多种异构的数据源,这些海量的结构化,半结构化和非结构化数据如何存储;三是数据处理效率问题,在面对这些海量的数据时,如何降低数据开发处理的门槛,并提高数据分析的效率;四是数据安全问题,数据透出的时候如何做到精细化权限管控。
有理由相信,许多数字化企业都迫切需要一套系统来解决上述问题,而数驹也正是由此而生。
数驹是什么?
下面首先请大家先重点看一下数驹的产品架构图:
数驹主要包括两个平台产品:一是大数据基础平台——EasyMR,负责Hadoop、Hive、Spark、Flink、Kafka、Hbase等大数据组件的自动化集群部署、监控、迁移、升级等功能。
EasyMR除了能监管Hadoop生态体系组件,也可以根据EasyMR提供的Schema规范自动编排,快速集成客户侧自定义的开发应用。
所以使用EasyMR部署一套Hadoop组件,即使是零技术基础的小白,也可以通过可视化的界面进行一步步的引导操作,半个小时就能完成部署。
这里也说下EasyMR的开源版ChengYing已经在Github上开源,大家有兴趣可以下载试用。
Github:https://github.com/DTStack/ch...;
Gitee:https://gitee.com/dtstack_dev...
二是数据湖平台——DataLake,在存储层通过流批一体数据同步框架ChunJun,将结构化、半结构化和非结构化数据统一高效入湖,入湖后对数据文件做统一的规范管理和高效索引,极大的提高查询效率。
在元数据层做统一的Catalog管理,Schema的自动推导,分区的动态生成和表结构演进。并且DataLake在计算层可以支持Flink、Spark、Trino等多种引擎做跨数据存储的联邦查询。
让业务响应更加及时,让企业运转更加高效,数驹诞生的目的就是让企业产生的所有数据,都能够被采集、被存储、被计算,赋予数据全新价值。
数驹好在哪?
除了数据高效入湖、联邦查询外,数驹还有其他几大领先产品特性和技术内核,接下来进行简单分享,帮助大家更好的理解数驹。
产品特性
· 数据入湖:集成流批一体框架ChunJun一键生成湖表信息
· 联邦查询:内置多种数据连接器高效索引,跨源联合分析查询
· 自主可控,安全保障:360°数据访问安全体系,细粒度的数据权限划分
· 极致便捷:一站式服务,开箱即用可视化操作
· 流批一体:统一存储逻辑,统一SQL语言,支持流批一体化分析
· 兼容并蓄,优化提升:对Spark、Flink、Trino等计算组件深度优化加速计算
袋鼠云一直以来都希望帮助企业充分发挥数字化能力,打造数字经济时代助力企业智能化“蝶变”的利器。基于此目标,我们为数驹打造的流批一体主要应用场景,一套代码实现多种业务场景,高效分析。
企业平台在支撑上层多种业务应用的过程中,依赖多种计算任务,包含离线和实时,二者独立运行,业务逻辑相同,但因数据延迟、代码语言差异等导致最终结果存在差异,需要额外的人力进行两套计算引擎的维护,造成大量的成本损耗。
基于数驹平台的数据存储管理能力,可以同时支持上层计算引擎批和流的计算能力,帮助企业构建流批一体的数仓平台,实现一套架构同时满足流批业务操作,降低学习、使用、维护成本,提高开发效率。
数驹将如何?
数驹作为袋鼠云今年推出的全新产品,近期有四大规划:
未来规划
·湖表管理优化:周期性的清理过期数据、快照,合并压缩小文件提升读取表的性能
·索引加速:通过bloom index、data skipping index、zorder index等一系列索引构建,提升数据湖查询性能,做到毫秒级响应
· 智能优化:相同特征的查询请求可以直接通过查询缓存和湖表数据变更快速返回结果,做到智能加速
· 智能运维:对事件、监控等运维对象深入透视,通过规则、算法等决策服务及时发布异常警告、自动进行运维决策
作为袋鼠云全新产品矩阵的排头兵,数驹将不断进化,继续在追求更极致的查询效率,更快捷的部署运维的道路上砥砺前行,坚持为企业数字化转型保驾护航。
袋鼠云开源框架钉钉技术交流qun(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack