第四代数据平台技术:数据云平台

当前社会已经进入一个企业数据高速膨胀的时代,近几年,每年全球的数据规模平均以40%的速度增长。在云计算、大数据技术并驾齐驱发展几年后,两个技术逐渐融合,数据平台的技术在云计算的助力下,能够支持更复杂的业务发展需求。本文就介绍一下基于云原生架构的第四代数据平台技术:数据云平台。
数据平台技术的发展从80年代开始,最早是小型机支持的ORACLE,DB2, 到2000年前后达到技术高峰的大规模并行处理MPP技术的一体机,代表有Greenplum, Teradata; 2000年以后,出现了Hadoop技术为基础的cloudera, Spark。如今,基于云原生架构的第四代数据云平台技术已经逐渐成为主流技术。数据云平台技术的典型代表国外是2020年上市的snowflake公司, 国内是北京偶数科技有限公司。
本文就数据云平台的趋势和特点做简单分享。
(1)数据平台的发展趋势;
第四代数据平台技术:数据云平台_第1张图片

(2)数据架构的发展演变
传统数据仓库解决了企业结构化数据的管理和应用需求,数据湖引入了非结构化数据做格式化处理,并继续通过传统数据仓库架构提供服务。
第四代数据平台技术:数据云平台_第2张图片第四代数据平台技术:数据云平台_第3张图片

数据湖的架构有2个显著的缺点:(1)多份数据,浪费存储空间;(2)数据传输可能出现数据质量问题,导致业务受影响。
数据云平台架构的出现,解决了这些问题。在统一的云平台基础架构基础上,通过计算和存储分离的架构,实现数据管理和服务。
第四代数据平台技术:数据云平台_第4张图片

(3)数据云平台和数据中台有哪些区别?
在几年前阿里提出中台概念,陆续出现了数据中台,业务中台,算法中台等等。简单来讲,中台就是将底层的资源通过软件管理以服务的方式提供给业务部门使用。
数据中台从技术角度看是一个业务范畴的名词,数据中台的服务场景涉及到云服务的一些基本特性:服务封装,服务目录,自助服务等。通过资源管理工具将底层资源封装成不同类型不同级别的服务,并通过统一的服务目录为用户提供自助服务,业务部门可以自助的从服务目录中选择自己需要的服务。但是数据中台的底层还是需要数据平台技术的支撑。如果数据平台技术有局限性,例如跑批的性能无法满足业务需求,那么数据中台的服务能力也就无法实现对业务的很好支撑。
数据云平台从技术角度看是数据平台演变过程中最新的基于云原生技术架构的解决方案。去年在美国上市的snowflake也是基于分布式云数据库的技术,并且提出了datacloud数据云的说法。
在国内,数据云的代表公司是北京偶数科技有限公司,公司长期致力于云原生的高性能数据仓库产品(OUSHUDB)的研究开发,目前已经成为国内排名前列的国产自主可控技术的大数据公司,在人工智能和图数据库技术方面也有深入研究。2020年下半年偶数科技公司和国内爱分析咨询公司联合编著了《数据平台技术发展白皮书》,在数据平台发展趋势分析中首次提出“数据云平台”的名词解释,对数据云平台从各个角度做了详细的定义,包括技术架构,技术特点,技术优势,业务场景等,为国内各企事业单位和公司在大数据平台技术选型提供了有价值的参考和指引。偶数科技自身也推出了数据云的整体解决方案,并在国内保险,运营商,公安,制造等行业进行了方案的落地实施。
2021年3月,星环科技在其产品发布会上宣布将于5月推出TDC(星环数据云)产品,并且也提出数据云技术的产品是其未来的发展目标。在偶数科技作为数据云领军企业的推动下,越来越多的大数据企业正在推出数据云的解决方案。
(4)数据云平台的技术特点和优势
第四代数据平台技术:数据云平台_第5张图片

(5)数据云平台由哪些元素组成?
“数据云平台”是新一代的数据基础设施,它能够依托云原生特性、计算存储分离架构、强ACID特性、强SQL标准支持、Hadoop原生支持、高性能并行执行能力等一系列底层技术的变革,实现高弹性、强扩展性、强共享性、强兼容性、强复杂查询能力、自动化机器学习支持等上层技术能力的变革,最终帮助企业有效应对大规模、强敏态、高时效、智能化等愈发明显的数字化趋势。
第四代数据平台技术:数据云平台_第6张图片数据云平台的构成主要由云原生数据仓库、数据管理平台、自动化机器学习平台构成整体解决方案。以偶数科技的数据云平台解决方案来说,主要由OUSHUDB云原生数据仓库,LAVA数据管理平台和Littleboy自动化机器学习平台三大产品组成。
第四代数据平台技术:数据云平台_第7张图片(6)数据云平台的典型应用场景
某世界五百强企业在实时数仓技术选型的技术选型POC测试后,该企业技术负责人对偶数科技的数据云平台技术赞赏有加。
该企业当前的实时数仓业务场景中,使用MPP产品实现跑批业务,但是无法满足同时进行500并发明细查询的混合负载的需求。于是,该企业考虑了两种方案:
(1) 在当前跑批的生产环境,引入支持并发明细查询的实时数仓产品,与MPP产品搭配,在前端获取Kafka流数据后,按照数据类型分别完成跑批和实时查询的工作。
(2) 寻找一种能同时支持跑批和实时查询的混合负载的数据平台解决方案;
从上述两个方案来看,第一个方案无法实现数据共享,如果后端的数据分析同时需要批量数据和实时查询的数据,就需要专门开发对接两个不同产品的程序。第二个方案显然是可以解决第一个方案的问题,但是,从市场来看,能够支持第二个方案的技术非数据云平台技术莫属。
经过POC测试,偶数科技的数据云平台成功达到了客户第二个方案的预期。在下一步的实时数仓的建设中,该企业规划用两个阶段来逐步建设数据云平台集群。
第一阶段:继续采用传统的MPP技术作为日常跑批业务,同时采用实时数仓作为配套方案支持高并发实时查询的业务处理。第一阶段同时规划一个新业务集群,采用数据云平台技术,以满足与人工智能有关的创新业务。
第二阶段:将更多的需要混合负载的复杂业务迁移到数据云平台,逐渐将数据云平台发展成为实时数仓的核心处理和服务平台。
(7)数据云平台的未来发展
不久的将来,数据云平台的技术很快就会成为各大企业数据平台建设的技术主流技术,在人工智能,物联网,区块链等新技术领域发挥其重要价值。欢迎更多的企业同行研究数据云的技术。

你可能感兴趣的:(数据云,混合负载,数据库,数据仓库,实时大数据,人工智能)