导读:在大数据领域,数据仓库和数据湖就像一对CP,缺一不可且优势互补。
社会发展到今天,全世界每个小时产生的数据已经比20年前每年产生的数据还要多。
在社会层面,数据已经成为与土地、劳动力、资本、技术并列的生产要素。在企业层面,数据也是与厂房、设备、人才、知识产权同等重要的资产。数据治理是企业数字化转型的必由之路。
关于企业如何管好、用好数据这件事,从传统的数据库、数据仓库,再到数据湖,以及近两年主流云厂商都在推的湖仓一体架构(Lake House),数据管理架构不断升级。
2021年6月24日,亚马逊云科技宣布推出“智能湖仓”架构,在打通数据湖和数据仓库的基础上,进一步实现了数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动。为什么要推出“智能湖仓”?亚马逊云科技认为,企业需要易用、易扩展、高性能、专门构建、安全及智能等特性于一体的新一代数据管理架构。
大数据发展到今天,湖仓融合是企业数据管理架构的大趋势,已经成为业界共识。
每一代主流的数据管理架构,都是为了应对当时数据管理的挑战。数据库(Database)主要用于日常事务处理,例如银行交易。数据仓库(Data Warehouse)主要用于数据分析,支持复杂的分析操作,侧重决策支持,提供直观易懂的查询结果。比如,企业管理者都想从数据中获得洞察支持决策,“上个月的GMV是多少,DAU有什么变化”,这些都离不开数据仓库。
数据湖是以原始格式存储数据的系统,按原样存储数据,无需事先对数据进行结构化处理。数据湖主要应用于大数据处理、机器学习、大数据分析等等场景。先将企业所有的结构化、半结构化、非结构化数据都往里装,然后慢慢再淘金,是数据湖的逻辑。
目前,企业挖掘数据价值面临三大挑战:第一,数据的指数级增长,数据量从GB、TB、PB到EB级;第二,数据的使用场景日趋复杂多元;第三,越来越多企业向数据驱动决策转型,需要基于实时数据做快速决策。
为了应对这些挑战,企业必须打破数据孤岛,让数据在不同架构、设备和服务之间顺畅流动。湖仓融合架构应运而生。
在大数据领域,数据仓库和数据湖就像一对CP,缺一不可而且优势互补。数据仓库,复杂查询性能好,但前期成本较高。数据湖高可用、高扩展,但调用相对较慢。虽然数据湖前期成本低,但随着数据体量增大,TCO成本会逐步上涨。数据双向打通,总体成本最优,是湖仓融合的逻辑。
亚马逊云科技大中华区云服务产品部总经理顾凡表示,亚马逊云科技“智能湖仓”不是一个产品,而是一个架构。它将亚马逊云科技全面而深入的数据服务无缝集成,打通了数据湖和数据仓库之间数据移动和访问,并且进一步实现了数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,满足企业各种实际业务场景下的不同需求。
2021年初至今,亚马逊云科技已经在由光环新网和西云数据运营的中国区域上线了近40项“智能湖仓”相关服务和特性。
在企业实际应用场景中,数据既需要在数据仓库与数据湖之间流动,又需要在众多围绕湖仓集成的服务之间按需无缝移动。根据这一特点,在亚马逊云科技“智能湖仓”架构中,数据移动可以实现:由外向内,数据入湖;由内向外,数据出湖;还可以环湖移动。
具体来说,亚马逊云科技“智能湖仓”架构以Amazon Simple Storage Service(Amazon S3)为基础构建数据湖,作为中央存储库,围绕数据湖集成专门的“数据服务环”,包括数据仓库、机器学习、大数据处理、日志分析等数据服务,然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具,实现数据湖的构建、数据的移动和管理等。
亚马逊云科技“智能湖仓”架构具有灵活扩展、专门构建、数据融合、深度智能和开源开放五大特点,涵盖数据源、数据摄取层、存储层、目录层、数据处理层和消费层六层架构。
在灵活扩展方面,Amazon S3可达到 99.999999999%(11 个 9)的数据持久性,具有强大的安全性、合规性和审计功能,并在高扩展下实现成本最优。
在专门构建方面,亚马逊云科技提供了丰富的数据服务工具箱,包括交互式查询服务Amazon Athena、云上大数据平台Amazon EMR、日志分析服务Amazon Elasticsearch Service、流数据处理服务Amazon Kinesis、云数据仓库Amazon Redshift等,并不断在性价比方面持续突破。
比如,Amazon Redshift的性价比是其他企业云数据仓库的三倍,AQUA(分布式硬件加速缓存)使 Redshift 查询的运行速度比其他云数据仓库最高快 10 倍;Amazon EMR运行大数据处理及分析服务的成本不到传统本地解决方案的一半,但其速度比标准 Apache Spark 快 3 倍以上。
2019年,丰田布局车联网服务,希望通过客户授权把消费者驾驶过程中的核心数据进行统一管理。仅用5个多月的时间,亚马逊云科技就基于Amazon S3助力丰田构建数据湖,助力丰田车联网解决方案在中国市场大规模落地。
在数据融合方面,亚马逊云科技“智能湖仓”架构降低了数据融合与数据共享时统一安全管控和数据治理的难度。Amazon Glue提供数据无缝流动能力,Amazon Lake Formation提供了快速构建湖仓、简化安全与管控的全面数据管理能力。
基于亚马逊云科技“智能湖仓”架构,家电巨头TCL将IoT设备日志、APP埋点、售后等7个不同数据源的数据汇入以Amazon S3为中心的数据湖,消除了数据孤岛,实现全品类IoT设备的数据和业务系统实现了互联互通,海外业务与国内业务实现了数据统一。之前需要一周才能完成的复杂数据报表,现在仅需要1-2小时。现在,TCL每天运行300个以上的作业产生 200多个BI报表,为数据驱动决策提供支撑。
在深度智能方面,亚马逊云科技将数据、数据分析服务与机器学习服务无缝集成。在开源开放方面,亚马逊云科技“智能湖仓”架构中的关键组件如Amazon EMR、Amazon Elasticserach Service、Amazon MSK的核心都基于开源代码,兼容主流的管理工具。
启元世界(北京)信息技术服务有限公司是一家领先的人工智能平台公司,公司以SaaS的形式,为国内多家知名游戏公司提供虚拟玩家陪玩、游戏商品推荐、关卡数值设计、游戏内容生成等服务。
借助亚马逊云科技“智能湖仓”,启元世界大幅提升了数据处理效率,降低了运维成本,目前全公司只有一名专职的数据运维人员。具体来说,启元世界借助Amazon Kinesis实现了分钟级部署,并承载百万QPS(每秒查询率)流数据;Amazon EMR、通过Amazon Managed Workflows for Apache Airflow使批处理运行的时间减少了80%,运营总成本下降了50%;利用Amazon Glue 、Amazon Athena、Amazon QuickSight等服务实现了即席查询秒级响应。
启元世界CTO龙海涛表示,“作为一家AI公司,我们希望把更多精力聚焦在算法迭代与产品打磨,我们需要成熟、稳定、免运维的大数据托管服务。亚马逊云科技‘智能湖仓’可靠高效地支撑了我们敏捷的业务迭代。”
随着数据管理挑战的加剧,“智能湖仓”将成为越来越多企业的刚需。目前,全球已有数以十万计的客户选择亚马逊云科技进行数据管理及分析。
湖仓打通一体化只是第一步,如何让数据在湖、仓和专门构建的服务之间的按需无缝移动,将成为“智能湖仓”赢得客户的关键。
本文为「智能进化论」原创作品。智能进化论专注云计算和智能科技领域的深度评论。