云原生正在重新定义大数据平台?
目前看的确如此。从2021年Apache Spark和Confluent Kafka宣布支持Kubernetes,到腾讯云等云服务商积极推出多款云原生大数据产品,产业界近年来都在积极探索:如何利用高速发展的云原生技术去解决传统大数据平台的诸多问题,从而进一步降低大数据技术、产品和服务的使用门槛,帮助用户更好地释放数据价值。
如今,云原生大数据平台成为大势所趋。作为国内最早布局云原生大数据领域的厂商,腾讯云在2018就发布初具云原生能力的弹性MapReduce(EMR),到2021年流计算产品Oceanus Serverless版,再到2022年上线EMR容器版……
在2023腾讯全球数字生态大会上,腾讯云并未停下脚步,又密集发布Elasticsearch serverless版、数据湖计算DLC、TCHouse-C云原生弹性版等多款产品,其兼具广度与深度的云原生大数据产品完整版图日渐清晰。
大数据发展初期,多数企业数据规模不大、业务响应速度要求不高,以Hadoop为代表的传统大数据技术体系对于释放数据价值发挥了关键作用。
但随着数字经济持续发展,数据驱动型业务场景加速涌现,用户们对于大数据开发需求产生了根本性变化,多租户环境下的大数据开发、大数据资源高效利用、新技术快速集成等一系列全新需求。
而传统大数据生态复杂,松耦合的开发方式虽然有灵活、适应面广等优势,但也不可避免的会遇到组件之间匹配成熟度、版本冲突、集成测试困难等挑战,用户在使用时需要耗费大量精力在部署、组件配置等工作上;另外,像一些大数据平台的商业发行版复杂度极高,太多组件不仅缺乏灵活性,还容易带来使用和运维上的额外工作。
Gartner在技术成熟度曲线报告中也指出Hadoop发行版诸多问题近年来处于愈演愈烈的趋势。目前看,云原生技术恰是突破的那味“良药”。众所周知,云原生是最近十年数据中心领域最重要的技术趋势之一,正在对传统技术栈产生颠覆性的影响。在大数据领域,容器、K8S等云原生技术对于大数据产品影响巨大。Gartner就预测,到2025年,部署在云原生平台上的数据应用将增长到95%,这意味着云原生大数据平台未来将势不可挡 。
不过,云原生大数据平台的落地绝非一蹴而就,依然面临着众多技术难题和产品挑战。目前看,在众多大数据厂商中,以腾讯云为代表的云服务商凭借诸多优势,正成为云原生大数据平台领域的引领者。
因为,云服务商并非简单地从单个产品或者单点技术的思维角度来解决传统大数据平台的问题,而是以系统性的整体思维推动云原生大数据的高效落地。
云服务商的这种整体性思维不仅可以让大数据应用的开发、部署和运维更加简单,还能充分发挥公有云分布式架构弹性、灵活、高效等诸多优势;更加重要的是,如今的云不仅仅是一个IT资源的集中地,更像是云、数、智的融合体,云服务商可以推动云原生大数据与AI等新技术、服务进行融合,从而帮助用户更加高效地释放数据价值。
就像石油需要经过提炼才能被广泛使用一样,数据也需要经过采集整合、拉通共享和分析应用等才能充分释放价值。因此,数据价值的释放需要经过数据生命周期的完整链路,绝非单个产品或者技术就能完成。
过去十年,移动化、社交化带来了数据指数级增长、数据来源广泛化、数据类型多元化,而像5G、物联网、边缘计算的兴起,让现代数据应用的复杂性进一步提升。而云原生大数据平台最大的价值就是让数据价值释放过程更加简单和方便,帮助用户利用好数据和聚焦应用创新。
一直以来,腾讯云都致力于构建完整的云原生大数据版图,从数据湖计算DLC、云数据仓库TChouse、检索分析引擎Elasticsearch Service等数据基础设施,到涵盖数据开发治理的DataOps数据工具Wedata,再到腾讯云BI等的数据应用分析服务,以层层递进来帮助用户降低数据使用难度和形成数据资产体系。
在2023腾讯全球数字生态大会上,腾讯云又发布了ES-Serverless版、数据湖计算DLC、TCHouse-C云原生弹性版等多款极富竞争力的产品,进一步扩大和完善了云原生大数据的产品版图。
例如,腾讯云此次对云数据仓库TCHouse进行了品牌全面升级,TCHouse划分为TCHouse-C、TCHouse-D和TCHouse-P三大产品系列,共同构成性能与易用性兼具的企业级云数仓体系,有效满足用户在不同业务场景中的选择。
这其中,针对数据来源广泛、数据价值潜力巨大的半结构化数据为主的业务场景,腾讯云发布了TCHouse-C云原生弹性版本。该版本基于ClickHouse 内核,采用存算分离的全新架构,分布式大规模并行处理 MPP 框架可充分利用硬件,Schema-less无需预先定义数据结构和模式,带来巨大的灵活性与扩展性,实现日志检索、APM等场景下非结构化数据实时分析性能20倍提升;另外,通过控制台分钟级构建 ClickHouse 分析集群,简单操作即可快速实现集群扩、缩容和节点变配等;支持独立部署和VPC私有网络隔离,数据访问安全和集群高可用有保障的同时,实现使用成本的大幅下降。
又如,腾讯云还发布了基于自研云原生 Serverless 技术架构打造的云端一站式全托管 Elasticsearch 服务:ES-Serverless版本。开源Elasticsearch存在弹性能力较弱、稳定性不足、资源成本与运维管理成本高等显著缺陷,ES-Serverless版本则支持自动弹性、完全免运维、按需付费,提供从数据接入到索引存储、检索分析的端到端一站式体验,有效解决日志分析、指标监控等业务场景下波峰波谷导致的资源成本高等问题。
再如,腾讯云大数据发布了基于Spark、Presto、Iceberg构建的云原生Serverless湖仓分析服务:数据湖计算DLC。腾讯云数据湖计算DLC覆盖湖场景和仓应用场景,兼具数据湖与数据仓库的优势,采用为降本而设计的云原生存算分离架构,计算和存储均按需使用,并提供高效率实时急速分析能力,内业首个支持百万级/秒 QPS实时入湖以及端到端分钟级时延,广泛适应于BI、交互式分析,AI、科学计算等多种大数据应用场景分析;并且作为云原生Serverless产品形态,数据湖计算DLC实现开箱即用,免底层运维,大幅降低使用门槛和成本。
如今,随着数据应用的丰富性和复杂性持续提升,云原生大数据平台的演进路径也已愈发清晰,即像腾讯云大数据那样,在产品层面实现深度与广度并举的策略,通过构建完整、领先的云原生大数据产品与服务,来帮助用户解决复杂数据问题、充分释放数据价值。
从技术层面来看,云计算、大数据以及AI具备天然融合的特性。过去十年,云计算的快速发展和普及,为大数据带来弹性、灵活、高效以及坚实的基础设施保障;未来十年,AI是大数据发展的最大驱动力,大数据与AI的融合有望让数据价值释放更加从容。
尤其是AI大模型的兴起,所展示的强大能力和较强的泛用性,正在全球范围内引爆新一轮的数据变革,基于大模型的应用在办公、会议、对话、搜索、广告等领域崭露头角,将极大地推动了大数据与AI的融合。因为,大模型应用的核心是高质量数据,数据的质量又决定着算法的性能、泛化能力和应用效果,而高质量的数据又十分依赖大数据平台来解决与数据相关的“清洗、治理、传输”等环节。
事实上,腾讯云是最早探索与布局大数据与AI融合的厂商之一。腾讯云Elasticsearch serverless 8.8.1版本具备云端AI增强与向量检索能力,将检索能力与大语言模型的自然语言理解能力结合,提供与大模型集成的端到端的搜索与分析体验,实现大数据与AI的协同与融合。
例如,大语言模型应用当前存在知识停滞和缺乏特定领域专业知识的两个典型挑战。为此,Elasticsearch serverless 8.8.1充分利用向量检索和大模型结合,把问题和通过向量检索得到的结果集发送给大模型,大模型可以对私域知识进行语言组织,给出一个人性化的高质量回答。
另外,针对大模型场景,腾讯云还强化了DLC ,依托其Serverless形态下免运维、轻量化、低门槛的特性,以及内置对Pyspark支持与优化、对Jupyter良好集成性,可以高效、稳定地支持大规模的数据预处理,大幅降低大模型对于底层数据基础设施的投入成本,成为AIGC场景首选的大数据底座。
综合观察,腾讯云大数据产品近年来获得了市场的广泛认可,多次入围Forrester、沙利文、赛迪等国内外研究机构的大数据权威报告,其背后离不开腾讯云对于大数据产业发展痛点的洞察、用户行业场景的实践以及新技术的持续探索。面向未来,腾讯云已经构建起深度与广度并举的云原生大数据产品版图,并且加速推动大数据与AI的融合,未来有望为用户的数据价值释放带来最优解。