生成式AI搭台,Data+Analytics唱戏 - Snowflake、Databricks2023年度大会前瞻

编者按:

每年仲夏之际,全球两大数据平台巨头Snowflake、Databricks均会召开各自的年度大会,成为数据圈的“超级碗”。随着竞争的加剧,Snowflake、Databricks把2023年度重磅市场大会放在相同日期(6.26-6.29),充满着火药味。大会召开在即,云器科技作为专注数据领域的创业公司,策划一系列文章,从主题演讲、重点发布、客户案例等方面对比和解读这两个年度大会。本文是第一篇,对两个大会做前瞻对比,并预测最值得听的场次。

发布会Snowflake抢到最重磅嘉宾,但Databricks在生成式AI方向布局更早

Snowflake和Databricks的2023年度市场大会都是在6月26日至29日举行,但地点不同,前者在拉斯维加斯,后者在旧金山。为了紧扣热点更吸引眼球,两家公司的大会主题都与AI和大模型有关,并邀请了重量级的嘉宾,Snowflake请到了英伟达CEO黄仁勋,Databricks请到了微软CEO萨蒂亚·纳德拉。

布局方面,主打Data+AI口号的Databricks显然更面向AI,也布局更早。主推的Lakehouse湖仓一体架构天然更支持AI存储和计算,之后收购了由前 Google LLC 和 Dropbox Inc. 工程师创立的 AI 存储公司 Rubicon Inc. 近期推出自己的大语言开源模型Dolly和Dolly 2.0。Databricks将Data+AI的口号走的很彻底。而Snowflake去年年度大会的最重磅发布是收购Streamlit并面向数据应用构建生态,直到大语言模型火爆之后,才收购了Neeva.ai(智能搜索公司),开始其在这个领域的布局。

展示各自的优势和差异化:Snowflake和Databricks在产品和技术上并不尽相同

Snowflake更专注于围绕数据分析的数据仓库和查询处理,而Databricks更专注于数据科学和机器学习,本次大会两方在努力突出他们在Lakehouse市场的优势和差异化。据 Enterprise Technology Research调研,36% 的 Snowflake 客户同时也是 Databricks 的客户,客户也在同时使用获得两者最大化组合优势(从Snowflake获得分析的优势,从Databricks获得AI的优势)。

从会议安排看,数据平台是核心,AI是噱头

从会议的主题演讲看,Snowflake会继续强调和推动DataCloud为核心的数据一体化和共享能力,基于Streamlit的一体化应用开发,以及生成式AI的可能性。特别值得一提的是,开源的Iceberg成为发布会介绍的关键字。在此,我们给出今年大会的一个合理猜测:Snowflake会支持基于Iceberge的开放数据架构,向湖仓一体迈进!

生成式AI搭台,Data+Analytics唱戏 - Snowflake、Databricks2023年度大会前瞻_第1张图片

而反观Databricks的主题演讲,主线就非常明确且有持续性,重点强调三方面:LLM、Lakehouse Platform、OpenSource软件。LLM是今年新增的热点,也非常贴合Data+AI的定位。Lakehouse经过3年持续推进,已经成为数据平台的新标准。OpenSource作为老牌领域,今年新增大量的生态话题,包括一度看作竞对的Presto/Trino等。面对Snowflake SaaS化服务极致简单的竞争压力,Databricks选择联合开源生态的力量。

生成式AI搭台,Data+Analytics唱戏 - Snowflake、Databricks2023年度大会前瞻_第2张图片

两会的主题演讲都不约而同的强调生成式AI,但如果看具体session组织,就会发现AI是噱头,真正的主线依然在高速增长的数据平台领域。(两家今年均声明60%的年化营收增长,在经济整体下行的今天,数据平台增长速度相当亮眼)。

Snowflake年度发布会一共有400场Session之多,DataPlatform、DataApplication、DataAnalytics是三个最大的主题,占据了一半的场次。ML/AI相关的领域话题仅占15%。考虑到Snowflake当前数据平台“一哥”的位置,这种“守正+出奇”的会议安排就不让人意外。

生成式AI搭台,Data+Analytics唱戏 - Snowflake、Databricks2023年度大会前瞻_第3张图片

​而Databricks的议题安排略显不同。DataEngineering作为主线占据1/4的议题,之后是ML/DataScience部分,要注意这里面的ML/DataScience并不仅仅是生成式AI,而是包含了大量“传统”的机器学习和算法部分(例如SparkML)。特别的,在这些session的介绍中,Databricks最重点强调的是Lakehouse架构对AI的支持,以及Data+AI的各种最佳实践。Databricks自己的大语言模型dolly并不是重点,真正宣传Dolly的session仅有3个。

生成式AI搭台,Data+Analytics唱戏 - Snowflake、Databricks2023年度大会前瞻_第4张图片

​综合起来看,尽管生成式AI是话题上的亮点,两家不约而同的重点强调“自己的数据平台能力本身和可扩展性,可以容易的集成生成式AI在内的多种计算模型”。

前瞻,两个发布会最大看点在哪里?

结合笔者的经验和发布会的内容,笔者大胆预测如下可能的方向演进和重磅发布:

Snowflake的重点方向和重磅发布:

  1. 方向从数仓进一步转型湖仓一体,改变封闭数仓的缺陷,发布支持基于Iceberg的开放数据格式。

  2. 发布内置的AI模型部署和推理能力,会更多的结合LLM,通过 Snowflake 释放LLM大型语言模型的力量。

  3. Data + Application一体化,推进Operational Analytics。

Databricks的重点方向和重磅发布:

  1. 借生成式AI的东风,继续大力推进Data+AI的概念。同时借力对AI的支持,竞争Snowflake(会有实际客户案例比较Databricks和Snowflake)

  2. 全链路实时化和增量化会成为重点方向(每天40%的topic与全链路实时增量化相关)

  3. 大幅增加企业级数据平台能力的建设和宣传(包括数据质量,数据加密这些Databricks的传统弱项,这些topic占每天主题的20%)

未来AI时代需要什么样的数据平台支撑?

看过上述对比和前瞻分析,读者应该能感受到浓浓的火药味,可见两家的技术竞争已经是数据平台全面或一体化综合能力的竞争。

笔者认为,AI大火的今天,我们更应该关注的焦点,还是应该回归到支撑AI的基础数据平台能力,回归到“支点”上。从两方大会的日程安排上,也可以得到充分印证。

Snowflake大会的支点由数据仓库+数据安全+数据应用三个方向共计400多个session组成。数据仓库强相关的话题是Snowflake的基本盘,而数据应用主题延续了Snowflake在2022年秋季Build大会上通过Streamlit构建应用的热点,并增强了数据科学和机器学习的主题方向。

Databricks大会的支点由300多个session构成,涵盖了数据工程,数据科学,机器学习,深度学习,自然语言处理,计算机视觉,数据分析,数据治理,数据伦理等和ETL/ELT数据处理、数据科学等数据湖上场景更为密切的支点型主题方向。很明显,Databricks在泛AI领域对主题做了更多细分,包括机器学习、数据科学、深度学习、自然语言处理、计算机视觉。特别的一点是Databricks在数据伦理方面开辟了新的主题。

站在国内视角,也会激发我们思考数据平台演进的脉络。这里推荐《从 Hadoop 到 Snowflake,2023年数据平台路在何方?_InfoQ精选文章》这篇文章的梳理。

尽管两方大会的共同主旋律“通过Data + 生成式AI重塑企业”,但笔者这里可以大胆预先总结一下两个峰会的内容套路:“生成式AI搭台,Data+Analytics唱戏”。 我们会持续关注会议的进展,并同步报道最新情况,看上述预测是否准确,请大家持续关注。

作者介绍: 七良,多云及一体化数据平台公司云器科技(yunqi.tech)联合创始人&CPO,长期专注于数据领域市场和产品体验创新。技术交流请关注微信公众号“云器科技”。


7 月 20 日,云器科技将首次对外举办新品发布会。云器首创以“Single-Engine”为核心理念的湖仓平台,目前已经完成了数亿元融资!为什么云器可以在当下的市场环境中获得投资方和企业客户的青睐?点击“云器科技官网 - 改变数据的使用方式”立刻报名发布会一探究竟!

你可能感兴趣的:(大数据,ai,人工智能,数据分析)