编者按:在昨晚进行的 YMatrix 5.0 发布会上,除了新品发布带来的多项性能及功能亮点,4位演讲者也带来了不少精彩的干货分享。本文提炼了发布会中的核心观点、亮点,帮助大家快速回顾整场发布会的精彩内容。
10月26日晚,“返璞归真,以简驭繁”新品发布会落下帷幕,超融合数据库YMatrix 5.0 正式重磅发布。
YMatrix CEO & 创始人姚延栋首先发表了主旨演讲,分享了超融合数据库的发展趋势,探讨了万物智联场景下数据库的最佳形态,并发布了 YMatrix 5.0。
此次 YMatrix 5.0 版本,在强化超融合特性的基础上,聚焦对性能的深度打磨,通过138项性能优化,在数据写入、时序查询、单表分析、多表分析、机器学习、OLTP 六大应用场景上取得全方位性能突破;同时,5.0还推出了全新的高可用集群架构、业务零中断平滑扩容方案及数据迁移工具 mxshift 等多项易用性功能特性,进一步完善了产品的使用体验。
另外,杭州自动化技术研究院院长徐赤、小米智能制造软件产品部负责人封杨博士、三一重工泵送研究院泵诵云平台大数据负责人褚凤天,也参与了此次发布会,分别从工厂数字化、智能制造和工业互联网、智能设备运维等不同应用场景角度,分享了他们对下一代数据库的需求和理解。
下一个时代,是万物智联和数智化转型的时代。那么,作为数字基石之一的数据库应该是什么样的?
过去20年间,互联网飞速发展,为了应对不断升级、升维的数据环境,涌现了很多优秀的产品,或是功能强大,或是性能惊艳,或是易用性极佳。然而,用户选择时,功能、性能、易用性似乎构成了一个”不可能三角”,总是需要权衡和取舍。
为了应对新增的需求,用户不得已的选择是不断叠加,先一个个叠加新的专用数据库产品,再叠加运维不同产品的专业化团队。最终造成的困境,杭州自动化技术研究院院长徐赤将其总结为“难、混、乱、散”:
每出现一个新需求,就要叠加一个新产品,从选型、试点到验证,少则一两个月,多则半年甚至一年,堪比“炼狱”。由于目标混沌、路径混乱、缺少核心系统,数据总是呈现散乱并难以整合的状态。
最后导致的直接结果就是“用户成本高“、”需求难以满足、痛点永远存在”。
对此,徐赤在发布会上表示,在过去以专用类产品为主流的市场中,服务商忙着生产孤岛、企业忙着购买孤岛,工程师们忙着打通孤岛,循环往复,永无止境。而且,这样强行耦合的结构,牵一发动全身,非常不稳定。
YMatrix创始人姚延栋介绍,作为数据库人,成立团队的初心,就是想从用户需求出发,做一款通用性强的产品,而不是和大多同行一样,开发专用数据库产品,继续一个问题接一个问题,只解决当下问题。
据了解,在国际市场上,类似YMatrix这样具备 “超融合”特性的产品,已经成为了近年的研发趋势。
海外市场,Snowflake 和 Databricks 曾先后提出 “one data platform”理念;传统数据库头把交椅的Oracle也在走向融合方向;对复杂新兴场景需求更加熟悉的时序数据库大佬 InfluxDB 和 TimescaleDB,也先后启动了新一代融合型数据库的研发,对比大厂采取了更为激进的策略。
国内市场中,YMatrix率先提出超融合数据库概念,在2020年完成了相应产品的研发;目前也有少数创业公司试水,从专用产品出发,研发符合新一代融合理念的产品。
首先,回到用户需求。
小米智能制造软件产品部负责人封杨博士是这么定义的:以工业互联网场景为例,其本质是以“数据”为核心要素,企业实现全面连接。企业经营者的核心诉求,是如何最大化利用数据智能,为企业经营带来看得见的价值。
再向上一层,则是跨过每个企业的微观需求,在垂直产业或多个产业交叉的维度,构建起全要素、全产业链、全价值链融合的新制造体系和新产业生态。
为了实现这个目标,需要搭建一个闭环的数据链条。在企业内到企业外,从采集、诊断、预测到智能决策,实现全环节覆盖。依赖优化后的结果,可以更及时、更准确的做商业决策,比如确定一个月后生产什么,需要提前备好多少原材料,技术工艺能怎么调优,等等。
封杨博士介绍,从企业级用户的角度来看,代表最先进生产力的产品,首先应该是极致简单的,最好是一个顶N个,能降低企业的财务、人力、学习成本;其次,要好用易用,因为制造场景采集的数据类型五花八门,不同数据类型的交叉分析、应对业务诉求的复杂分析也是层出不穷。
对此,姚延栋进一步解释,“用户并不关心什么TP、AP、湖仓、批流,他们想要的就是一个强大的数据库,能接入所有数据,做得了各种各样的分析。有数据就可以往里写,想用的时候随时用,允许他们把精力放在数据价值上,而不是数据库上。所以,行业内曾热烈讨论的湖仓之分、批流之分,只会是阶段性产物”。
“使用YMatrix,用户只需要做一次选型,运维一个产品,就可以支持所有数据类型,满足所有可能的需求。每次新需求出现时,只需要考虑在YMatrix中怎么实现。这大大降低了选型成本和开发运维成本”,姚延栋介绍。
“企业内很难有精通不同产品的通才,所以厂商应该把复杂度处理掉,把简单应用给到我们用户,这样既省钱,又省心省力”,封杨博士表示在应用YMatrix的超融合产品后,相当于实现了“无缝集成”,仅仅需要管理“1个极致轻松的数仓建设团队+1个极致专注的工业算法团队”。
三一重工泵送研究院泵诵云平台大数据负责人褚凤天表示,“使用高效的产品,可以大量释放出精力和创造力,让团队聚焦工厂运营、设备管理、工艺调优等更有价值的工作”。
“以常见的堵管故障为例,以前总是很难明确堵管的真实原因,现在可以在库内通过批量的算法,在采集到的工矿数据上,更好的定位原因,提升服务水平,降低客户投诉率”,褚凤天介绍,“在尝试从制造企业向服务型企业升级的过程中,数据能力会是重点之一,直接决定了服务水平和盈利水平” 。
在数据库行业,性能似乎是一个永远有吸引力的话题。
性能数据直观,谁高谁低,谁强谁弱,一目了然。最近,很多数据库厂商都开始性能打榜打擂。姚延栋对此表示,“这是好事,说明技术在进步。但是,仅仅在某个场景下实现性能快20%-30%,甚至1倍,是很难赢得客户的。客户需要的是铁人三项,甚至是十项全能” 。
“在YMatrix团队内部,我们关注全场景性能表现,包括写入能力、时序查询能力、单表OLAP分析、多表关联OLAP分析、Machine Learning性能以及 OLTP 能力等诸多方面”,姚延栋介绍,“性能加持下的超融合,才是真正的超融合,才能给用户提供价值” 。
目前,YMatrix在生产场景下的写入速度实现了1.52 亿数据点/秒。通常一个工厂的数据点大概在10万点以内,1.52亿是该场景规模的1500倍,哪怕是对写入能力要求最高的时序场景,也可以轻松满足其高并发、低延迟的写入需求。
此外,对比时序数据库独角兽 TimescaleDB,查询耗时是 YMatrix 的 5.1 倍;对比知名 OLAP 数据库产品 Clickhouse,YMatrix 在 SSB 基础测试上快 27%;对比 MPP 数据库主流厂商 Greenplum,YMatrix 在多表关联分析场景上实现了数倍的性能提升;对比全球流行的开源大数据平台 Spark,YMatrix 在机器学习场景上的性能是其 8 倍;在 Intel 实验室的TPC-B 国际标准测试中,YMatrix 主键查询 tps 高达 160 万,数十倍于绝大多数产品。
对于性能优化的重要性,三一重工褚凤天表示,“最直接的体现就是提高运行速度,我们可以更快速的反应,大大提高了运维团队的效率”。
姚延栋介绍,此次发布的YMatrix 5.0版本,还包含了多至138项的性能优化,特别是针对写入和分析等重点领域,进行了深度的指令级优化。
在易用性方面,YMatrix 设计了用户体验极佳的图形化 installer,只需 10 分钟左右就可以完成数据库集群的搭建。同时,为了降低初学者的学习曲线,YMatrix 提供了 on boarding 功能,用户可以在 3 分钟内体验一个完整的 IoT 场景,包括数据写入和查询分析。
目前,YMatrix 已经获得了从创业公司到大型企业的认可,其中有超过万亿市值的行业龙头企业,包括宁德时代、比亚迪等,以及世界 500 强企业,包括小米、三一重工等。
“后续,YMatrix 会在已经存在海量需求的时序场景深耕,尝试替代传统数据库和专用类产品”,创始人姚延栋介绍,“数据量大、指标量多的车联网、智能制造、能源场景会是重要方向。这些场景所产生的业务需求,将最大化体现超融合产品的价值”。
收看回放视频请至“B站“:bilibili.com/video/BV1b84y1B7ys/
关于 YMatrix 超融合数据库
基于独创的多微内核开放架构,在单一数据库之上,实现多模态数据的融通管理,及全场景查询分析的统一支持,兼顾高性能、高可靠及易用性,并大幅降低数据基础设施的建设复杂度,为构建物联网时代的融合数据基座,开拓一种全新的技术路径。目前,YMatrix 已成功应用于工厂数据基座、大型公司集团数仓、智能网联汽车、物联设备智能运营等真实生产场景中,以极高的性能、稳定性、数据安全性,以及融合极简的技术架构,助力用户轻松应对数据管理挑战,大幅降低选型、采购、使用及运维时的技术门槛,使开发更省力、迭代更省时、运维更省心。
原文链接
本文为 YMatrix 原创内容,未经允许不得转载。
欲了解更多超融合时序数据库相关信息,请访问 “YMatrix 超融合数据库” 官方网站