中纺集团经过“十三五”信息化建设,生成了大量宝贵的数据资源,但也存在信息孤岛、系统壁垒、数据质量等问题。中纺结合企业实际需求,按照集团“十四五”信息化规划中有关数据中台的建设计划与目标要求,历经半年多的测试比选,最终选定 StarRocks 作为 OLAP 数据库。
其试点项目——中纺棉商情大数据平台已经完成实施上线,参与计算数据 3 亿多条,数据同步方式从 T+1 升级至秒级实时,查询速度明显提升。目前中纺已启动基于 StarRocks 的中纺棉数据资产管理平台,以此实现企业全域数据的有效治理。
云计算、大数据、 AI 等技术的发展,全球数据量呈现爆发式增长:
2020 年 4 月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将“数据”与土地、劳动力、资本、技术并称为五种要素。
2021 年 3 月,《中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要》提出营造良好数字生态,关注数据要素市场规则和政策环境,关注统筹数据开发利用、隐私保护和公共安全等要求。
2022 年 6 月 22 日中央深改委第二十六次会议明确指出,“要完善数据要素市场化配置机制,推进公共数据、企业数据、个人数据分类分级确权授权使用,加快建立数据资源持有权、数据加工使用权、数据产品经营权分置的产权运行机制”,标志着我国数据要素市场建设正式进入了从顶层设计到机制落地的新阶段。
数据将渗透至企业设计、生产、管理、服务和运营的全流程,数字化转型要求企业通过优化资源获取和资源配置,从而提高企业竞争优势。
回顾数据发展历程,数据发展主要经历三个阶段。信息化时代:数据被视为业务记录的主要载体,数据管理与业务系统、管理系统相结合,从而具备一定的业务含义。大数据时代:随着数据规模持续增加以及技术成本投入下降,越来越多的组织开始搭建大数据平台,以实现数据资源的集中存储和管理。数据要素化时代:数据作为资产的理念正在成为共识,即以释放数据资产价值为核心目标,制定数据赋能业务发展战略,持续运营数据资产。
企业当前的数据规模属于 TB 级别,主要数据来源是已经建成在信息系统的传统数据库,部分数据库版本较老旧,绝大部分数据类型为关系型结构化数据。
充分考虑企业的数据应用现状后,项目组放弃了以 Hadoop 技术栈为基础的传统大数据架构,直接采用轻量级、敏捷型湖仓一体的大数据架构,将数据导入到 OLAP 数据库即可快速支撑数据应用需求。
因此需要选择一款部署和运维代价适中、适合现有开发团队技术栈演进的 OLAP 数据库,StarRocks 通过实际业务数据需求技术测试和方案验证脱颖而出。
测试方向 | 具体内容 | ClickHouse | Apache Doris | StarRocks |
易用性 | 建表和SQL改造 | 改造成本高 | 语法类似MySQL,相对简单,成本较低 | 语法类似MySQL,相对简单,成本较低 |
查询性能 | 业务场景查询测试 | 性能表现优于Oracle,略低于StarRocks | 某些场景优于Oracle,个别场景略低于Oracle | 性能表现均优于Oracle,三者表现最佳 |
健壮性 | 宕机测试 | 一个节点或多个节点宕机,不影响使用,数据不会丢失 | 一个节点或多个节点宕机,不影响使用,数据不会丢失 | 一个节点或多个节点宕机,不影响使用,数据不会丢失 |
开源社区成熟度 | 调研测试 | 开源社区成熟,案例多,关注度高 | 开源社区成熟,案例中等,关注度高 | 开源社区在中国的影响力和成熟度高,技术支持力度大 |
POC 查询性能表现
数据量 | Oracle (现用) | StarRocks | Apache Doris | ClickHouse |
四张几百万到数十条的表关联查询 | 差 | 最优 | 中等 | 较差 |
几十万级数据量单表查询 | 差 | 最优 | 较差 | 中等 |
几十万与几万条数据关联查询 | 差 | 最优 | 中等 | 较差 |
StarRocks 可以做到“统一安装、统一部署、统一管理、统一运维”,最终形成集团统一的数据资产目录。依据 “试点先行、小步快跑、标杆示范、以点带面”的建设原则,中纺首先将中纺棉商情大数据分析平台迁移至 StarRocks 平台,以验证 StarRocks 的稳定性和性能。
中纺棉商情大数据分析平台是棉花期现货经营的决策分析平台,棉花商情研发数据范围包括国内外棉花期现货价格、现货数量、棉花质量、USDA 数据、天气数据、海关数据、汇率、储备棉数据等等,数据来源繁杂,目前已经汇聚了近 3 亿条行业数据,平均每周增量近五十万条,商情研发工作对该系统高度依赖。在商情大数据平台的有力支撑下,2021 年,中纺棉商情部比美国农业部(USDA)提前半年研发出棉花全球年度平衡表,行业大数据应用首屈一指!
在原有的传统关系型数据库体系下,系统存在计算性能瓶颈,使用的 Oracle 一体机扩容难、计算资源紧张、无法划分租户,数据只能通过批量同步方式同步。数据时效性不好,存在个别数据量大、需要 Join 表多的 SQL 无法运行出结果,即便增加临时表,打开需要用时 2-3 分钟左右。
通过对商情平台数据分析底座数据库架构的迁移和改造工作,目前中纺棉商情大数据平台已经切换运行在 StarRocks 平台上。系统运行稳定,查询速度快,产品兼容性好,支持力量及时完备。分布式查询性能有保障、兼容性好,实现了异源异构数据秒级实时汇聚,计算性能好、改造代价低,原来跑不出结果的 SQL 可以返回结果,经过增加中间表、使用分区分桶等比较简单的操作即可将数据响应控制在 3 秒以内,大大提升了用户对系统的使用体验。
StarRocks 运维管理更省心。StarRocks 有数据自动均衡功能,包括节点间的数据均衡,以及单节点扩缩容磁盘后的磁盘间数据均衡能力。企业版带有图形化的管理后台,是一站式全集群管理平台,对于提升集团型企业数据集中管理的便捷性和可靠性也至关重要。
StarRocks 有较为完善的技术服务生态。官网及产品论坛上提供了丰富的技术学习资料和教程,方便开发者自我学习,项目组也建立了解答技术问题的工作群,同事们提出的每个技术问题都会得到圆满的解答。
StarRocks 有专业的解决方案可供参考。除了数据的存算部分,Fink CDC、传统数据库接入、国产数据库等相关部分,也可以提供经过实战项目检验的成熟方案,企业完全可以直接借鉴,大大降低了验证测试时间和开发成本。
建立统一的数据资产管理平台是中纺棉花“十四五”数字化规划的重点工作任务之一,该平台设定了四个“一”的项目目标,即“一套数据、一套体系、一套标准、一个出口”。
具体任务是基于现有的数据中台组件,建设数据资产管理平台,集成现有各个系统中的有效数据,实现数据层面的整合共享集成,建立数据治理体系,明确数据标准,确保数据质量,构建数据资产目录,用统一的数据源头和计算逻辑对内、对外提供报送数据。并在此基础上,建立数据模型和指标体系,进行深度整合和科学分析,对决策提供准确有力的支撑。项目一期设计的具体工作内容为 3 个数据集。
市场上,专业型 OLAP MPP 数据库存在很大的空白,希望 StarRocks 企业版尽早为信创替代提供更多、更优的选择,进一步优化可持续的远期发展规划,并持续构建企业的经验学习和交流平台。
关于 StarRocks
StarRocks 面世两年多来,一直专注打造世界顶级的新一代极速全场景 MPP 数据库,帮助企业建立“极速统一”的数据分析新范式,助力企业全面数字化经营。
当前已经帮助腾讯、携程、顺丰、Airbnb 、滴滴、京东、众安保险等超过 170 家大型用户构建了全新的数据分析能力,生产环境中稳定运行的 StarRocks 服务器数目达数千台。
2021 年 9 月,StarRocks 源代码开放,在 GitHub 上的星数已超过 3600 个。StarRocks 的全球社区飞速成长,至今已有超百位贡献者,社群用户突破 7000 人,吸引几十家国内外行业头部企业参与共建。