BOCDOP 宝舵早期基于 TiDB 构建实时数仓,随着数据量增长,在数据处理效率、OLAP 能力扩展、功能支持、成本与资源方面存在一定优化空间。为提升数据分析能力并优化成本,宝舵引入 SelectDB,达成写入速度提升 10 倍,成本直降 30% 的显著成效。
本文转录自高瑞军(宝尊科技 高级架构师)在 Doris Summit Asia 2024 上的演讲,经编辑整理。
宝尊集团创立于 2007 年,是中国品牌电商服务行业的领导者、先行者及数字商业赋能者。目前宝尊集团约有 8000 名员工,业务遍及东亚、东南亚、欧洲、北美等多个国家和地区,服务全球各行各业超过 450 家品牌,立足为品牌提供面向全球、面向未来的服务与产品。BOCDOP 宝舵(后文简称“宝舵”)是宝尊集团商业化独立品牌,目前拥有 1000 余名内部技术工程师,为集团业务提供强大的自主研发系统支持。
宝舵 BBI Cloud 是由宝舵开发的电商全渠道数据采集、整合与分析应用产品,核心功能包括:
为支撑宝舵 BBI Cloud 数据分析服务,宝舵需要一个具备多源异构数据接入能力、高实时性可扩展、稳定性优异的实时分析数据库,该数据库需要涵盖以下功能:
宝舵早期基于 TiDB 构建实时数仓,在实际研发与使用过程中,存在着一些挑战与优化空间:
tidb_batch_insert
和tidb_dml_batch_size
)以优化性能,对不同业务场景的适配提出了更高要求;为提升数据分析能力并优化成本,**宝舵经过综合选型对比,最终选择 SelectDB 替换 TiDB 构建实时数仓。**SelectDB 是飞轮科技基于 Apache Doris 打造的现代化实时数据仓库,以其卓越的实时分析能力、高性价比、易用性、安全性及稳定性,为宝舵提供了强大的实时大数据分析支持。
2023 年上半年,宝舵完成了数据类应用 SelectDB 迁移工作。在 618 大促期间,通过 22 张实时报表验证了 SelectDB 的性能与稳定性。此后,宝舵将 BBI Cloud 剩余的实时数据应用逐步迁移至 SelectDB。至双 11 大促时,所有原 TiDB 上的应用均已切换至 SelectDB 运行。经过两次大促实战验证,得出结论:SelectDB 能够稳定满足宝舵高并发实时数据供应需求,为业务提供了坚实的技术保障。
宝舵数据源涵盖内部业务系统数据、平台与三方数据以及填报与历史数据,不同的数据源采用不同的数据同步方式:
在数据链路方面,离线数据将存入 Hive。实时数据则通过 Kafka + Flink 链路流转至 SelectDB,由 DolphinScheduler 调度,经 SelectDB 计算后,进行近实时数仓分层。结合 SelectDB 内表和 Hive Catalog 能力,为应用层提供统一数据查询服务。
在应用层,宝舵将报表工具集成至 BBI Cloud,基于 SelectDB 实时分析能力,提供实时可视化看板与精品模板,同时开发了自主分析取数模块,围绕预售、交易、履约、库存等主题构建维度表与实时宽表,并基于数据分析结果在自助取数分析平台形成指标与事实维度,使得店铺运营人员能够自主开发部分报表,灵活满足不同品牌的数据需求。
作为电商,宝舵每年会经历多个大促活动,其中,双 11 大促规模最大,数据量可达平日的 30-60 倍。为满足业务人员及部分 Business Group 实时观看全渠道销售数据的需求,宝舵基于 SelectDB 支持 BBI Cloud 双 11 大促作战室报表,具体实现如下:
基于 SelectDB 新架构,宝舵实现了业务与平台数据的实时抽取与多渠道整合、数据供应 0 事故、报表服务可用性 99.9%,并配备了实时监控预警。此外,数仓链路基于 SelectDB 完成了优化,数据同步提速 30%,最高写入速度提升 10 倍。
宝舵基于 SelectDB 完成架构链路升级后,对比原 TiDB 架构,取得了以下关键收益:
目前,宝舵已在多次大促中实践应用了 SelectDB,解决了数据处理局限、功能支持不足、成本高昂等问题,相较于原先的数据架构,最高写入速度提升 10 倍,查询性能大幅提升,成本直降 30%。宝舵规划继续基于 SelectDB 扩展其 BBI Cloud 功能,并不断使用 SelectDB 更新的能力为更多业务场景赋能,持续进行架构演进与功能探索: