「数据场景复杂多变,只能不断推倒重构?」
近日,在《数据云场景指南》线上发布会,“数据云操作系统”同期亮相。奇点云合伙人、CTO地雷谈到,企业级数据基础设施应采用“操作系统”的设计,来帮助企业应对多云、多引擎、多主体、多应用等挑战,封装复杂性,提供易用性。
同时,地雷“剧透”了奇点云最新的产品体系架构:仍延续“平台+应用”模式,而相较此前更为突出的是,数据研发应用、数据分析应用、数据安全应用、行业数据应用都基于共同的OS(操作系统)底座建设。
下文整理自奇点云CTO地雷于《数据云场景指南》线上发布会的演讲,经过删减编辑。可关注奇点云公众号,查收完整直播回放。
数据场景复杂多变
只能不断推倒重构?
在过去七年陪伴客户数字化转型的过程中,我们发现许多客户的数据基建有共同点,他们面临着相似的难题,例如技术选型、资产治理、数据合规等等。
因此我们归纳总结了“传统数仓升级”、“数据技术栈优化”、“集团数据云服务”等七大典型场景,并将数十组常见问题和对应解法写入了《数据云场景指南》。相信绝大多数企业都能从中找到所处阶段,查阅数据基础设施建设时必须关注的要点。
但必须注意的是:数据场景不是一成不变的。
相信大家也有切身体会,业务在发展,数据建设要响应和满足业务需求,就会面临新的难题,基础设施就永远不可能“一劳永逸”。
比如,原来基于核心业务部门的需求进行数字化建设,完成了部分主题域的数据治理和资产管理。财务部门突然说,“干得不错,下一期把财务域也规划进去。”那怎样的技术架构才能同时实现“财务数据安全隔离”和“业财一体”?
又如,原来T+1看个报表就够了,接下来要做实时,那你用离线的方式实现准实时,还是引入新的引擎来实现实时场景?离线、实时、时序等引擎是否都采用烟囱式的结构进行资源分配?目前规划的资源够不够用?数据一致性还能不能保证?
有一些制造业企业发展非常快,在一个生产基地有了成熟的数字化实践,希望能把这一整套复制到全国更多的生产基地。其中,数据业务逻辑可以复用,但生产基地之间数据要隔离、互不影响。数据团队是选择从头再建一二三四遍,还是有其他方便的办法?
面对这些难题,很多时候企业只能选择推倒重构,或烟囱式地新建其他技术栈来满足需求,再把新旧系统通过某种方式关联,最终让数据基础设施变得无比冗杂。
我和许多客户的CTO、CIO交流发现,客户都有这样的同感:
数据基础设施已经投入了很多精力、时间、资源,但是数据应用的范围一直在扩展,数据技术的演进一直在加快。新需求一再要求引入第N套数据存算引擎,数据技术栈的链路越来越长,架构越来越繁杂,成本越来越高,运维越来越痛苦了。
而且你不知道什么时候才是尽头——伴随着数字化进程,企业内部必然更多的数据应用,来满足不同业务线不同的需求,这些应用又需要多个计算引擎、多个数据源甚至多个云资源来支撑。伴随业务升级,数据应用还会不断迭代发展,之前预设好的数据源、数据引擎都会变化。
难道推倒重构、重复造轮子是唯一选择?
告别烟囱式建设
需要DT时代的“操作系统”
当“多对多”的情形频繁出现时,计算机领域里其实有一种经典的思考,即“分层”。底下的“多”和上层的“多”之间,有一个“中间层”能覆盖上下连接时会遇到的各种复杂性。
那对于企业级的数据基础设施来说,它的“中间层”应该做到什么?
作为“中间层”,它要提供对接应用的北向接口和对接底层资源的南向接口,要有一套抽象足够优雅的对象体系,来提升系统的可维护性、可复用性、可扩展性;
作为数据的基础设施,它当然要支持数据治理、元数据管理等功能,具备数据安全合规能力;
作为向企业各部门供应强劲数据源动力的“平台”,它还要具备跨云、多租户隔离、多引擎混合调度等复杂技术能力;
作为企业核心系统,最基本的,它应该做到“可靠”。通过可观测的机制,借助数据和模型,来保障它的稳定性得到监控,能实现智能运维而不是人肉运维。
谈到这里,是不是有种“似曾相识”的感觉?
上述整个架构设计,完全符合“操作系统”的定义。注意,此处“操作系统”并不是一个比喻,而是真实的OS(Operating System,即操作系统)。
奇点云的数据云操作系统遵循“资源抽象,接口统一”的原则,采用如下分层:
南向接口对接云资源、数据源、引擎等底层资源,北向接口对接数据应用;
中间层为一组对象体系——将大数据领域的存储、计算、服务、调度、安全、租户等常用功能,抽象为一组标准对象模块(目前为6个域共32个对象)。足够详尽准确的对象加上对象之间的关联关系,能满足几乎所有数据业务场景的基本需要。
*顺便一提,当我们从数据云的视角完成6个域32个对象的设计后,会发现DT的OS和IT的OS有一定的对应关系,例如数据云操作系统中的“空间域”与计算机操作系统的“驱动程序管理”履行着类似的责任。但二者使命不同,因此我们不建议刻板地对照。
奇点云的数据云操作系统分层原理
也就是说,数据云操作系统解耦了复杂的底层体系和多变的上层业务,对象的属性和行为又天然可以被继承、更新、扩展及复用,企业在数据模型及应用的研发上就会变得简单高效,而不再需要从头摸索底层技术架构,或为新的场景不断重构,也因此规避了“烟囱式”应用孤岛的出现。
其实,本次发布并不是“数据云操作系统”的首次面市。数据云平台DataSimba的R4版本已更新为上述架构(基于数据云操作系统内核,即SimbaOS Kernel)。同时,包括GrowingIO增长分析、客户数据平台及行业数据应用等在内的奇点云旗下所有数据应用,均切换为数据云操作系统的底座。数据安全引擎DataBlack R2.0开始能支持全域全场景的数据安全合规,提供平台型的能力,也正是得益于此。