自 2016 年成立以来,Kyligence 服务了多个行业的龙头企业,这包括金融、制造还有互联网的企业。我们在服务这些企业过程中,都看到了 5 个改变数据和分析市场的宏观趋势。在同投资者、研究机构和相关从业者等的交流中也证实了这些趋势。
从数据中心部署到云部署是目前众所周知的行业转变。
据 Synergy Research Group 的研究数据显示,2020 年全球企业在云基础设施服务上的支出继续大幅增加,增幅为 35%,达到近 1300 亿美元。
2020 年,新冠肺炎进一步推动了全球信息技术运营的这一重大转变。十年来,企业在云服务(IaaS、PaaS和托管私有云)的年平均支出增长率则达到了 52%,而在数据中心的年平均支出增长率仅为 2%。
另一方面,由于一些国家的监管需求,数据仍然被要求驻留在物理数据中心,这促使各大厂商在不同的物理位置上提供公有云服务,从而推动了私有云、公有云和多云等不同的部署模式。
越来越多的企业都对数据提出了更为复杂的需求,大型企业的数据架构需要满足两个要求:
一是通过使用数据帮助内部用户做出更好的决策;
二是构建可运维的人工智能/机器学习系统来支撑面向客户的应用程序的数据智能。
以往,企业一方面使用数据湖为人工智能场景服务,另一方面,还要使用数据仓库来支持交易类分析和商业智能。在实际生产中,许多企业都受到这种数据技术栈带来的挑战,比如数据处理流程重复、基础架构复杂和成本高昂等。越来越多企业选择尝试合并两种场景,为所有类型的数据分析、商业智能和机器学习等需求提供统一的体验。
美国硅谷的风险投资机构 A16Z 在文章《现代数据基础设施的新兴架构》中表示,一些行业专家认为,数据仓库和数据湖正在走向融合,以推动两种用例的技术和供应商环境的简化。
随着推出湖仓的概念,Databricks(由Apache Spark创建者成立的大数据处理平台公司)也认为同时支持 BI 和 ML 用例的数据平台基础设施才是数据分析的未来。
与过去依赖 IT 的按需人工交付的方式不同,企业中的业务用户将通过自助分析平台提供的数据资产来满足自己的分析需求,缩短从数据到业务洞察的时间周期,提高业务决策效率。
IT 可利用自助分析平台为业务数据分析服务,基于现有数据集就可以独立满足业务用户 80% 的需求,而剩余 20% 的新需求可以基于现有数据资产快速定义。
这自助分析数据集仍然受到 IT 的统一治理,以防数据滥用和成本失控。对于 IT 的挑战在于,如何管理好这种新的数据交付工作流程,以及能否平衡好成本和效率的关系。这将是基于数据资产的业务自助分析成功的关键。
传统方式中,数据分析师和业务用户会通过可视化的数据分析来挖掘重要的见解。然而,当数据越来越复杂、数据量和维度数激增的时候,为了获得准确的分析结论,用户要么专注于探索自己的预先的假设,要么不得不去手动探索数据中所有可能的组合。这种方法不仅非常耗时,并且容易导致结论的偏差。
Gartner 认为,数据和分析的新范式增强分析已经出现。增强分析利用基于机器学习的自动化来帮助用户发现见解,并提供直接的行动建议。增强分析的好处在于能并行地将一系列算法应用于数据,从而降低在庞大数据体量中错过重要见解的风险。
以往,数据刷新通常是批量进行的;随着对业务决策的即时性需要,企业对降低数据延迟提出了更高的要求。在风险事件发生的第一时间立即采取行动是业务运营成功的关键因素,特别是在反欺诈和营销监控等场景中。
另一方面,当今消费者对数字应用的互动性和用户体验都提出了更高的要求,这就需要应用程序和背后的业务系统要能以所见即所得的速度为终端消费者提供反馈。
同时在做业务决策时,业务用户如果不知道过往业务数字的情况,就无法识别当前的问题和异常。这种需求推动了离线数据和实时数据融合分析的发展。
通盘来看,行业总体趋势的最终目标就是实现数据分析的民主化,从而赋能各级业务人员以更快、更及时和更有见解的方式获得洞察。
随着越来越多的公司转向云优先或全云战略,他们正在探索一个新的架构——通过数据提出问题,获得答案和预测未来。对于云时代的数据分析,Kyligence 提供了一套引人注目的能力,帮助企业用户提出正确的问题并获得即时的答案。
客户要想真正从云架构受益,就需要采用云原生的架构设计。云原生系统充分利用云服务的模式,专为在动态的虚拟化云环境中工作而设计,广泛使用平台即服务(PaaS)的计算基础架构和托管服务。在云原生系统中,底层基础架构被视为一次性的——在几分钟内就能实现自动化按需调整、缩放、移动或销毁。
使用 Kyligence,您可以以敏捷和自动化的方式来获得云原生设计所带来的优势:
传统意义上,数据建模是一个手动且繁琐的过程,需要数据建模专家进行设计和开发。
Kyligence 内置 AI 增强引擎,用户可以设计一个简单的数据模型,或者上传 SQL 历史自动生成数据模型,以此作为起点,后续会由系统自动对这个模型进行更新迭代。通过这样智能的自动建模方式,能将技术人员的工作系统化,从而高效赋能业务人员。业务人员可以直接使用 BI 工具进行自助分析,系统将自动理解分析意图并不断改进和更新数据模型,保持数据模型和业务需求的同步。
语义层提供了一种简单的方式来理解数据,业务用户无需知道数据结构的底层复杂性,就能轻松地探索、理解和利用数据。同时,统一语义层为 IT 提供了集中治理和安全的保障。
Kyligence 相信,统一的、端到端的商业智能和机器学习平台,可以帮助企业快速灵活地实现创新。这个统一的数据平台应具备以下能力:
Kyligence 的统一分析平台将帮助企业更广泛地利用商业智能和人工智能,利用数据创造价值,从而实现更简易的数据集成、更密切的协作和更快速的创新。
鉴于现有客户的需求,以及整体的市场趋势是做出更及时的业务决策,Kyligence 将提供一个平台来服务于实时、离线和混合的分析场景。IT 部门仅需要维护一套架构就可以同时支撑业务对批和流数据的分析,这有效地降低了架构的复杂度、运维和开发成本。
对于最终用户来说,流式数据的引入是不可见的,因为离线和实时数据都通过统一的语义层暴露给终端用户来消费。
引入增强分析的关键是赋能业务用户,使其在机器学习支撑的系统的帮助下发现业务问题。
Kyligence 将提供增强分析的能力帮助业务用户从数据中高效的获得更多的价值来协助组织中的每一项业务决策,该系统将自动帮助业务用户识别业务趋势背后的关键驱动因素,解释数据异常背后的根本原因,从而使业务用户能够专注于调整业务决策或快速升级问题,而无需花费大量时间在数据中探索答案。
总的来说,我们在研究了数据领域的投资者、研究机构、从业者以及客户的观点后,确定在不久的将来会改变数据和分析市场的宏观趋势如下:
正如 Gartner 在“Gartner 2021年数据和分析十大趋势”中指出的:
"Business leaders are beginning to understand the importance of using data and analytics to accelerate digital business initiatives. Instead of being a secondary focus — completed by a separate team — data and analytics is shifting to a core function." 企业领导人开始认识到使用数据和分析来加速数字化业务的重要性。数据和分析不再是次要重点——由单独的团队完成——而是正在转向核心职能。
因此,为了获得竞争优势,在数据和分析方面做出正确的选择比以往任何时候都更加重要。我们建议各种规模企业的领导人应该考虑实施最适合自身业务需求的架构,并考虑跟随这些趋势,为他们未来的业务做好准备。
看到这一趋势,并结合客户的实际要求,Kyligence 正在转变其能力,同时提供:
What is a Lakehouse? - The Databricks Blog
The Emerging Architectures for Modern Data Infrastructure
How Tech Stacks Up in B2B - Andreessen Horowitz
https://www.gartner.com/smarterwithgartner/data-fabric-architecture-is-key-to-modernizing-data-management-and-integration/
https://www.srgresearch.com/articles/2020-the-year-that-cloud-service-revenues-finally-dwarfed-enterprise-spending-on-data-centers
https://www.gartner.com/smarterwithgartner/gartner-top-10-trends-impacting-infrastructure-operations-for-2020/
https://rockset.com/blog/popular-use-cases-for-real-time-analytics/
https://docs.microsoft.com/en-us/dotnet/architecture/cloud-native/definition