本文作者为网易副总裁、杭研院执行院长、数帆总经理汪源,首发:冷技术热思考
虽然大数据概念出现以来,始终有不少创新出现,但这两年这个领域的创新创业有特别如火如荼的感觉,聚焦数据基础设施细分领域的创业项目扎堆出现,新概念新名词乱花迷眼,之前不温不火的项目转换门面大把融资。下图仅仅是汇集了本文介绍的五个主要领域的代表性创业公司,可以看到最近两年成立的公司很多,融资额超过5000万美金的不少。本文试图最近期的领域进展做一次梳理总结,分上下两篇,这是上篇。
数据领域的创新之前往往是一个阶段有一个主导概念或模式,如数据仓库、BI、数据挖掘、大数据、数据湖、机器学习平台还有中国特色的数据中台,但这一轮的创新目前还没有出现一个主导概念,多个新概念或垂直领域如云原生、湖仓一体(Lakehouse)、增强分析、ELT、Reverse ETL、数据质量、业务监控百花齐放。一方面,这可能意味着数据基础设施领域的创新真正的大迸发,因此不可能再通过一个概念来概括,但另一方面,通盘来看这些概念组合起来,隐约又组成了一套新的、较为完整的体系架构。
在这里我就不发明也不宣传我们有数的架构了,我引用Andreessen Horowitz提出的A Unified Data Infrastructure Architecture。如下图所示,大量的创新综合在一起,共同构成一个现代化的数据基础设施领域统一的体系架构(所谓的统一主要指的是面向分析和面向算法的两套技术路线的融合)。Andreessen Horowitz,简称a16z,是硅谷传奇人物Marc Andreessen创立的投资机构。大家知道Marc Andreessen有一个著名的观点是“Software is Eating the World”,所以a16z也大量投资数据基础设施领域的创业公司。在去年10月15日,a16z的三位投资人 / 分析师共同发表了一遍文章Emerging Architectures for Modern Data Infrastructure,提出下图的架构。这篇文章汇聚了a16z的经验,为编写这篇文章又特定访谈了24位数据领域的大咖,所以可以说这篇文章确实比较好的总结梳理了最新的技术进展,提出一个很具有参考意义的架构。
图片来源:https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/
参考a16z的架构、Gartner的分析成果及Cruchbase数据等信息,近期我集中研究学习了一批数据基础设施领域的初创公司,目的主要是想搞清楚在眼花缭乱的创新背后,主要的方向和逻辑是什么,这篇文章算是一个初步结果。在我看来,近期的创新主要集中在自助式ETL / ELT、数据质量等五个领域,背后深层次的技术驱动因素主要是云原生和AI两个,深层次的价值或应用驱动因素大量集中于以数据工作者(数据分析师和数据科学家)赋能的自助式工具平台。
近期典型的创新领域主要集中在自助式ETL / ELT、数据质量、业务异常分析、自助式数据应用开发、反向ETL这五个领域。在我看来,这五个领域并非随机分布,而是有较强的前后衔接关系,大致构成如下图所示的数据应用闭环。不过这不是一个非常完美或规整的闭环,毕竟这是分布式创新而不是顶层设计的结果。
数据都来自于数据源,也就是已有的各类应用,通过自助式ETL / ELT工具,多个数据来源或数据孤岛的数据被高度自动化的集成到一起,并实现了基本的清洗与转换。这一步不能保证数据的质量,所以接下来需要通过数据质量工具,及时发现数据质量问题,确保数据质量。但数据质量高,不表示业务没问题,所以再之后要通过业务异常分析工具,及时发现业务层面的异常,并快速定位根因所在。逻辑上讲,业务异常分析应用在数据质量保障之后,只有保障了基本的数据质量,才能进行有效的业务异常分析,否则大量的业务异常都会是数据错误导致的,并不是真正的业务问题。最后一步是将数据应用到数据应用中创造价值,这方面有两条创新思路,一是通过自助式数据应用开发工具,让数据科学家就能够自助式的开发出数据应用,而不用再找前后端开发工程师来开发;二是通过反向ETL工具,把数据仓库或数据中台中有价值的数据提供给已有的应用使用。
如果读过我之前的文章的朋友可能会知道,我在之前曾经提出过一个全链路数据生产力或数据应用闭环的概念图(如下),这个图的基本理念和上述闭环是一样的,都是阐释了数据从业务系统中汇聚集成后经过加工处理然后通过构建数据产品或反向输入到业务系统发挥价值的全流程。我说的数据产品就是数据应用。
下面是上述五个典型创新领域的简要说明。
自助式ETL,也称为ELT,是主要面向数据分析师提供的自助式工具,让数据分析师能够在不借助数据工程师(国内很多时候叫做数据开发)时也能自助式的完成数据集成和基本的清洗与转换。我借用这个领域的当红炸子鸡(融资额已经1.63亿美金)Fivetran的图来说明这个概念。
图片来源:https://fivetran.com/blog/the-modern-data-pipeline#eltisdynamicandadaptivetobusinessenvironments
习惯于Hadoop也就是数据湖体系的互联网企业可能比较难理解ETL和ELT的区别,要理解这个概念要回到传统的数据仓库领域来看。在传统的数据仓库ETL流程中,数据仓库往往只用来存储聚合建模后的数据,因为全量保留原始数据的成本过高;相对应的,ELT模式是先把原始数据加载到数据仓库系统中,而且很多时候不预先做好聚合建模,而是根据需求实时做聚合计算。
这个领域目前Fivetran的风头是最盛的,类似的创业公司还有Matillion和Etleap,其中Matillion的融资额也达到1.6亿美金,和Fivetran不相上下。
从ETL到ELT模式转换的核心技术驱动因素是云原生,后面会介绍。
保障数据质量是有效利用数据的基石,所谓Garbage in Garbage out,数据都是错的或缺失的,何谈有效利用,但其实这个领域的技术并不成熟,数据团队自己发现不了问题,最后被业务人员发现数据问题的情况比比皆是。
数据质量保障工具主要集中于通过监控来及时发现数据问题,这里我以Bigeye为例来说明这类工具的典型功能。选取Bigeye是因为它的功能介绍最清晰,功能也算是比较丰富的。Bigeye,之前叫Toro,最近改名叫Bigeye,它的数据监控功能包括以下六种类型:
时效性(Freshness):监控数据集是否及时到达;
数据量:监控记录数、distinct数、空值、空白值等数量是否发生异常变化;
数据格式:监控UUID、ZIP code、lat/lng等典型数据的格式是否正确;
类型:监控事件名称、区域代码、产品类型等典型的类型数据 / 枚举型数据是否发生变化;
异常点:监控异常的数据点(缺乏更详细的说明,还不清楚具体指哪些);
数据分布:监控数据分布的突然变化。
人工设定大量的监控规则是非常困难的,Bigeye提供以下两个智能化特性,让设置全面、合理、自适应的监控规则变得更容易:
Autometrics:自动度量。对所选表的数据进行采样和语义分析,智能推荐监控度量。
Autothresholds:自动阈值。系统在5-10天内学习数据特征,智能设定和调整监控阈值。
Bigeye是一个非常新的公司,刚拿到400万美金的种子轮,这个领域稍早一点(2019年)成立的是Monte Carlo,已经拿到4100万美金投资,功能和Bigeye比较相似,但还提供了数据血缘和全链路故障诊断功能。另外还有还有一家叫Great Expectations,路线不太一样,主要是提供数据测试功能。这家以狄更斯小说命名的公司成立3年了,但还没有融资纪录。
数据质量工具背后的核心驱动因素是AI,后面会介绍。
业务异常分析是我取的名字,还没有一个通行的行业名词。其中一家厂商Anodot称自己是Business Monitoring & Anomaly Detection,我觉得总结的算是比较贴切,但太长了。
我以这个领域的其中一家代表性厂商Outlier为例来说明这类工具的典型功能(选取的原因主要还是因为文档写的清楚)。Outlier的功能是通过数据发现异常的业务变动,包括以下六种类型:
Spike and Drop:暴涨暴跌;
Relationship:关联性变化,即两个数据集原来强相关现在变得不相关,或者原来不相关现在变得强相关;
Trend:趋势发生了变化,比如原来下跌的现在涨了;
Milestone:一定时间范围内的最大值 / 最小值,突破极值可能说明出现了某些不寻常的问题;
Funnel:转化漏斗任意两步间转化率的变化;
New Normal:新常态,一个数据集的均值中枢发生了变化;
发现了异常之后,对某些类型Outlier还提供了根因分析功能,通过计算各个因素对指标变化的影响度来辅助分析指标变化的可能原因。
需要特别注意的是数据质量工具和业务异常分析工具看起来比较像,但其实是两类非常不同的工具,数据质量工具的职责是确保数据是对的,业务异常分析工具的职责是确保业务运行正常。这两类工具也都会提供根因分析功能,但其含义也完全不同,数据质量工具的根因分析是通过数据血缘追溯最早的数据错误源自哪里,业务异常分析工具是通过指标分解的方式找到影响指标异动的主要原因,如主要是因为哪个渠道、区域或品类导致的销售额变化。
这个领域的创业公司有Outlier、Anodot和Sisu,融资额都在几千万美金。
这是文章上篇,已经够长了,下篇找时间再来写写自助式数据应用开发、反向ETL两个创新领域以及深层次的技术和价值驱动因素,欢迎关注。