本文作者为网易副总裁、杭研院执行院长、数帆总经理汪源,首发:冷技术热思考
上篇《数据基础设施创新如火如荼,主要方向有哪些(上)》介绍了数据基础设施领域近期创新的总体情况及前三个典型创新领域,这是下篇,继续介绍后两个创新领域及创新背后的技术和需求驱动因素。
在介绍自助式数据应用开发工具之前,先介绍一个我司内部的故事。去年初,云音乐的数据团队希望开发一个用于会员运营分析的门户应用,但数据团队没有Web开发人员,向产品开发团队借人也不顺利,因为产品开发团队永远都是排满了一大堆backlog。这时,我们向音乐数据团队推荐了我们刚开发的数据门户工具,借助这个工具,数据团队通过可视化配置和无代码的方式就开发出了会员运营分析应用。
类似我们的数据门户,近期市场上涌现的自助式数据应用开发工具集中于让熟悉Python、R等语言但无Web开发经验的数据科学家和算法工程师自助式的开发出Web应用。在我看来,这类工具提供的功能和典型的敏捷BI工具很像,主要都是提供数据可视化和响应式交互两方面的功能,无非面向的人群不同,所以这里就不具体介绍这类产品的功能了。
这类工具的价值是彻底改变了数据应用的开发流程,这里我引用这个领域的代表性厂商之一Plotly Dash的图来说明这个变化。如下图,原流程需要数据科学家和全栈开发者合作,借助Plotly Dash,数据科学家可自行开发应用。
图片来源:https://plotly.com/
这个领域的代表性厂商是Plotly Dash和Streamlit。Dash是一个开源框架,2017年正式发布,最初是Python实现的,现在也支持R和Julia。Dash在Github上有1万多star,是一个非常流行的框架。Plotly提供Dash的企业版服务,可以安装在本地,也可以安装到AWS、GCP和Azure的K8S服务上。Streamlit提供类似功能,看起来似乎企业级特性没有Plotly Dash成熟,也没有说明可以运行于公有云之上。
看了一些Dash和Streamlit的案例,我的感觉是Dash或Streamlit对于数据科学家来说非常容易上手,只要pip install安装一下,马上就可以看着手册做出一些应用。但我个人还是觉得更应该使用专业的BI工具来完成类似工作,因为BI工具提供很多基本功能,用Dash或Streamlit还是要写不少的代码才能做到。当然BI工具并没有完全覆盖Dash和Streamlit的能力,在交互中引入代码来实现复杂逻辑这方面,Dash和Streamlit这类基于代码的方案显然有优势,但大多数情况下并不需要。BI工具和数据科学家常用的工具,如Python、Notebook之间衔接的不够顺滑,我觉得是Dash这类工具流行的一个很重要的原因,BI工具应该要往这个方向努力。
如下图所示,反向ETL指的是将数据仓库中的数据同步到典型的应用系统中,如各类SaaS应用。为什么需要这样的工具呢?因为销售、市场、增长、客服等团队各自都有趁手的工具,这些工具大量的都是一些流行的SaaS应用,但这些工具各个都是数据孤岛,自身无法构建360度客户Profile,也无法很好的判定线索的优先级。另一方面,数据仓库汇聚了所有工具的数据,可以构建360度客户Profile,也可以很好的计算线索的优先级,但这些信息要集成到团队原来各自使用的工具中,才方便使用。所以反向ETL的概念就应运而生。
图片来源:https://medium.com/memory-leak/reverse-etl-a-primer-4e6694dcc7fb
这个领域目前融资额最高的是Census,共拿到2000多万美金的融资,类似的公司还有Hightouch、RudderStack、Grouparoo。这几家公司都是去年才刚刚成立。这类工具的主要应用场景是同步客户360数据和产品使用数据。一个组织中和客户相关的工具可能有十多个,大家都没有全维度的客户信息,通过Census可以让这些工具都能拿到全维度的数据。以下是一些Census文档中说明的应用场景,让大家建立一点基本概念,这样的场景还有很多:
同步用户Profile数据和行为统计数据到Mixpanel,这样在Mixpanel中就可以看到客户360数据,还可以根据这些数据自定义同期群,如点击超过20次的用户群。
同步客户360、线索评分、客户健康度等数据到Salesforce。
同步产品使用数据到Zendesk,提高技术支持效率,更好的判定ticket优先级。
这类工具从逻辑上讲实现了数据应用的闭环,解决了传统BI和应用脱节导致的数据“只能看,不能用”的问题,有价值,但因为和典型的SaaS应用环境强关联,而我对国际市场SaaS生态不太熟,很难判断这类工具具备多大的通用性和市场空间。至于国内市场,因为SaaS的成熟度比欧美市场差很多,我觉得近期可能不大看得到这类工具在国内的市场。
在盘点完近期五个主要的创新领域之后,值得再思考一下更深层次的驱动因素,回答为什么近期会集中出现这些创新。这类问题要搞的比较复杂的话要搞PEST,不过我觉得一般从需求和技术两方面看就差不多了。
首先是需求层面。在具体展开之前,我再次先讲一下我司的故事。2017年我提出一个口号叫“技术以人为本”,什么意思呢,就是要加强工具建设,提升工作效率。后来,我进一步发现为那些在业务中自主性强的岗位(如产品经理、数据分析师、运营等,我称之为创新者)提供工具比为以接需求为主的岗位(如开发、测试、运维,我称之为实施者)提供工具来的价值更大。为什么同样是提供工具,两类人的价值不一样?因为你为创新者提供一个更好的工具时,有时这个工具会简化工作流程,让创新者能够自助式的完成工作,这个时候你经常会很吃惊的发现这个工具的使用频次一下子暴增,甚至是十倍以上,我在去年DTCC分享里把这一点称之为“自助式频次爆炸效应”。
大家可以看到近期的创新领域很多同样是为数据分析师、数据科学家甚至业务人员这些创新者提供更便利的工具,特别是自助式工具。自助式ETL / ELT是让数据分析师 / 科学家自助式的做好数据集成和准备,自助式数据应用开发是让数据科学家自助式的开发Web应用。数据质量、业务异常分析和反向ETL这几个领域很大程度上也是减轻了相应工作环节的专业性要求,更少的依赖专职的数据开发和运维团队。
但需求只是硬币的一面,如果只看需求,可能会觉得这些需求始终都在,为什么相应的创新近期才爆发?这就需要看技术因素,是因为技术的进展使得这些需求最近才可能被很好的满足。技术驱动因素主要是云原生和AI两个。
云原生层面。自助式ETL / ELT技术的出现,很大程度上是因为云原生数据库的出现使得数据仓库可以低成本的容纳全量原始数据,并且能够提供高性能的实时分析能力,这样就可以先把所有数据都加载到数仓,同时更大比例的计算可以按需进行而不是都要做好预计算。自助式数据应用开发的基础其实出现时间比较久了(Dash 2017年就正式发布了),但近期才有公司来提供成熟的企业服务,和主要的云厂商都提供了标准的K8S服务是分不开的。因为K8S服务的标准化,Plotly才能方便的在各大云都提供企业级的Dash服务。
AI是另一个驱动因素,对数据质量和业务异常分析两个领域的创新至关重要。先看数据质量。长期以来,数据质量监控都是一个很大的痛点,因为当你要管理成千上万的表的时候(我司的严选、音乐都有数万张表),手工设定全面、合理的监控规则根本是不可能的,只有借助AI,才能做到Autometrics和Autothreshhod。业务异常分析和数据质量非常像,要及时发现异常,但又不要天天误报,不借助AI也不可能做好。
综上所述,近期数据基础设施领域的创新产品扎堆涌现,主要集中在自助式ETL / ELT、数据质量、业务异常分析、自助式数据应用开发、反向ETL这五个领域,这些领域有较强的前后衔接关系,大致构成一个从应用到数仓再回到应用的数据应用闭环。网易数帆的使命之一就是为市场提供一个全链路的数据生产力平台,这和近期欧美市场上的创新方向非常一致,具体的产品演进方向也很相似。如数帆的数据质量中心就提供类似Bigeye的数据质量保障能力,数帆的指标异动分析功能类似Outlier的业务异常分析功能,数帆的数据门户提供自助式的Web数据应用开发能力。
大量新技术的出现,一方面为企业加强技术能力提供了很多新的手段,但另一方面也使得技术架构越来越复杂,如何整合利用好大量的细分技术是一个巨大的挑战。网易数帆希望提供一个数据基础设施领域好的参考架构,帮助企业更快更好的构建数据能力。我们也很明白不可能所有的能力我们都是市场上做的最好的,所以我们尽量的模块化,尽量的可以和别的产品能够集成互通。
最后做一点小广告,对网易数帆感兴趣的请访问 https://www.163yun.com/product-bigdata