本文翻译自:The year in analytics
https://techcrunch.com/2017/01/15/the-year-in-analytics-2/本文作者是开源BI分析服务Metabase的创始人,曾写过2015年数据分析市场报告。
2016年总算过去了,戏剧版的总统选举也好,过山车似的股市也好,名流们的移民闹剧也好,还有动物园大猩猩事件也好,真是疯狂的一年。
SaaS之痛
首先,若宏观整个数据分析生态的发生的变化,年初2月份出现的多家SaaS厂商的危机是值得深思的。敏锐的观察者发现,那些高增长下的SaaS厂商几乎把所有可用的资本都用于市场推广和运营,除非能够准确的计算出各维度的客户获取成本,流失和转换率,企业很难分辨出算是自身的发展状态是否属于健康可持续的。
这些细力度的数据对于SaaS企业的CFO来说是很容易忽略的,再加上大量粗放式的烧钱方式,使得投资者们对于缓慢的运营状态变得十分敏感。LinkedIn在2016年就出现了经营不良的情况,而影响了市场对其它SaaS企业的信心,Tableau, Qlik, Salesforce等企业受到的打击尤为严重。
数据仓库的发展
数据仓库的生态在2016年有了新的变化,数据仓库即存储数据的地方,为数据分析提供存储和计算能力。除非你在使用全站试的云端BI服务(如DEMO,GoodData等),数据仓库是任何数据分析架构中不可获取的组件。我们注意到2015年的主要趋势基于Sql-on-Hadoop的系统取代传统分析数据库,而同时,数据仓库正逐渐融入到IaaS云提供商。
SQL-on-Hadoop
近几年,Hadoop已经广泛的应用在商业智能和分析场景,即便有些时候她不是最好的选择。2016年,很多SQL-on-Hadoop的方案运应运而生,并开始取代其他数据仓库解决方案。
其中主流的项目(Hive, Impala, Presto及Spark)都已经发布了里程碑的版本并有效提升了性能和稳定性。Hive, SQL-on-Hadoop方案的鼻祖,也在三月做了一次关键的升级,使得她依然在未来几年里在用户的技术栈中保留一席之地。Hive的LLDP特性(不用了解太多细节)使得用户可以已接近“交互式”的速度执行短查询任务,在这之前哪怕很简单的查询请求都要执行至少5秒。
Impala(七月发布2.6)和Spark(七月发布2.0)都在大数据量查询中有了主要的性能提升。Presto也有持续不断的改进,并应用在AWS 11月发布的Athena服务,可以已S3的数据为基础进行Presto SQL分析。
随着这些开源方案的变化和成熟,使得Teradata, Vertica或者Aster等服务商很难赢的更多的用户。就像Linux, Apache, Wordpress的出现,会直接关停了很多商业操作系统,Web服务和商业博客服务商。一个强大的开源软件可以撼动细分领域下的整个商业化链条。虽然在数据分析领域中还没有看到一家独大的赢家,但是整体趋势已经逐渐显露,SQL-on-Hadoop方案逐渐成为了大数据分析和存储领域的默认方案。
云厂商托管的数据仓库
随着Azure七月发布SQL数据仓库,三家主要的公有云厂商(Amazon, Google和微软)均提供了托管数据仓库服务。虽然各家厂商的方案风格迥异,可是“根据技术需求简单几步创建出云端数据库”已经成为了普遍共识。“没有人会因为公司使用云端数据仓库没有事儿做而解雇。”,这一理念在2016年成了真理。
另一则值得提及的消息是,微软在三月发布了没有人敢想的消息,SQL Server支持运行在Linux!11月兑现了这个消息,这足以证明微软在开源领域的决心,改变了已操作系统为核心的商业思路。
商业智能应用
在商业智能领域里,人们开始把目光聚焦在三大公有云平台上进行数据迁移和分析应用。
2016年,微软的Power BI产品通过了几次严谨的版本升级,才得以成为功能全面的分析应用。目前已经进入2.0阶段,根据以往的经验,将迎来显著的使用及现金流(和客户)。
房间里的大象终于决定要醒来,并伸展他的躯体。QuickSight,Amazon的BI服务,在2016年11月份正式对外售卖。如果你们的分析产品是已Redshit作为默认整合方案,那么这会对你来说是场噩梦。时间会验证Amazon是否能够赢的面向终端用户的应用市场。目前来讲AWS巨大的成功源于基础设施服务而非面向终端用户应用。然而,随着Redshift逐渐统治用户的数据仓库应用,加上AWS目前的增长率,是的QuickSight有很大潜在发展空间。围绕着数据仓库会有很多周边服务,Amazon也在做同样的尝试。
还有一个不能忽视的产品,5月,Google宣布了叫Data Studio的报表分析工具。
Qlik被收购
在美国硅谷的人经常遗忘的一家大型BI厂商是Qlik,Thoma Bravo没有忘记并在6月收购了这家企业。这也在硅谷成了一个不能说的密码,SaaS公司很大概率会已“被收购”作为命运终结。如果你买了一家SaaS企业,有稳定的产品和坚实的客户群体。可以砍掉所有经费和人力,只留下核心工程师和售后,会计团队,那么现金流和利润率会是非常客观的。
若团队处于早期产品研发阶段,那么收购的方式风险比较大,一旦大企业买家收购并整合到自身业务来的话,对团队来说就失去了挑战。不追求SaaS增长率并压榨所有的软件利润,这还有什么意义?
Salesforce Wave
当Salesforce宣布其Wave产品的时候,很多人猜想她要在BI领域赢的更多收入,但是事实则相反。Salesforce更希望专注在垂直的领域。三月发布了社区分析云(为其他应用做嵌入式的分析结果),可独立部署的市场分析产品,九月份发布的金融分析服务,六月为构建其他分析类产品提供通用平台。
这些行动说明Salesforce并未打算成为BI领域领军者,而是把报表分析和应用之间做强强整合。
Tableau
Tableau今年发布了一个新版本,更多的数据源适配,集群能力,移动端友好,跨数据库连表查询和产品重构。但是,和前几年相比,其增长率变缓反而增加了固有客户的流失率。加上二月LinkedIn的负面业绩的发布和SaaS行业的整体股市崩盘,导致Tableau的股价下跌了一半,至今没有恢复,对Tableau来说真是艰难的一年。
Periscope
Periscope在11月也拿到了B轮2500万美元不少的融资,她的产品同样也适合运行在用户自有的数据仓库之上,作为数据缓存和分析层。随着QuickSight的发布,这些同类的产品(基于Redshit的分析服务)都处于比较辣手的位置上,从此这些产品都需要和AWS正面竞争。其中大多数产品已经快速补充了对于BigQuery的支持,去迎合更多样化的市场需求。
数据收集
把用户行为数据的收集存储从Mixpanel等服务转移到Redshit+BI的思路已经成为了普遍接受的方式。
AWS的视野已经触及到了数据收集领域并提供“相对成熟”的解决方案(即 Mobile Analytics + Data Pipelines),这个方案可能逐渐成熟会巩固这个市场。其他企业服务的存在,更多意义上会是在此通用解决方案之外提供更细分便捷的收集方式。
许多初创企业已经逐渐消失在人们的视野,遗漏在安静的角落。而第一批的赢家(幸存者)开始崭露头角了。Segment继续通过Segment+Redshift+BI服务栈为开发者提供首选方案。Panoply在8月获得了Intel资本的A轮融资,Alooma自从2014年获得融资之后持续壮大。RJMetrics出售了早期的云端BI产品Magento,并成立了新的公司Stitch,持续完善他们的数据收集服务。
纵览全局
云厂商服务的不断成熟最终会改变这场游戏的局面。当用户的IT架构完全依托于AWS,Azure或Google Cloud的时候,就会有绝对理由不再使用其他的数据仓库服务了。
与此同时,用户也可以使用这些云厂商提供的数据处理和分析服务,只需投入一些分析师和数据工程支出,你就可以在云端得到统一化的数据平台,而这些技术相当于Google,Facebook,Netflix等企业经历了过去10年所建设完成的。
大多数细分化的数据分析服务商都会面临一个很大的质疑,“既然在Redshift上运行一个SQL就能解决的问题,为什么还要用你们提供的服务?“,而对于那些由几个人成立的SaaS初创服务商的淘金热将会开始越来越严峻。