一个故事——小张的困惑
小张大学毕业之后去了一家大公司,这家大公司有很多的业务数据,整个业务已经运行了十几二十年,在全国有几十家的分支机构、代理商,公司内的大大小小的业务系统有十几个,小张进去之后他直接的领导给他分配了很多的内容,其中有一项是很简单的工作是做日报。怎么做呢?首先需要从各个系统里面把数据打出来、经销商的业务系统、自己的CRM、销售管理系统、财务系统拿到各种各样的业务数据,把这些数据汇集起来进行简单的整理、梳理,梳理完之后把它形成各种各样的图表,并且把这个图表放到Excel或者 PPT里面拿去给领导做汇报。
所以他的日常工作就是:早上到公司就开始处理数据,处理完数据之后形成各种各样的图表放到PPT里面,晚上9点下班之前把所有的数据报告全发出去。
过了一段时间之后他开始困惑,“我是来做数据相关的工作的,确实现在每天进行的工作也都是数据相关的工作:做很多数据的处理、做很多数据的收集、清洗、整理、形成对应的图表,但是分析的工作在哪里?”小张发现他没有分析的工作,所有的都是领导说“你帮我看某一个业务指标、怎么计算一个业务指标”,这些都是固定的流程。我们把它称为“表哥表妹”的一天。
“表哥”“表妹”的一天
小张的工作其实和很多人的工作内容完全一致,这也是当前企业内的实际情况。有以下几个典型特点:
1、数据采集难;企业有自己的各种业务系统,很多分析需求,需要从不同的系统里面导出业务数据,甚至有些企业统计的数据是人工填报的,所以要把这些数据搜集起来异常困难。
2、数据处理难;由于每个企业内各个业务系统的成熟度不同,里面的数据因为版本的变化会有很多数据的格式。有些字段没有、有些字段有,数据情况复杂。所以需要去做大量的数据清洗工作,等到把这些数据补充完整之后,才能再拿它去进行数据分析。
3、重复劳动非常多;为什么要重复劳动呢?刚才讲了小张每一天都要做日报、每周做周报、每月做月报、每季做季报,但是这些报告只是数据表,除了时间变化其他的东西都没有变,但是他依然要做大量的重复劳动,才能拿出结果。
4、分析结果分享难;小张可能需要通过邮件的方式,PPT的方式跟领导做汇报跟其他的同事做分享,时间一长,报告都不知道去哪儿了,大家讨论的内容也没有办法留存,所以分享的过程也会变麻烦。
企业数据处理现状
公司业务系统有很多,每个业务系统可能还有不同的版本。比如我们之前遇到的客户全国有7-8个生产基地,每个基地都有自己的生产管理系统,每个基地的生产管理系统版本基本上都不一样,所以这是目前企业的一个特点。
对于IT人员,因为需要维护的系统很多,还有不同的版本,数据人员问他们去要数据的时候,他们自己也很痛苦,各个业务系统都不一样,要把这些数据全部汇聚起来就会变的非常困难。
而前端的业务需求变化非常快,IT人员处了要处理手头的本职工作外,还要帮助数据人员导数据,应对时刻变化的分析需求,因为人手少根本来不及,所以你先等一等,是IT人员应对前端业务需求的常态。所以他们经常会说:“我也很无奈”。
对于数据人员来说,要拿到这些数据也很困难,有些时候甚至要学SQL,连数据库直接导出数据,最后生生把“表哥表妹”逼成了程序员。
数据人员除了每天都要制作大量的日常数据报表外,还需要面对业务部门变化的业务需求,很多数据统计分析还是靠手工完成,一个是慢,一个是准确性也比较差。
对于业务人员,针对业务需求变化,市场部门可能每天都会有新的想法,会有各种各样的营销活动,营销活动完成后,业务部门通常都希望立刻看到活动对应的数据或者报表,这些只能问后端的数据人员要。
即使最后我的每一个业务都让后面的数据部门帮我做了分析,但是仍然很难把几个月以来的数据分析全部串起来,汇总之后做接下来几个月的预测,这个对于原来企业来讲是非常滞后的。
国外可视化产品发展现状
了解了国内的现状,我们看一下国外现在是怎么做的。
国外其实目前针对企业数据可视化的领域大致来讲大概是两大类的产品:
1、实时的业务看板;主要解决的是我刚才讲的“表哥表妹”最痛苦的事情,他们把每一天重复性的数据统计的工作把它变成实时的业务看板,当业务部门有了一个新的业务需求之后,把它做成这样实时dashboard,所有的数据全部是实时更新的,也就意味着动一份的数据报表只要做一次,以后所有的内容全都是更新的,领导要看实时的看,不用再问我要对应的东西。
2、探索式的商业智能;这里引入一个新的概念叫做探索式分析,国外数据的基础比国内要好,他们现在走的要比国内快很多,快在什么地方呢?就是在探索式的商业智能,接下来我们对这个概念作个详细拓展。
探索式分析详解
目前企业内的数据需求以验证式分析为主,比如我想要知道本月利润与本月成本的对比关系,会把这个需求交给数据分析员,然后他针对我们的需求输出众多数据报表。这个过程是我必须首先有个想法,有了想法之后再通过数据做验证。验证式的分析对数据的质量有很高的要求,因为我们需要看到最终的结果,如果说数据质量有问题,通过标准的模型可能得到一个错误的结果,所以分析师来讲要做很多前期基础工作。
那么探索式的分析呢?探索式的分析解决的是寻找规律的问题,企业中很多新的数据是很模糊的,我并不清楚从这些数据里面找到什么样的规律、找到什么样的模型、它们之间是什么关系,它可以把数据本身的价值通过可视化的方法呈现出来,帮助我们查看这些数据,我们才能够总结这背后的逻辑和数据之间的关联,这是我们称之为探索式分析。
验证式分析是演绎法,探索式分析就是归纳法。
探索式分析通常能够让分析人员走到业务部门之前,可能在业务部门发现这个问题之前就告诉他们“你这个地方出问题了”探索式的分析和验证式的分析我们一般把它称之为企业数据分析的一阴一阳,只有阴阳协调了企业内的数据分析才能走上正轨。
探索式分析应该在企业内处于什么位置?大家看到图中灰色的部分,这部分叫做传统的企业数据流程,业务场景中采集数据,进行数据的ETL,处理完之后有标准的算法模型产生对应的数据可视化结果或者对应的数据层,这是现有很多企业做的标准数据流程。
在这个流程之上其实缺少一个环节是什么?我有一个问题,算法模型和机器学习这些东西是从哪儿来的?很多分析师可能会讲,这是我们针对公司内的业务去做的一些经验的总结,但是这个东西是后法,实际上是先有想法然后再去做总结。在这个过程中我们遗失掉了数据本身蕴含的信息,所以国外现在提出的探索式分析的概念是在这个位置。
也就是说我们从数据最初的地方把数据拿进来,让数据告诉我们它里面含有什么样的信息,我们有了这些信息之后去改进算法、改进模型、改进分析的观测角度和指标,然后再反过来发展业务。
那么探索式分析到底应该怎么做呢?实际上它背后有自己的一套理论基础:
首先讲数据类型;当然这个数据类型不是我们通常在数据库里表达的数据类型,是我们拿到数据之后会把数据分几个类,如下图所示:
有了数据分类之后我们会找到数据之间的关系,这个关系其实会有很多很多种,这个地方只是提出了7种,我们把它称之为数据关系的7种武器,是哪7种呢?如下图所示:
有了这个数据关系之后我们该就需要进行视觉的处理,当然这个视觉处理不是把它变成多炫酷的内容,而是通过视觉帮我们观察数据。
上图是一篇论文的研究成果,很遗憾颜色排到了倒数第二,大家可能没有看过统计数据,在座现场的人大概一百多个,我们里边大概10%的人群对于颜色的识别是有问题的,可能有些色弱、可能有些色盲,所以颜色是排除在靠后的位置。饱和度更不用讲了,很多人的视力不好的时候对于色彩饱和度的接受程度也不一样。
在这个地方还要提一下,在很多可视化的效果里面,经常会用一些3D的效果。我举个最简单的例子,当我们把一个标准的饼图变成一个3D立体的效果,谁能够告诉我这个饼图还能不能判断的更准确一些?当我们把一个垂直的饼图放平之后或者放45度角的时候是完全没有办法判断角度和面积的,所以不要迷信3D图形。
如果从实用角度看很多时候2D才能真正解决问题,但是3D图形有3D图形的用处。当图形的绘制者知道他自己的图形将要拿出去做宣传的时候,他一定会首先选用3D图形,因为更好看、更炫、更酷,那个东西才更吸引眼球,为什么会吸引眼球呢?他需要花大量的时间,比2D图形更多的时间去做判断,这是我告诉大家为什么人喜欢炫酷的原因,不是因为它真的好看,而是你要花更多时间理解它的意思。
我们回到企业内部这个东西要让老板做决策,千万不要给老板看各种各样诡异3D图形,老板肯定看很久还不知道你要表达什么意思,2D图形在企业内足够解决问题。
刚才讲了数据的类型、数据的关系、视觉处理的依据。有了视觉处理的依据之后我们需要进行图表的选择,很多分析师做图表选择的时候都会犯一些错误,因为不同的图表所表达的含义是不一样的,有些可以用于进行数据的比较和对比,有些可以用于察看数据的组成,有些可以用于察看数据得分析情况。当然我列的并不全,有了这些之后我们才能够对数据做我们所说的探索式分析。
国内企业怎么做数据分析与数据可视化?
说了这么多之后,我们回过头来看,当前中国的企业需要一款什么样的产品去帮助企业完成企业内的数据分析,数据可视化的工作呢?
2017年最新的报告大家可以看到在右上角叫做领导者象限里面总共有三家企业,一家是微软,一家是Tableau,一家是Qlik,他们都是什么样的产品?我们中国企业是不是一步跨入探索式分析还是要先解决数据看板的问题?这里我们做了总结,新一代的企业数据可视化的产品要具备的基本能力:
1、自助式的数据处理能力:要让“表哥表妹”,甚至业务人员都可以导入数据,进行数据处理和分析,要让他们很容易的把业务数据抓进来。
2、异构数据源支持:刚才讲领导者象限这些产品,首先它能够整合企业内的各种各样的业务数据,能够联到各种各样的数据库,支持数据网络,数据来源可以多样化,可以支持异构的数据源。
另一方面还要支持互联网数据的导入,举个例子,之前有一个客户做农产品交易的系统,手里有大量的农产品交易的数据,农产品交易的数据本身大家可以做一些分析,他们自己有自己的经验、自己的想法,我们帮他们做了很多验证型的内容,但是这不够。我们帮他们把互联网上的天气数据拿过来、商务部的数据的农产品进出口数据拿进来,有了这些数据之后他们就可以预测天气变化对农产品交易价格有什么样的影响,这是有异构数据源支撑的情况下能够做到的很有意思的事情。
3、探索式分析的能力:真正做数据分析工作,其实就是要做探索式的分析,因为验证式的分析做一次就够了,以后让系统自动完成,后面的东西我们更多应该把精力放在思考和探索上面。
4、数据展示和分享的能力:要支持跨屏要手机、平板、PC上都可以看,支持直接导出PPT,同时可以在网页上进行数据分析,可以支持讨论和时间戳。再也不需要把图形贴到PPT里面拿出去给人做分享,分享的时候数据又变了,又要更新,重新做报告。
5、团队协作沟通能力:因为不仅仅是一个数据分析师在工作,以后可能有几个数据分析师在做协同,各个业务部门之间的人要对业务部门之间的数据要讨论、要沟通。
6、大屏展示投放:大家知道国内很多企业还是存在汇报工作的需求的,汇报工作的需求就需要我们炫酷的大屏幕、炫酷的数决可视化的呈现,需要我们把东西投到电视上、LED大屏上,这些也是新一代数据企业的数据可视化分析和展现的平台所需要具备的能力。
DataHunter与数据分析、数据可视化
最后说一下DataHunter,上面说的这些功能DataHunter自己的数据分析系统就可以实现!我们的产品和服务主要有三大块,分别是企业的数据分析系统、数据大屏和数据的技术服务。欢迎大家多多交流!