近期关于【数据化分析和建模】一般步骤的思考如下。
数据可视化分析的首要目标是通过将数据以可视化图表的形式真实、完整地呈现业务现状,为发现业务问题打好基础,包括实时的业务数据、数据历史的变化趋势、数据的空间分布和数据构成分布等。
在系统建设层面,呈现业务对应的业务系统,往往是业务运营监控系统。通常情况下,我们看到的类似天猫双12数据大屏,公安、交通指挥中心的数据大屏等,都是呈现业务的典型案例。
我从业以来做过的报表,主要分为两部分:
一是,常规性报表,展示客观数据、以及业务人员关注的指标。客观数据占据大部分版面,老板/业务人员关注的关键性经营分析指标占小部分,但会在显眼的位置。
二是,指标分析报表,把客观数据指标化,建立一套指标体系,再对指标体系进行评价,通过多个指标的高高低低来得出结论。重在通过数据分析总结,进行业务预警,最终会聚焦在一个层面。
想要解决的问题是什么?
最终呈现的报告,包含的内容,想要证明的问题?
确定分析目标,明确要解决的问题或取得的结果,例如预测销售额、发现数据中的模式等。
看这个问题,可以通过什么数据形式来表现出来呢?
数据结果,数据层次,最细的粒度,可以分析的有价值粒度有哪些?
做数据结构,每个结构可以解决什么问题?
收集相关数据,可以是内部数据库、公开数据集或通过调查等方式获得。比如我做的,一般是通过ERP获取,但ERP有多个报表,选择最适合、且数据源较为规整的那一个。
对数据进行清洗和预处理,包括处理缺失值、异常值、重复值等,以及进行数据转换、归一化、标准化等操作。
说实话,在首次清洗的时候,只能对十分明显错误数据进行处理,有一些隐藏较深无法发现的问题,只能在后续工作中不断发现不断处理,尤其是在你面对的数据集较为复杂、字段繁多,且业务意义交叉复杂时。
通过可视化和统计方法来探索数据的特征和关系,例如绘制直方图、散点图、箱线图等。最重要的是选择适合问题的表现方法,不局限在要展示自己高超的分析技能。我常用的是条形图、环形图、卡片图、图表明细,没有用到十分复杂的图形,一方面便于模型使用者(用户)理解,另一方面我的日常业务分析一般不会涉及复杂的机器学习算法,主要目的就是针对发现的问题去“分析原因”,然后提出建议。简单图形就够了,使用模型的意义更多是希望数据能够快速更新,避免数据延迟。
有了大致思路、基础模型后,一般情况下,我会去公开网站上找到对标模板,参考那些好看的页面结构、比赛作品、小的可视化元素,这样可以提高效率,让做出来的可视化页面的可读性强,且更有设计性。需要注意,可视化页面,每一部分的字号大小、背景标题,最好提前就统一,减少后期反复及修改;先搭建粗略框架,和需求方沟通,是否可以实他们的需求?客户如提出新的细化的需求,再补充优化做出来,如此反复。
模型搭建完成,且你足够了解业务后,需要对相关数据进行多维度的监控,发现数据的异常,包括对比差异、时间变化趋势、空间分布和构成结构上的异常等,都属于异常。这一环节可以人工完成,也可以系统自动完成,一般的数据可视化模型/系统都会集成异常数据监控能力。
发现异常、分析问题往往需要人工介入,基于业务现象和异常的表现,通过时间维度、空间维度、结构维度和关系维度,分析引起异常的可能原因,并进行逐一验证。分析问题通常以人工 + 系统的方式完成,系统提供分析问题所需要的功能,人工通过该功能进行操作来验证问题的原因。
定位问题的原因是一个比较复杂的系统工程,不止需要人工介入,还要基于数据表现,制定对应的产品和运营策略。互联网公司,或者数据体量大的公司,常常通过A/B测试的模式,来验证假设,对于分析问题过程中的推论进行业务验证,从而发现根本原因。例如,当发现商品的价格因素可能是导致销量下降的原因的时候,可以通过适当的降价/促销等营销活动,来验证这个假设是否成立。
不过在我处的传统行业中,从业务端来看,更多的还是通过一些简单的运营公示的拆解,来发现问题,看是哪个环节的指标明显低于平均,进而对此进行处理。
基于数据可视化分析,解决业务问题,从系统建设和使用视角而言,是业务监控、数据化运营、数据化营销和数据化决策的过程。构建数据可视化分析体系,可以有效支撑业务运营决策,在执行运营决策的过程中,可以不断优化现有业务过程模型。
需要注意的是!
数据分析和建模是一个迭代的过程,可能需要多次调整和优化,以获得更好的结果。也避免第一版就过度追求完美,到时工期延误,项目推迟的结果,无论如何先完成一版,后续再逐步优化就好。我刚开始入行的时候,是十分理想的,看到很多没办法一次做到完美、100分的事情,就有点垂头丧气,觉得自己能力不行。但现实工作不是上学考试,真实世界的很多事情,就是这样的。
以上思考部分来自实际工作经验,部分来自网络上别的作者文章。
共勉。