实际业务中的数据分析流程和痛点

平常我们在学校里完成一个数据分析,或者数据挖掘的项目,很多时候的流程是:

实际业务中的数据分析流程和痛点_第1张图片

在这种分析场景中,我们会更关注如何选择合适的方法来达到我们分析的目的。比如我们现在面对的是一个信用卡欺诈的识别问题,我们已经有了一份完整加上了标签的训练数据集,通过建立一些判别模型(如Logistic回归、决策树等),就可以完成模型的训练,然后在测试集上验证模型的效果,当评价指标尚可的时候,就拿来作为新数据集的识别模型。

我们能较快地使用一些分析工具,如Python、R来实现上面的分析过程,有一个重要的前提,就是数据集相对好得到,同时我们假定得到的数据集是准确的,只要我们通过一些分析方法或者建模手段,就能从中提取出有用的信息,从而实现我们的分析目的。

但在实际的业务中,这样的情况不多,“数据集相对好得到” + “我们得到的数据集是准确的”这两个条件未必能满足,从而会有更复杂一些的处理流程:

实际业务中的数据分析流程和痛点_第2张图片

从上面的流程图中我们可以看到,实际业务的数据分析流程中,会增加对“数据集相对好得到” + “我们得到的数据集是准确的”的处理。这是因为相比于在学校中做数据分析和挖掘的项目,实际业务中能用于分析的数据并不是容易得到的,而是需要通过一系列的操作才能得到一个可能有分析价值的数据集。这相当于我们根据分析的目的,自己来设计我们想要的数据集,同时验证这样的设计是否可行,如果不可行,我们还得重新设计。下面简要介绍一下各个流程及其痛点:

(1)中间层数据的生成。最原始的数据往往通过一些埋点或日志的方式收集在服务器中,数仓开发人员会根据原生数据(元数据)的特征,使用一些ETL的方法将原生态的数据转换为字段格式相对正常的中间层数据,存放在项目相关的数据中台或数据集市中。在这一块处理的痛点在于中间层数据的设计规则,通过怎样的ETL方式才能把元数据转换为易于理解的中间层数据,需要对规则有明确的定义。举个例子,某个元数据字段是数字、英文字母、中文、中文 / 数字 / 英文字母 的混合,在ETL成中间层数据的过程中,对于这个字段我们是全部转为char类型的数据来存储,还是要把这些类型分开来,数字用numeric类型,中文和英文字母用char类型,是需要考虑设计的规则的。

(2)业务分析需求 vs 中间层数据。实际上对于业务数据分析人员,往往不会接触到更底层的数仓开发的过程,能触碰到的主要是数据中台上面的中间层数据。在产生业务分析的需求的过程中,就需要考虑是否有合适的中间层数据能取出来用于开展业务数据分析。这样的过程称为提数,提数的核心要求是设计合理的字段,使用SQL系列的语言从数据中台中提取我们想要的数据。在提数的过程中,痛点主要是:你想提取的字段未必都在一个或几个中间层数据表中,甚至并不是就在中间层数据中存在的。所以就需要使用SQL类的语言去构建一个提取的完整框架,与中间层数据表的设计、提取数据的SQL写作思路、业务分析的需求都密切相关,需要协调这三者之间的关系。举个例子,我们的业务分析需求是研究一下某次活动运营期间,那些来自于竞品APP的用户,在我们的APP上的活跃度是否相较于非竞品APP的用户的活跃度有显著的差异。根据这样一个业务分析的需求,我们可以想到提取的数据字段应该包括用户的id、用户的类别(来自竞品 / 来自本品)、活跃度(限定时间段在该运营活动期间)。那么我们就需要有记录用户id的中间表、记录用户的类别的中间表、记录用户的活跃度的中间表,如果这些表有缺失,那么我们的业务分析需求就无法满足,我们就得重新设计过字段。比如我们没有“用户的类别(来自竞品 / 来自本品)”的中间层数据表,我们就要想过别思路来获取同等替代的字段。假如我们在中间层数据中找到了一个数据表,该数据表记录了用户的id、用户的来源(内部 / 外部)、用户来源的APP(各类APP名称),我们就可以重新设计这个字段,通过构建“用户的来源 = 外部,用户的来源APP = 竞品APP”这样一条数据提取的过程,也能得到等价的字段数据。

(3)中间层数据 → 假定可用的数据。这一段的操作主要就是运行设计好的SQL代码,从中间层数据中取出我们想要的数据,形成能用于我们自己分析的数据表。这里面主要的痛点在于:实际的中间层数据往比平常在学校中见到的数据要复杂的多,首先量级可能就很大(流量表 / 全平台宽表等),其次很多和时间相关(如何判定你要取的数据是否受时间影响),最后是表之间的关联也非常复杂。所以我们不是简简单单能运行的通一段SQL代码就完事了,“代码能跑通”和“取的出来数”是两回事。举个例子,当我们的取数代码涉及到数据量很大的分区流量表,而你的查询代码需要对多个分区进行全盘扫描,代码确实能跑,出来的数据格式肯定也对,但可能一两天也取不出来数据,而业务分析的需求要在今天完成,这就产生了矛盾,需要我们重新对取数过程进行设计,写出更优化的SQL提数代码。

(4)假定可用的数据 → 数据预处理 → 数据分析和挖掘 → 结论验证 / 可用性验证。在这一段过程中,其实相比于平常在学校做的数据分析和挖掘项目类似,都是通过一些分析的方法去对数据进行研究,看数据基于方法提取出来的逻辑和规则是否能满足实际的业务分析目的。但这里相比于在学校中做的项目的一个痛点在于:需要做数据的可用性验证。举个例子,实际业务中很多数据和时间关系密切,假如我们想验证的分析目的是看用户的活跃度是否持续上升,我们基于之前的数据提取出来,验证的结果是持续上升。但是我们知道,持续上升这个判定肯定用的是时间序列相关的数据,如果我们实时更新之前设计出来的数据表,可能得到的是最新时间段的数据结果,此时我们再进行验证,可能用户的活跃度就不是持续上升的了。这里就需要我们结合业务需求的设计,确定我们基于中间层数据提取出来的用于分析的数据是具有足够的可用性的,不会受到质疑和挑战。

——————————————————★

互联网数据分析岗位求职备战手册

你可能感兴趣的:(数据分析,数据挖掘,python,人工智能,大数据)