随着互联网行业的快速发展,产品经理的分工也不断细化,同时随着大数据技术的发展、数据中台等概念的兴起,近几年兴起了一种职业——数据产品经理。那么数据产品经理工作的价值是什么?数据产品经理到底是做什么的,主要需具备哪些技能,能力模型又是怎样的?作为一个2岁多的数据PM,这些问题是我常常思考的。本文就这2年多的经验,结合《数据驱动:从方法到实践》谈谈我的一点看法。
一、数据工作的价值是什么
数据PM的工作是数据工作中的一个环节,因此数据PM工作的价值与数据工作的价值是一致的。那么,数据工作的价值是什么呢?我认为主要是两方面:1)数据驱动业务/产品决策,提升决策效率及质量;2)数据驱动产品智能,进而提升运营效率。
数据驱动业务/产品决策,最常见的应用是通过AB测试方法,决定产品策略。
数据驱动产品智能,最常见的应用是我们经常提到的数据中台概念,通过打造「one data」「one ID」统一平台数据、统一账号体系,以及建立基于数据的上层应用(比如:推荐系统等)从而促进数据共享,提高运营效率
二、数据PM的工作职责是什么?数据PM的能力模型是什么?
由于这是一个相对比较新的职业,关于数据PM的工作职责,不同公司的要求不尽相同。大体来说工作职责可以分为以下几类:
1)数据分析类,通过数据分析为业务提供决策建议
2)工具类(数据平台类),数据平台可以是:BI平台、埋点平台、AB测试平台、自动化运营平台、监控平台或者是一些SaaS/PaaS平台等等
3)策略类,持续优化算法模型
4)数据治理类,侧重于基础数据工作,比如:数据清洗、数据建模、基础数据提取、元数据管理、数据质量管理 等
基于以上分类,我们大概能够列出数据PM所需具备等能力:
1)产品基本功,包括基本的分析方法、产品设计、交互设计等
2)数据分析方法,定义进行业务分析的指标体系
3)熟悉数据工作的各个环节:数据采集、数据ETL与加工 以及 数据应用
根据不同的工作侧重点,我们可提升相应的技能
三、数据工作介绍
数据工作总体可以分为:数据采集、数据传输、数据存储、数据加工与建模、数据应用 这5个环节
3.1 数据采集
数据采集是数据工作的基础,有数据才可以进行后续的数据应用工作。说到数据采集,就必然要提到——数据埋点。
随着移动互联网和智能硬件的发展,产生数据的源头也更加丰富了:智能硬件、APP、浏览器等。而数据埋点的方法主要分为前端埋点和后端埋点。前端埋点和后端埋点对比如下:
其中,前端埋点可以分为3种方式——代码埋点、可视化埋点、无埋点(全埋点)
若想把数据平台做好,数据源非常重要,是所有上层应用的基石,其中关键是要确保数据的准确性。实际的工作实践中,可能会存在数据不准确的问题,数据不准确的原因有以下几种情况——
1)网络异常网络异常是导致数据不准确的直接原因之一。比如我们在使用APP时,可能因为网络异常,导致用户的操作行为并没有被及时发送到统计服务器端;或者这些服务是公共的SaaS服务,在一些网络的高峰期,比如晚上8点,同时有大批的APP用户向服务提供商发送行为数据,这样就容易导致网络拥堵,就像春运期间在12306网站抢购车票一样,容易导致某些请求丢失,造成数据不准;再者为了应对网络异常,我们通常会采用重传、间隔上传之类的策略,而这些策略由于标准不统一,也会带来统计的不一致。对于APP来说,在发送过程中,缓存到本地的数据如果到达上限,可能会造成部分数据丢弃。
2)统计口径不同。同样是活跃用户应该如何统计?启动APP就属于活跃?还是首页加载完成才算活跃?用户是否要完成其他关键行为?这里就极易出现偏差。如何定义一个新用户?有多久没有再次应用产品才算新用户?另外由于用户Cookie被清除的处理策略不同等因素,看似同一指标,却会造成实际数值的偏差。
3)代码质量问题一方面,由于众多的手机生产厂商及手机操作系统的发行版本,以及APP的开发框架和程序代码质量等问题,可能会导致SDK在某些情况下不能被有效调用,或者重复发送,这样也会导致数据的准确性问题。另一方面,负责埋点的工程师,可能因人为失误漏掉某些行为事件的采集。
4)无效请求比如竞争对手的恶意攻击,Spider等进行的抓取操作,都会导致数据的异常。
基于以上原因,提升数据准确性的具体策略主要包括以下几个方面——
1)采集关键行为,推荐后端埋点。对于关键行为,如订单交易、注册等,推荐后端埋点,提升数据的准确性。
2)进行事件设计和明确统计口径,保证统计数据的质量。
统计口径不同,是人为因素中最大的问题。一般SaaS统计系统是采用通用的统计指标模型,即不管是什么APP,均采用一样的统计策略。但对于客户的自有产品来说,总有一些自己的特殊定义方法,特别是针对一些边界用户的处理。对此,我们还是要进行事件设计,以保证统计质量。具体来说,分析师要和业务人员一起梳理业务流程,并拆分出关键用户行为事件(Event),以及事件相关的维度。在进行一些多维分析时,如漏斗分析、留存分析,以及基于事件与维度进行统计,数据会更加精确。比如,在嵌入多个子页面的一个页面中,加载过程应该算几次PV?
3)需要具有完善的元数据管理和埋点管理。
元数据管理可精细化管理每个行为事件的属性类型定义,埋点管理会跟踪每个埋点的数据量、校验通过量等,出现异常要及时发现。系统还应提供Debug模式,以精确跟踪每一条数据是不是按预期的计划进行处理。实时导入监测功能,可以通过用户ID及其他属性,筛选实时采集的数据,精确定位问题。总之,是要把数据采集从“黑盒”变“白盒”。
4)通过多维分析能力快速定位异常。
分析工具要提供灵活的多维分析能力。这可以保证数据实时接入和实时查询,加上底层的数据是事件级的粒度,可以跟踪用户的每一步操作以及筛选相关的维度。这样在追查数据异常的时候,通过多维分析和用户详细轨迹,很容易快速地定位问题。通过以上一系列策略,我们就可以让数据采集达到较高的质量标准。
3.2 数据传输
前端埋点/后端埋点通常将数据上报到日志服务器(日志服务器只是一个抽象概念)中,通过Kafka或flume(也可以是别的)进行数据传输,收录到Kafka中,供下游消费。
3.3 数据存储
离线:flume采集原始日志数据——>Kafka收录日志数据——>数据ETL——>存入Hadoop
实时:flume采集原始日志数据——>Kafka收录日志数据——>实时读取及计算
3.4 数据加工与建模
1、数据模型
关于数据建模,比较常见的是多维数据模型。按照事实表,维表来构建数据仓库,数据集市。
事实表是用来记录具体事件的,表示在某人(who)什么时间(when)什么地点(where)以什么方式(how)完成了什么事情(what);维表则是对事实表中事件的要素进行详细描述。
比如一个事件会包含时间、地点、人物、事件,事实表记录了整个事件的信息,但对时间、地点和人物等要素只记录了一些关键标记,比如人物只记录了user_id,user_id=1表示的是哪个用户则需要通过维表进行查找。
基于事实表和维表就可以构建出多种多维模型,包括星形模型、雪花模型和星座模型。
2、数据分层
为什么做数据分层?对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:
1)清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。
2)减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
3)把复杂问题简单化。讲一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。
如何进行数据分层?
可以把数据仓库分为下面三个层,即:数据运营层、数据仓库层和数据产品层。
数据运营层,也叫ODS层(Operational Data Store,操作数据存储),是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入本层。ODS层的数据,总体上是按照源头业务系统的分类方式而分类的。
数据仓库层(DW),是数据仓库的主体。DW层从ODS层中获得的数据按照主题建立各种数据模型。例如以研究人的旅游消费为主题的数据集中,便可以结合航空公司的登机出行信息,以及银联系统的刷卡记录,进行结合分析,产生数据集。
数据产品层(APP),这一层是提供为数据产品使用的结果数据。在这里,主要是提供给数据产品和数据分析使用的数据,一般会存放在es、mysql等系统中供线上系统使用,也可能会存在Hive或者Druid中供数据分析和数据挖掘使用。比如我们经常说的报表数据,或者说那种大宽表,一般就放在这里。
3.5 数据应用
1、BI数据平台
数据最常见的应用形态是BI,个人认为BI最重要的价值在于,以可视化的方式提升数据的表达力,以更直观的方式呈现数据,让数据更易读易用。
BI的发展相对比较成熟,BI系统的核心功能模块基本比较明确,下图是我结合实际工作及一些主流BI类系统,抽象出的BI系统的架构图。
2、搜索推荐类(机器学习算法)
鉴于我并没有太多搜索推荐方面的经验,后续如接触相关案例,再进行补充。
参考文章:
数据分层:https://blog.csdn.net/tp15868352616/article/details/82049360
数据建模:https://blog.csdn.net/zzq900503/article/details/78492505
参考书籍:《数据驱动:从方法到实践》