针对业务场景中数据应用价值的落地,网易数帆形成了以 DataOps、DataFusion、DataProduct 为内核,数据技术、数据资产、数据应用和数据运营为四要素的数据生产力模型,其中网易公司数据运营的一个重要手段是网易数据治理大赛。本文是第二届网易数据治理大赛获奖作品分享,来自于网易互娱用户体验中心数据团队。云音乐用户画像资产,存在链路强耦合、计存高成本、口径不统一、产品性能又不足的现状问题。本年度通过一定的治理和产品能力扩展,实现资产治理和业务赋能。
在如今降本提效的大背景下,用户画像资产在人维度数据上占据大头资源,历史遗留问题也不少,数据治理迫在眉睫。本文将从项目背景、项目挑战、项目方案、项目成果四个方面进行分享阐述,希望分享能帮助到大家。
1 项目背景
着重说明下业务和技术背景。首先是业务背景,云音乐现阶段用户增长瓶颈总量几十亿用户,日活几千万左右,月活几亿,想要再增长用户成本极高,精细化运营已经是破圈的必须手段。面对现在不同的用户人群,具备不同的商业化潜质,需要对不同人进行商业化分层,才能更好的帮助用户精细化运行。除了主站业务的拓展,子业务扩展也是迫在眉睫,用户画像可以帮助子业务从主站业务挖掘和扩展需要的用户群体,帮助做业务扩展,扩单云音乐整体营收能力。
再说技术背景,主要也分3块内容,历史用户画像建设标签重复建设,多达32张相关画像表存在,部分依赖层级多,且标签重复建设。圈选产品不统一,存在多套产品,比如muse、诺伦、sniper等,产品侧需要做一定的重组。圈选产品的响应速度,也是整个产品获得用户依赖的核心指标,通过一定的技术改造实现从sql圈选到ms级圈选能力是很有必要的。
综上,可以概括为云音乐用户画像资产,存在链路强耦合,计存高成本,口径不统一,产品性能又不足的现状问题。
2 项目挑战
数据侧难点:数量大,链路长,时效低,口径多。数量大体现在用户画像涉及上千指标,需要对这些指标做统一的管理,确保指标及其对应表的高内聚底耦合,任务链路存在很多7-8层的任务层级,层级越多,任务的稳定性越差,需要对任务链路进行压缩;实效性方面,现阶段任务的时效性不高,每天产出的时间是10点左右,远没有达到用户需要的6点时效性要求,需要进行产出时间的压缩;关于任务的一致性,需要进行,则是如此之多的画像指标,如何做到指标的一致性是具有很大挑战的。
3 项目方案
3.1 方案框架
针对以上内容,这些脏乱差数据应该如何治理是值得我们花时间去做的事情。本项目结合实际可实现的内容,整理并完善整个项目方案,以治理降本和产品提效为两大主线为解决方案,如下图:
从图中可以看出,整个项目分为五层。底层为画像底表层,包括流量数据、用户中台数据、内容数据、会员数据、社区数据等数仓公共层数据;上层为画像逻辑层,通过对底层数据进行实体关系建模,抽象成用户基础画像、用户行为画像、用户统计挖掘几大块内容。
用户画像的逻辑层建模就是为了实现整个画像层,可以实现数据的一致性标准,确保数是高内聚低耦合的,同时也确保了整体的可扩展性,比如新增游戏业务的话,那就在行为画像中添加游戏实体,可以实现整个逻辑层的可扩展而不需要重构整个内容。
画像的应用层,测试整个画像的输出部分,包括画像核心全量表,以及各类画像的切片画像,如会员画像、日活画像、月活画像等等。
画像产品层是基于画像数据进行的画像产品,包括魔镜圈选产品,实现标签管理的标签工厂,实现标签服务化的标签服务能力等等。
在画像逻辑层和画像应用层涉及整个画像的治理工作,包括画像的产出保障以及任务下线。
再向上则是最终服务业务的业务产品,魔镜通过打通和业务产品的能力,比如打通灵渠,可以实现从用户人群圈选到用户push的打通构建。还有天秤、音乐人运营等产品。
3.2 标签建设
用户画像标签建设以需求触发为出发点,需求调研case如下左表。需求来源包括各线分析师、魔镜、标签工厂产品、运营同学等。通过结合数仓分层和ER实体关系建模的方法、依托业务诉求,设计画像逻辑层。实现数据的高内聚低耦合,从而确保了良好的可扩展性。
比如歌单、歌曲、直播、mv都是实体对象,通过与用户的二元叉乘得到相关数据指标,后续业务扩展游戏等,也可直接实现用户叉乘游戏,实现横向实体扩展。确保实体内数据高内聚,实体间数据低耦合。
3.3 保障体系
保障体系重点在于数据质量的监控保障,以数据稳定性、一致性、及时性、唯一性、完整性、准确性为核心保障内容,详细工具和方式见下图所示:
3.4 任务下线
任务下线机制则主要以定策略,用工具为主要手段,逐步推动下线。
3.5 魔镜产品
用户画像下游接入魔镜产品,实现用户画像表服务各类业务的圈选功能,下游链接各类产品投放产品,实现画像数据的业务赋能。
4 项目成果
项目成果从产品价值、治理价值、业务价值三大块说明。
4.1 产品价值
统一数据服务基于画像数据及标签元数据提供高效的标签服务、圈选服务,基本覆盖了云音乐全部业务圈选服务,应用于用户运营、线上活动、AB实验、广告投放等多个产品及场景。统一数据开放接口的提供为用户运营、线上活动、AB实验、广告投放全业务线提供服务,做到一次开发多产品使用,减少人力开发成本。
产品总计实现1900多次人群包圈选,百亿次圈选,500万次多的push服务,覆盖音乐几十亿用户和上百+标签。
4.2 治理价值
总体预计下线32张表,上千多标签治理,预计节约存储成本近150万,年节省计算成本近200万,预计年度总节省300多万元。
4.3 业务价值
除了产品链路打通后大大节省了push时效外,还有子业务的画像服务场景,也大大体现了业务价值。比如某子业务使用主站用户标签数据,每日实现拉新几千用户,年可节省千万左右成本。
以上是对云音乐数据画像资产治理实践的分享,在这里感谢网易数帆大数据团队对我们的各种支持。