本专题共10篇内容,包含淘宝APP基础链路过去一年在用户体验数据科学领域(包括商详、物流、性能、消息、客服、旅程等)一些探索和实践经验。
在商详页基于用户动线和VOC挖掘用户决策因子带来浏览体验提升;在物流侧洞察用户求助时间与实际物流停滞时长的关系制订表达策略带来物流产品满意度提升;在性能优化域构建主客观关联模型找到启动时长与负向反馈指标的魔法数字以明确优化目标;构建多源VOC标签体系综合运用用户行为和用户VOC洞察、落地体验优化策略,并总结出一套用户体验分析方法论。
本文为此系列第五篇文章,前四篇见——
第一篇:淘宝用户体验分析方法论
第二篇:VOC数据洞察在淘宝详情页的应用与实践
第三篇:物流产品体验诊断与优化
第四篇:BPPISE数据科学案例框架
业务背景
随着淘宝业务体量和技术深度的日益增加,使得淘宝APP越来越“庞大”,性能问题也日益凸显。在支持淘宝业务不断迭代的同时,研发团队每年也会持续投入大量资源,围绕用户体验做技术改造和性能优化,持续提升用户淘宝操作体验。去年淘宝启动了性能体验优化项目,前后投入80+小二参与APP性能优化。项目目标为:通过性能优化及负向问题治理,提升淘宝性能满意度20%。
那么哪些性能问题需重点优化、需投入多少资源优化、需优化到什么程度才能最有效地改善用户体验呢?以APP启动为例:
启动越快用户体验一定越好吗?不一定,当优化到一定程度达到用户预期时,优化可能不再有明显的用户体验收益。
不同机型做相同幅度的优化,用户体验效果相同吗?也不一定,不同的用户群体预期不同,对于相同优化的体感也会大相庭径。
由此可见,通过单纯的客观指标无法反映用户的真实体验,主观反馈才是了解用户体验的关键。此外,不同优化程度也意味着不同的技术投入深度和优化难度。
“如何定义合理的性能优化目标”是技术团队普遍存在的痛点,即如何找到一个与满意度强相关的客观指标,设定合理的目标,能兼顾技术投入ROI,且有效提升用户主观性能满意度。围绕这一命题,我们与淘宝用研团队深度合作,共同提出【主客观关联】这一数据分析方法,在本案例中,将介绍主客观关联分析模型的构建方法和应用。
问题梳理
项目组与用研团队合作,采用问卷调研方式收集用户主观反馈数据。随机圈选前一天有访问淘宝的用户,在次日通过消息投放调研问卷。如表2.1所示,问卷中与性能反馈相关的题项设计:Q20,调研用户对淘宝整体性能的满意情况,并最终计算性能满意度(= 选择“非常满意”的样本数 / 总样本数);Q21,针对没有选择“非常满意”的用户,询问具体遇到的性能问题,并最终计算负向问题反馈率(= 反馈遇到XX性能问题的样本数 / 总样本数)。此外,还有一系列其他下钻问题,在此暂不展开讲解。
表2.1:用研问卷中关于性能的关键问题
基于问卷回收统计并拆解性能满意度的负向问题,我们分析得出结论:要提升整体性能满意度,优先级最高的是优化淘宝APP的启动性能。
虽然针对用户在淘宝的性能体验,用研团队已通过多种手段积累了长期的主观性能体验调研数据。但这些数据目前多用于观测用户体验变化,发现体验问题,产出用户体验调研分析报告。客观性能指标的变化和主观调研数据之间应如何关联,是这次数据挖掘前期最大的难点。
传统地,我们能想到最直接的关联方法就是:先观察主观整体性能满意度是上升或下降,再对比大盘客观性能指标是提升或是劣化。这时通常会有几类情景:
不能关联上(如性能满意度下降,但发现性能指标在提升),我们第一反应会质疑主观调研数据的准确性,认为无法进行关联;
能关联上(如性能满意度下降,发现性能指标的确在劣化),我们可以构建简单的数据模型(如线性、二次回归模型),但无法深入解读用户心理,也无法对于性能优化提出建设性的建议;
主客观数据都变化微弱,我们无法获取任何有效信息。
不难发现,传统的关联方式太浮于表面,只是做了主客观数据在大盘表现上的“对应”,难以提供深度洞察的信息。所以,我们认为,可以尝试在用户粒度的主客观数据关联,站在具体样本用户的视角,解释个体使用淘宝时的性能表现,如何影响个体的主观反馈。
综上,围绕启动性能客观指标,通过用户粒度的主客观关联分析,探究“如何优化启动体验?”,“优化到什么程度?”,进而能降低用户对启动慢的负向反馈,提升用户性能满意度。将数据问题定义为:如何建立主客观数据关联,围绕冷启耗时设定合理的优化目标,再按机型维度下拆找到差异化目标。
数据准备
样本选取
主观数据:季度用研问卷反馈样本
客观数据:问卷反馈用户在反馈前3日的每次启动数据(N = 问卷反馈用户数 * 反馈前3日内所有启动次数,问卷填写的选项标签会带入每条启动数据)
指标定义
主观指标:性能满意度、负向反馈率
客观指标:淘宝APP冷启动可交互耗时
分析维度:性别、年龄、活跃度、购买力、系统(iOS/Android)、设备等级
策略洞察
首先,我们对用研本身的样本数据进行了探索,分析用户基本特征、设备特征与性能满意度之间的相关性,从图4.1中可以发现,调研用户特征(性别、年龄、活跃度、购买力、设备等级、系统)与性能满意度相关系数均小于0.3,相关性较弱。即使是我们猜想应该非常相关的设备等级,与性能满意度之间相关性也很弱。可以认为,不同设备等级的用户也有不同的心理预期,并不代表设备差的性能满意度就一定低。
图4.1 调研用户特征与性能满意度之间的相关性
备注:1.以上变量中,性别、系统处理为哑变量(性别:0-男,1-女;系统:0-iOS,1-Android),其余均处理为有序变量(其中满意度1-5分别代表“非常满意”到“非常不满意”);2.相关性计算为皮尔逊相关性(0.1-0.3弱相关;0.3-0.5中等;0.5-1.0强);
假设2:性能指标与体验负向反馈率存在相关性
接下来,我们对在问卷中反馈启动性能不满意的用户,假设该用户在提交问卷前N天(短期内)大概率经历过较差启动性能体验问题。基于以上假设,形成分析思路:基于用户的启动负向反馈率及其前N天的冷启耗时数据建立分析模型,绘制主客观指标关联图,寻找体验负向反馈率与冷启耗时之间是否存在魔法数字(临界值、拐点)。
图4.2 启动耗时分布与负向反馈率关联图
如图4.2所示,双端的表现并不一致,Android用户在启动耗时优于拐点 Xs后,有很长一段“低收益期”,且这段时期依然保持在较高的负反馈率,而iOS用户的拐点非常靠前(甚至可以认为没有明显的拐点),基本可以认为iOS端只要有优化,就能降低负向反馈率。双端不一致的表现,也说明相比Android用户,iOS用户对于启动性能更加挑剔,要求更高。
关键结论:大盘角度,淘宝Android端负向反馈率在 Xs出现拐点,iOS端负向反馈率在 Xs出现拐点。性能差于拐点时,性能优化能明显带来负向反馈率下降;性能优于拐点时,性能优化对于体验的提升效益不再显著。性能优化提高双端拐点的达标率,可以最大程度降低负向反馈率。
在上述分析中,我们只是用一个截面数据,关联了性能指标与体验指标,是一个静态视角的描述。而在实际性能变化的过程中,图中的两条线:启动耗时分布和负向反馈率分布,都是会随之而变化的。因此,我们根据已有的分析信息,作出一个动态模型的假设,推演性能优化对整体负向反馈率的收益。
模型假设:图4.3是提炼出的主客观关联模型的假设,是启动耗时分布与负向反馈率分布的结合,我们认为:
性能优化带来的启动耗时分布变化:启动数据大致呈现一个正态分布(实际近似偏态分布),随着性能优化,分布的峰值会往前移,同时分布会变窄,因为性能会更加稳定。
性能优化带来的负向反馈概率分布变化:随着性能优化,整体的负向反馈会下降。
因此,图中的阴影部分即是性能优化带来的体验价值(面积还需要考虑权重):
图4.3 启动主客观关联模型(示意图)
分析假设:假设用户使用不同机型的手机对APP性能的预期是不同的。因此,我们将淘宝的存量机型按照平均启动耗时等进行设备性能评级(分1-10级),每一级的设备量相同。
分析思路:按照设备性能评级维度下拆分析负向反馈率与冷启耗时之间关系,找出差异化目标。
分析结论:图4.4用10个等级切分Android机型的性能分(1性能最差,10性能最好),下表描述了各个等级的性能以及对应的负向反馈率。我们可以发现,启动耗时分布和负向反馈率分布的变化,与模型假设中的基本一致。具体地:
性能优化对负向反馈降低效果最明显的为1 -> 2 -> 3(即低端机优化对于体验提升的收益最明显);
设备等级3-9期间,启动性能越好,负向反馈变化平缓,有小幅下降趋势;
设备等级9-10期间,启动性能越好,负向反馈反而轻微上升;
图4.4 启动耗时分布与负向反馈率关联图 (Android)-按设备性能分级
从设备性能分级角度发现:设备性能评级越高,启动耗时均值越低(分布左倾),启动负向反馈率也会越低。并且,3-10级(中、高端机)启动耗时分布的集中值对应的负向反馈率会存在临界值,维持在 X%左右。
图4.5 淘宝启动性能优化梯度表
基于过程数据产出启动性能优化梯度表(图4.5),指导技术团队性能优化的预期收益。将低端机(1-2)优化至中端机(3-4)的性能水平,低端机性能需要提升 X%左右,该部分用户的负向反馈率可以从 X%降低至 X%,假设其余等级性能情况不变,最终可以将大盘的负向反馈率从 X%降低至 X%(-Xpt)。
关键结论:对于启动性能优化,优化低端机对于对于降低负向反馈的收益最高,并且可以一定程度带动大盘负向反馈下降。上述只是一个估算示范,未来用这个梯度表(主客观关联模型),可以根据体验目标,推算性能提升的目标如何设定;也可以根据性能优化的情况,估算体验提升的效果。
策略落地
本案例中,我们帮助“淘宝性能优化项目”在优化目标和范围层面给予更加明确的建议:淘宝Android端以冷启耗时 Xs达标率作为性能优化核心指标,iOS端以冷启耗时 Xs达标率作为优化目标,重点聚焦低端机优化以实现技术投入的效益最大化。
效果验证:在具体优化过程中,数据侧通过建设性能域指标体系和数据体系,建立AB实验规范体系,快速迭代衡量优化效果,项目组也拿到了一定阶段性结果。围绕优化目标,将整体启动耗时Xs达标率提升Xpt;同时聚焦低端机优化,将耗时从 Xs优化至 Xs;整体上支撑了淘宝性能满意度提升Xpt。
总结与展望
▐ 用户预期挖掘
通常情况下,我们认为用户满意度由用户体验决定,但实际上,对于完全相同的体验,不同的人也可能产生截然不同的满意度。从消费者心理学的角度来讲,用户满意度应该取决于用户预期。
对于不同的人群,不同性能的设备,预期会有差异。比如,手机上只有淘宝一个电商App的用户,预期往往是历史的性能表现,而手机上同时有淘宝和其他电商App的用户,预期往往是对比的性能表现;再比如,高端机的用户会更挑剔,预期也随之更高,而低端机的用户预期就相对较低(以上例子仅为猜想)。因此,未来要做用户体验,应该首先挖掘不同人群/设备下的用户预期,采用“深度用户访谈 + 数据验证”的方式进行探索,最终根据不同预期制定个性化的优化策略。
此外,我们认为,相比起单纯的性能优化,产品策略的调整会给用户的体验带来更显著的变化。用户预期调研不仅仅要探索用户对于性能(如快慢)的预期,更要挖掘用户对于产品形态、策略的需求,进而才能“性能优化+产品调整”共同促进用户体验。
▐ 分析方法完善
淘宝有不少技术优化场景存在目标难以定义的问题,后续希望能将本案例的分析方法进行推广,系统化地支撑到这些场景。
场景化调研
若要系统化支撑需要满足一些前提条件,譬如:用研数据需替换成场景化满意度调研数据,技术优化需接入APM类SDK产出用户/设备粒度的埋点数据等。本次主客观分析,采用的是用研团队按月产出的大盘性能体验数据,该数据背后的问卷细致全面,深度挖掘了用户的体验问题。但对于这样大而全的调研,显然会一定程度上损失迭代的速度,与单一问题反馈的准确度。因此,未来可以尝试用更加“精巧”的场景化调研,快速地定位单一场景的体验变化,与大盘调研相辅相成。当然,考虑场景化调研的同时,还需要想清楚该场景是否适合?是否有反馈偏差?是否会对用户造成额外的打扰?是否会阻断用户正常的使用链路?
用研AB体系
主客观关联更多提供的是前置洞察,用于解读用户在使用App时的客观性能如何影响他们的体验,给研发团队提供性能优化的思路,并通过提炼出的模型为性能优化进行目标设定或效果预估。但在与研发团队交流的过程中,我们发现要真正把主客观关联这件事做成闭环,还缺少一个后置验证的环节,如何验证性能优化后对于体验的实际提升是难点。
因此,完善的用研AB体系与流程,是未来主客观关联形成闭环的关键。用研AB即是在AB实验中,融于用户调研,将用户体验指标(满意度、NPS、负向反馈率、舆情等)作为实验的一个关键指标。这样下来,主客观关联可以通过前置洞察,对性能优化、业务调整提供决策信息;每一次性能优化、策略调整随后会通过用研AB进行后置验证,验证优化与调整对于用户体验提升的价值,也反向验证我们在前置洞察中的结论是否可靠。
负向反馈率与满意度之间的关系
用户体验的总体目标是提升满意度或NPS,但仅盯着这些整合指标,很难有优化的抓手。因此,从单一问题的负向反馈率入手提升体验,是一个更好的选择。本案例主要针对启动性能的负向反馈率展开,不得不承认,单一性能的负向反馈率下降,不一定能带来整体性能满意度的提升(因为还有各种其他性能可能在劣化)。但我们相信,逐一击破这些问题,一定能带来整体满意度的提升。
团队介绍
我们是大淘宝技术交易履约数据科学团队,负责面向淘宝交易履约链路(下单、支付、购物车、物流、逆向等)海量数据挖掘DAU、DAC及用户体验增长机会。团队致力于围绕用户行为路径、用户VOC洞察用户需求,基于人货场匹配落地交易链路触达、转化、复购和体验策略,提升消费者购物体验。
目前团队招聘中,欢迎拥有消费者、商品、交易、营销等相关领域数据分析/数据科学背景的优秀人才加入,有兴趣可将简历发送至[email protected] 。
¤ 拓展阅读 ¤
3DXR技术 | 终端技术 | 音视频技术
服务端技术 | 技术质量 | 数据算法