本文适合(1)进入工作领域 1–3 年的 UX Designer/Product Designer(2)希望为自己的工作产出订定价值衡量的 Anybody
好的衡量指标带你上天堂,不好的衡量指标带你睡…
嗨,本周 Nathan 与大家分享下一些在 UX 工作中,常会听到的一些衡量指标专有名词,有些或许是你常常听到但不太确定的,有些则可能是你所在的领域或项目比较少讨论的。
虽然在大多数的公司中,与中小型的设计团队,采用快速定性的研究,可能是比较符合 CP 值的方式。但当产品、用户甚至团队具有一定规模时,关于量化指标的重要性,在 2019 年的今天想必已经不需要再重复叙述。
不太一样或是常被误会的是,对于设计师来说,多数在工作中使用的量化衡量指标,其实大多是围绕设计工作的显性部分,也就是可用性 (Usability) 上,而可用性工作其实只是 UX Design 的一环。
但, UX 毕竟是由商业环境中反推学术的一门职位。
如果仅仅只是将量化指标用在 UX Designer 的工作上,反而是自己自废武功。不要忘记小至前端展现,大至商业策略,都可以是 UX Design 的范围。
因此如何学习使用一些既带有商业特性,又能体现用户体验的指标,是每个 UX 工作者,多少都要知道的。
“我们不是在设计UX,但我们可以为UX设计”
另外,本篇主要在分享一些使用体验横标指标上的一些迷思,与介绍工作中常用的一些指标,至于如何透过这些指标帮助 UX Designer 在工作中提升重要性,来自证 UX 工作能带来的价值部分,可以看一下 Nathan 以前写过的一篇古早文。
当有一定的用户后,结合常见的数据分析工具或内部团队自建的数据埋点,网站和应用马上就能出现许多可供分析的数据,似乎只要有这些数据,令人惊喜的洞察就会自动浮出水面。
G-S-M(Goal-Signal-Metrics)是 Google 提出的目标导向衡量模型,用来拆解用户使用产品时的 设计目标-行为信号-衡量指标 的一种模式。
在商业场景中,所有的数据衡量必定带有明确的目标,比如:透过观察宽口转化和窄口转化,分析广告投放效益以及 GMV 成本。甚至,如果仅基于这些观察数据进行动作性的优化,没有配合中长期的决策时,变化仅会流于短期效益。
一个数据指标容易监测与计算,并不意味著它对你的产品来说就是重要的。透过现在大部分的分析工具,可以很容易就监测跟踪成百上千的各种指标,而且分析的工具也层出不穷。新产品团队往往因为能获取大量的数据,然后就期望洞察自动出现,但往往不遂人意。
例如,网页或 App 的 PV 数据很容易收集,但如果你的网页或产品是属于内容消费类型的,它就无法呈现用户是否在你的网站消费内容(有效时长更具代表性)。高的 PV 或许是由市场广告转化过来的用户,但对内容消费类的产品目标,肯定不是确定每个用户到底浏览了多少页面,PV 可能是衡量广告效果的重要度量,但它并不是监测用户参与度的良好方式。
如果你不确定你正在用的数据指标,是否有正向帮助的话。可以参考 AARRR 的转化模型,来帮助自己梳理清楚核心的转化链路。
如上面所说相较于 PV、UV、DAU,用户在网站或应用中的有效停留时长,可能更适合用来衡量用户在产品中的参与度。
但停留时间越长可能是正面的,也可能是负面的。在电商产品类的转化过程中,如果在关键的转化节点用户停留较久,可能意味著用户因困惑、分心或挫败而花费了大量时间。即便同时监测网站或应用的停留时长和转化率,你可能仍然不清楚为什么用户参与度如此高,对于最后的成交却没有太大帮助。
这时就需要透过配合更细致的数据指标组合,慢慢的定位用户在操作步骤中的关键问题,并尝试透过 A/B Testing 来解决。
大家常用的数据指标,并不一定适合自己当前产品阶段或企业目标。
正常而言企业的主力产品,正是代表著企业主要的商业营利模式,因此在发布产品后要监测的各种衡量指标,通常在产品准备进入市场前,都已依照商业模式进行拆分。但在产品的冷启动时期,这些依商业模式拆分的指标,很多时候无法反映出,企业的产品是否正在往好的方向成长。
比如 Saas 服务类型的产品,通常都会使用净收入留存 NDRR(Net Dollar Retention Rate)作为主要的商业模式指标,但在前期用户量少时,搭配 NPS 或 PSAT 等类型的指标,才能够好的回归到 Saas 产品的服务体验本质。了解企业目前提供的服务,对用户来说是否是正向的,并且能持续增长。
在产品开发迭代中发布新功能后,数据可能会开始上升。产品团队可能认为这是新功能的发布造成的,但销售部分却可能会将它与一项新的促销活动联系起来,而 UX 团队则可能认为这与他们的新设计相关。
这种场景在产品的数据到达一定规模时十分常见。真实情况是只能透过控制一些固定因子,来做更细部的 A/B Testing 拆分。但大多时候产品的迭代时间与开发资源,很难真正做到能明确确认是因为什么原因。
因此结合前面所说的,各团队在主要的数据指标中,配合其他辅助指标,甚至提取更与团队紧密相关的个别指标,来了解在产品的迭代过程中,各自团队做的决策是否是正向的。
用户体验指标,跟易用性和商业指标目的不同
下面就会介绍几种工作中常用的,与体验相关的衡量指标,部分指标在订定的一开始,本身即包涵了商业与体验维度。
大部分的体验衡量指标,都会基于三个主要价值观,结合其他用户态度类型作为衡量基准。
可用性、参与度、转化率 + User Attitude
下面介绍几种,在工作中可能常用到的通用型,与不同业务场景型的体验衡量指标。
PULSE 是基于商业和技术的衡量模型,被很多组织和公司广泛应用于跟踪产品的整体表现。包含:
Page view 页面浏览量、Uptime 响应时间、Latency 延迟、Seven days active user 7天活跃用户数、Earning 收益
但不难看出 PULSE 指标仅覆盖了 UX 设计中最最基础的可用性部分,和衡量用户体验的直接关系不大,难以评估设计工作到来的影响,毕竟这个指标创建之初是用来衡量产品的技术与商业效果。
因此为了弥补 PULSE 指标中存在的问题,Google 提出了 HEART 指标模型。HEART 是 “以用户为中心度量的指标体系,以及把产品目标与创建指标体系相互关联的过程”
HEART 其实也是业界使用的老黄历了,尤其常用 GA (Google Analytics) / Adobe Omniture 的人一定都对他不陌生。
早期产品开发上线的阶段,大多是订定业务 KPI 作为衡量项目产出的价值,但在用户体验的部份,却很难有可视化以可及量化的衡量指标。因此 Google 尝试把产品目标以及体验指标相互结合,建立以用户为中心的 HEART 度量体系。
04 Google Heart 体验衡量指标模型
01 NPS(Net Promoter Score 净推荐值)
净推荐值最早是由贝恩咨询的创始人 Fred Reichheld 在 2003 提出,通过测量用户的推荐意愿,从而了解用户之于产品或服务的忠诚态度。
NPS 算是近几年用户体验领域上的当红指标(甚至业内还有所谓的 NPS 教派 XD),基本上互联网类产品都可以使用。其基本核心理念是,一个企业的用户可被划分为三类:推荐者、中立者和批评者。
01 推荐者是投入且重复使用产品的用户,他们会热情地向其他人推荐你的产品或服务。
02 被动者是对产品满意,但缺乏热情和忠诚度的用户,他们很容易转而投向使用竞争者的产品或服务。
03 批评者是那些明显对企业的产品或服务不满意的那部分用户
相较于其他的指标,NPS 询问的是意愿而不是情感,对用户来说更容易回答,且直接反应了客户对企业的忠诚度和购买意愿,在一定程度上可以看到企业当前和未来一段时间的发展趋势和持续盈利能力。
02 CES(Customer Effort Score 用户费力度)
CES 指的是你的产品或服务,会需要用户花费多少力气才能满足自身需求。
根据 Oracle 的一项研究,82%的人把他们的购买经历描述为 “花费太多的努力”,CES背后的理论就是,应该想办法减少客户为了解决问题而付出的努力。 CES可以帮助你找出可优化的方向,更容易理解在哪里进行改善,较低的费力度也与客户留存直接相关,从而增加客户的生命周期价值。
一般情况下,大多会先利用 CSAT、PSAT 这类的指标来衡量客户对产品或服务的体验反馈,当这套标准的价值到达临界点时,就应该尝试 CES 作为满意度指标的扩充,更充分的评估 Saas 产品的用户体验情况。
03 FCR(First contact resolution 一次性解决率)
作为 Saas 类服务型产品,在获取新客或帮助旧客时,大多是通过客户服务,在许多的互联网公司 Customer Service 团队也是重点投入资源的。而「FCR 一次解决率」即是用来衡量这类客户服务的指标。
FCR 是指客户的服务需求在第一次客户服务中完全解决的占比率。
测量一次性解决率是相当简单的。通过单次交互(电子邮件响应,电话,聊天会话等)解决你收到的客户请求数量,并除以同一时期收到的请求总数。
一次性解决率不仅对 Saas 产品的客户至为重要,也能体现客户服务的绩效和表现,甚至深入到每个员工的层面上。
SUS(System Usability Scale 系统可用性量表)、
QUIS(Questionnaire for User Interface Satisfaction 用户交互满意度)
SUS 应该也算是用来评估单个用户使用某个产品的可用性时,最常见的指标了。SUS 是一种用来量化定性数据的方法,并不仅仅依靠数据统计,需要结合用户具体参与来进行调研,通常作为可用性测试的组成部分。
SUS 通常用来作为改版效果的整体评估,在使用时可以对题目的主词产品进行替换,这些替换对最后的测量结果都没有影响。
而 QUIS 则可以说是 SUS 的进阶版,会更注重具体页面或操作节点的易用性,通常作为 SUS 的延伸使用。比较简单的 QUIS 版本包括 27 个问题,分为5个类别:
Overall Reaction 总体反应、Screen 屏幕、Terminology/System Information 术语/系统信息、Learning 学习、System Capability 系统能力
CSAT(Customer Satisfaction 客户满意度)、PSAT(Purchase Satisfaction 购买满意度)
客户满意度也算是经典的衡量指标之一了,随著商业竞争的激烈,各类型的产品与企业都对客户满意度更加重视,很多时候你所熟悉的电话满意调研、电子邮件调研,甚至直接在消费后的星级评分,其实都是关于这类问题的问券。
PSAT 则是在 CSAT 的基础上,针对消费类型产品进行细化,强调售后使用体验的部分。这类问卷的好处是简单且扩展性强,可大至系统小至任务。
但缺点就是用户容易在中等范围内回答问题,无法给企业带来真实的反馈。而且,即使在客户满意度很高的情况下,依然有可能遭遇留存流失问题。
因为满意度并不直接与客户忠诚度相关联。
其他相关的系统性可用型指标当然还有许多,不过在工作流程中一般来说都较少会使用到,主要还是更具专业性的用研 User Researcher 角色较常使用,包含:
SUMI(Software Usability Measurement Inventory 软件可用性测试)
CSUQ(Computer System questionnaire 计算机系统可用性测试
USE (Usefulness, Satisfaction, and Ease of Use 有用性、满意度、易用性)
01 PSM(Price Sensitivity Measurement 价格敏感度测试)
PSM 衡量目标用户对不同价格的满意及接受程度,了解其认为合适的产品价格,从而得到产品价格的可接受范围。
PSM 考虑了消费者的主观意愿,又兼顾了企业追求最大利益的需求。但测试过程主要基于目标对象的自然反应,没有涉及到任何竞争产品的信息。所以在横向拉通上显得较为薄弱。
也正因为缺少对于竞争产品的分析,所以 PSM 目前主要集中在自成体系的产品链路中,用来配合 Saas 服务或虚拟产品的定价,在实体产品中已经较少被使用。
02 DSR(店舖质量评分)
DSR 算是电子商务类产品中的特殊指标,初期是在在阿里巴巴的电商生态中大规模使用,目前也慢慢变成电商场景的通用指标。
DSR 是指买家在电商平台上购物成功后,针对本次购物给出的评价分数。买家可以评分的项目包括「描述相符、服务态度、发货速度、物流速度」4 项。
DSR 评分计算方法:每项店铺评分取连续 6个月内买家给与该项评分的总和 /连续 6个月内买家给与该项评分的次数,统计最近 180天
DSR 评分直接影响卖家在电商平台中,商品搜索曝光权重的高低,从而影响商品与店舖的排名。因此对于平台类的 UX Design Team 来说,建立类似 DSR 的曝光评分机制,也是间接影响服务提供商的产品体验,进而提升整体平台中的用户体验质量。
03
ZMOT(Zero Moment Of Truth 第零关键时刻)、
FMOT(First Moment Of Truth 第一关键时刻)、
SMOT(Second Moment Of Truth 第二关键时刻)
FMOT & SMOT 是目前新零售场景常会提到的指标模型,但其实在传统的零售行业早就是一个通用的衡量指标,FMOT 指的是消费者在接触到对应商品货价的关键 3~7 秒,所有的商品售价、包装、摆设都是在这关键 3~7 影响消费者拿取商品甚至购买的关键因素。
而 SMOT 则是指这类实体产品,在消费者购买回家后的首次体验,是否符合这个商品的广告语,对于一个品牌来说,即是是否成功地履行了它的承诺还是令人感到失望,这也是消费者是否会成为一个品牌的粉丝,甚至在线上或线下渠道分享的关键(是否很像 NPS 的精神?)。
延伸出的 ZMOT,即是线上线下结合的新零售关键指标,让消费者在「尚未接触」到特定商品前,就透过线上向消费者进行行销,当消费者主动进行相似活动、搜索时,就能接收到产品的正面讯息来影响消费意向。
本质核心也就是
用户体验的主观评估,大多是偏观察式的方法,也是大家比较耳熟能详的用定性调研法,比如眼动仪、观察法、品牌问卷… etc.。
当然如果要尽可能尝试量化这类 User Attitude 主观评估数据时,前提都是把用户体验理解成两种维度,一种维度是实用性(Pragmatic)偏向常说的可用性,另一种是享乐性(Hedonic)也就是常说的舒适性,享乐性维度还会被拆分成了几种属性,例如 Stimulation和 Identification。
01 UEQ(User Experience Questionnaire 用户体验调查表)
UEQ 是 SAP 开发的一套定量分析用户体验的工具。用户在问卷上表达出他们在使用产品和服务中的感受,印象和态度,然后生成一个包含用户体验数个方面的量化表。包括传统的易用性方面的指标:
Efficiency 高效、Perspicuity 易懂、Dependability 可信任;
也包括三个体验方便的指标:
Attractiveness 吸引度、Stimulation 激励性、Novelty 新鲜度。
02 HQ(Hedonic Quality 享受性质量)、PQ(Pragmatic Quality 实用性质量)& AttrakDiff
HQ 主要是用来消费型产品的情感衡量指标,较常使用消费者对于消费类型产品的评价。而 PQ 则主要是在易用性层面上加入主观因素的评分,如果要针对性地对 HQ & PQ 进行系统性评分,AttrakDiff 则是一个较常使用的工具。
AttrakDiff 包含了 28 项题目,每一项都是一个 7 分制量表,最低分和最高分代表一对具有评价性质的反义词,用户需要根据使用产品过程中的某一方面的体验从低到高进行评分,比如 “混乱的 — — 清晰的”,分数越高,表明产品的某一方面设计得越清晰。
在产品或业务中导入体验数据衡量指标,不是新入行的设计师想像的这么简单。真正的实务过程绝不是将文章中的指标,直接导入自己对接的产品中,每一个数据指标都有其目的,且不同的人即便看到的数据相同,也都会有自己的解读方式。
过于依赖指标,如果不随时依据市场动态与公司策略进行调整,不仅容易因为短期的良好数据忽视了中长期的产品成长,也会慢慢的丧失设计师的感性创意能力。
所以,清楚的认知到哪个指标可以帮助我进行什么样的设计策略。才是真正的使用方式。千万别让设计师变成动作导向的工作职位,