3.2策略PM如何跟进开发评估

一、策略类项目的流程

课程流程

二、为什么要做多轮评估?

课程截图

三、评估类型

课程截图

四、策略质量评估

策略质量评估用来说明策略本身的质量

输出结论:该策略的召回率和准确率

1)召回率=希望被覆盖的案例中,策略实际覆盖到的案例/理想态下希望策略覆盖到的案例

代表策略对问题的解决程度

2)准确率=策略覆盖的案例中,真正希望被覆盖到的/策略覆盖的所有案例

代表策略有没有带来其他伤害

(我们希望两者越高越好!)

例子:

课程截图

以上例子中,

召回率=6/10=60%

准确率=6/9=66.7%

策略质量评估方法:

课程截图

案例:性别识别策略

在所有用户中随机抽取1k人,通过策略识别,其中368个人为男生。对1k个人进行人工标注,共标注385个男生、78个无法识别,剩余女生。其中策略识别为男生的对象中有314个真的为男生、22个是人工标注的无法识别,策略识别成女生的里面还有71个是男生,那么:

召回率=识别出的男生314/所有男生385=81.6%

准确率=(真正的男生314+无法识别22)/策略识别的所有男生368=91.3%

(注意这里的无法识别问题)


五、Diff评估

在一个复杂的策略体系中,各种策略会相互作用,共同影响最终效果,比如搜索、推荐。

在迭代其中某条策略时,除了评估策略本身的召回和准确,还要关注在策略变化前后,用户角度直接感受到的产品效果变化是怎样的。

输出结论:diff影响面、good:same:bad

1)diff影响面:策略调整后,用户感知发生变化的比例,通常小于策略影响面

2)good:same:bad(简称g:s:b):随机抽样有变化的case,站在用户体验角度评估效果变好了、无变化、还是变差了。

例子:

课程截图

Diff评估方法:

课程截图

案例:性别识别策略

在所有用户中随机抽取1k个人,新旧策略分别识别后,有210个结果不同。98个新策略男、旧策略女,112个新策略女、旧策略男。

对这210个结果进行人工标注,其中135个是新策略对、旧策略错,24个新策略错、旧策略对,还有51个人工判断不出性别,认为新旧策略识别是男是女都可以、新旧变化为same,那么:

diff影响面:新旧结果不同的210/所有样本1000=21%

G:S:B=135:51:24


六、策略评估三步方法论

策略PM通用方法论

课程截图

第一步:基于理想态,找到问题

策略召回率理想是100%,目前只有60%,剩余40%没被策略召回

策略diff评估中占比10%的bad case

第二步:汇总和抽象问题,提出解决问题思路or方向

40%未召回case主要是3类问题,分别应该通过xxx思路解决

目前占比10%的bad case主要是xxx原因,需要解决

第三步:给出结论

问题依然很严重,需要继续优化or问题可接受、策略可以上线了

老问题:以投入产出比为主要考虑因素,通常以项目预期为终点

新问题:通常容忍度较低。以pm认为的不可忍受的体验为标准


七、简单策略评估循环的案例


课程截图


课程截图


课程截图

项目目标:准确识别出图中的蓝色点

第一轮评估:

第一步:基于理想态,找到问题

绿圈里的蓝点没有被曲线覆盖

错误覆盖了红圈里的两个点

第二步:汇总和抽象问题,提出解决问题or思路

1、2的点在曲线上方,3在下方,至少是2次函数

1和2的斜率不一样,可能是3次或更复杂函数

第三步:给出结论

目前方案只能勉强覆盖三个点、召回率不到30%;

准确率也一般,召回了两个绿点,准确率只有60%。

还需要继续优化。

课程截图
课程截图

第二轮评估:

第一步:基于理想态,找到问题

圈2里还有一个点没有召回

第二步:汇总和抽象问题,提出解决问题or思路

之前提过的呀,1和2的斜率不一样,可能是3次或更复杂函数,用2次函数搞不定的

第三步:给出结论

其实目前召回率已经90%+了,准确也非常好。可以上线了。

不过如果成本可控的话,再努力下最后一个点?


第三轮评估:


课程截图


八、总结

开发过程中的评估是策略PM的必经之路,是PM和RD通过深度配合在黑暗中找到道路的重要环节。

召回率、准确率、diff影响面、g:s:b四个指标是策略评估的主心骨,所有评估都是围绕着他们发现和抽象问题的过程。



以上为三节课策略产品课程个人学习笔记。

你可能感兴趣的:(3.2策略PM如何跟进开发评估)