背景

试着对豆瓣读书详情页的推荐模块——“喜欢读XXX的人也喜欢”，做一个阶段性调研

第一步：找到理想态

定义豆瓣推荐的理想态，并用数字化的指标来衡量

1.1定义理想态

豆瓣读书，本质上是一个知识图谱信息库，以发散性的结构把各种书籍组织起来，主要的目标是用来描述包括实体书籍与电子书内，存在的各种实体和概念，以及它们之间的关联关系。而“喜欢读"XX"的人也喜欢... ”这个推荐模块的理想态是，推荐相关联主题且用户感兴趣的书籍。

1.2核心指标拆解

基于对理想太的定义，如何描述用户感兴趣的程度呢？可以根据用户对于对接结果的后续行为路径进行分析判断。

指标描述
点击进入推荐书籍详情页，浏览时间长，且在页面进行了“正向”的交互操作。各个交互操作可根据感兴趣程度划分为：
a类：想读；加入购书单；添加到豆列；推荐；分享；如果触发了这几个交互操作，说明所推荐的书籍用户是很感兴趣的。
b类：在读；读过；评价；发表短评；撰写书评。如果触发了这几个交互操作，说明所推荐的书籍是用户曾经读过或者正在读的，虽然此次推荐不会产生一个新读者，但找到了一个感兴趣的老读者。
c类：查看内容简介；查看作者简介；查看目录；查看试读；阅读评论；如果触发了这几个交互操作，说明所推荐的书籍是能引起用户一定的兴趣。
因此，对于推荐内容产生兴趣的强度具体描述为：
很适合：点击进入推荐书籍详情，并触发了a类，b类的交互操作，停留时间长。
适合：点击进入推荐书籍详情页，并触发了c类交互操作，停留时间长。
一般：点击进入推荐书籍详情页，并没有触发a，b，c三类交互操作，停留时间不长。
不适合：没有点击进入推荐书籍详情页。

1.3衡量指标

打开率：
1）推荐书籍点开uv/页面总uv，可直观表达该推荐书籍的页面转化情况。
2）推荐书籍打开率求和平均，可横向对比所有推荐书籍的转化情况，可以重点观察过高或过低的异常值。
交互触发：分别观察3类交互的触发比例。a类交互的权重最大，b类交互次之，c类交互最低。
可量化分值：
1）通过推荐进入的用户对书籍的评分分布情况，基于理想态的定义，这个分值可以从侧面反映推荐的用户感兴趣程度。
2）想读-在读-读过的比例以及转化，能从侧面反映用户的感兴趣程度。

1.4结论

豆瓣的推荐策略黑盒部分暂时没法监控其表现，对于打开率，交互触发，没法直接获取数据。因此我将采用抽样分析的方法，选取5本书，比对推荐的结果，找出一些推荐不合理的case，并写出不合理的原因。

第二步：抽样分析

对豆瓣推荐结果做抽样分析，找出推荐不合理的case，并写出不合理的原因

2.1数据标注

2.2推荐原因

概括出9个推荐的原因，在5本的推荐书籍中，通过标注与统计，汇总如下：

基于标签，同类型，同作者同出版社是推荐的主要考虑条件。

2.3不合理的地方

以收集到的数据样本来看，不合理的地方主要是同作者同出版社的推荐太多，以及相关性太弱。而书籍之间的相关性，主要体现在标签和豆列上。为此，我收集了运营之光及其推荐系列书籍的标签以及豆列命中情况，如下图：

可见，大部分推荐书籍，虽然是存在与《运营之光》重合的标签，但是重合度偏低。

第三步：优先级判断

汇总所有问题，综合影响面、问题可解决程度和解决成本确定优先级，作为接下来的项目计划

3.1问题汇总

汇总推荐中存在的问题，大概分为两类，如下：

【深度】豆瓣读书推荐策略的阶段性调研

背景