007 兴趣探索？半瞎猫碰上死耗子

承接上文内容推荐：探索与信息茧房，本篇来聊一聊用户兴趣探索（Exploration）的事情。基于个体经验，一家之言仅供参考。

在推荐系统中，内容同用户之间存在一个点击预估分数（归一化到0.0-1.0），分数越高，代表点击概率越高。
将无Dislike历史且点击预估分数低的内容推荐给用户，即为一次探索过程。

为了知道用户喜欢什么新的领域，就势必要将他可能不喜欢的内容展示给他。
展示的不感兴趣内容变多了，点击率和时长就下来了，产品留存和广告收入也就差了。
正因如此，兴趣探索是一个尝试性的、有损的过程。

直观能够想到的探索方式，是完全随机：在没有任何先验条件下，将一些点击预估低的内容分发给用户，这种方式简单直接，但太过粗犷的过程无疑于瞎猫碰死耗子。

产品所做的，就是试图让这只机器猫不那么瞎。

整体上，探索就是一个P(Category|Condition)由高到低尝试的过程。即，在个体用户的已知条件基础上，基于统计获知这类用户最可能感兴趣的类目，按照概率高低依次推荐。

全新的用户至少有机型信息（App信息、LBS信息等），按照同机型用户最感兴趣的内容类目依次探索。极端Case如美图手机，用户主要是女性，可能对娱乐八卦、影视剧、美妆等类目兴趣程度更高。

点击了一些类目的用户，有了基础的类目偏好信息。除了在类目内重复由高概率到低概率探索子类目的过程外，还可以基于类目和类目间的转移概率关系进行类目级的探索。
如：喜欢电视剧的用户，子类目中概率由高到低是：国产剧、抗战剧、日韩剧等，那么子类目的探索就按照此顺序进行；喜欢电视剧的用户，有70%喜欢美食，那么类目间的探索就优先探索美食类目。

在这一过程中，类目的划分是一个主观经验的事情，故更多的依赖专家的系统设定。类目的识别则是一个人工标注-->机器学习的过程，有赖于机器识别分类的准确性。

在上面描述的过程里，有两个比较典型的坑值得注意。

一、高热内容的偏差。苹果发售、美国大选等高热内容，其热度已经足以跨越类别的典型受众，用户点击是不能够代表用户对科技或政治类目感兴趣的。

二、易反感内容的探索。上文中，我们一直提及的是用户喜欢类目A后喜欢类目B的概率，没有考虑的是喜欢类目A后厌恶类目B的概率。
比如蛇、动物厮杀、暴饮暴食等内容属于易反感内容。不喜欢体育的用户看到NBA顶多是划过去，不喜欢蛇的用户看到蛇可能就直接卸载了。对于易反感内容的探索要更加审慎和克制。

除了直接尝试分发用户未知兴趣的内容外，产品层也可以设计一些非阻断式的用户交互，让用户可以选择兴趣点。只是依据经验而言，用户往往更能准确的标到不要什么，而不容易表达要什么，故效率并不是太高。

针对新老用户设计不同的兴趣探索频次，对于低频用户以更强的产品交互诱导，尽可能发掘可参考的用户信息等等，这些都是能够提升兴趣探索效率的思路。

产品多想一点，损失就能小一点：一只半瞎的猫，终归比瞎猫有更好的收获。

007 兴趣探索？半瞎猫碰上死耗子

你可能感兴趣的:(007 兴趣探索？半瞎猫碰上死耗子)