企业级机器学习 Pipline - 召回模型

企业级机器学习 Pipline - 召回模型


part0
书接上文,我们介绍了log数据处理样本处理特征处理,接下来我们开始介绍 模型训练 相关的内容。这里的模型通常就是指机器学习模型。

在一个成熟的推荐系统里,我们的机器学习模型一般会作用于2个模块:召回与排序。在排序模块有粗排序,精排,重排等阶段的区分,在这里暂不展开叙述。在召回模块,很多公司一般都会有多路算法召回,比较经典的有双塔召回,协同过滤召回等,在某些业务也会使用基于统计策略的热度召回,分模块召回等。


1.初步介绍

召回,顾名思义就是说从大量的候选集(广告或自然量候选集)初步选择一些用户潜在可能感兴趣的item集候选集,在下一步里进入排序模型。所以召回的这个集合量级一般不会很大,通常都在1K以内。召回模型通常面对的是整个item 集合,所以我们要求召回模型既要尽可能多的保留相关性高的结果,又要保证速度,召回结果的好坏对整个推荐结果有着至关重要的影响。使用 基于深度学习推荐模型+高性能的近似检索算法可以说是现在业界通用的选择,这套方案也被称为 DeepMatch。
注意:很多候选集比较小的场景,例如很多公司某个app位置的广告候选集,本来全量候选集可能也就几百,也就没必要使用召回模块了,直接把全量item丢到排序模块就ok。


2.样本选择

模型是对数据集合分布的学习,所以采用什么样的数据来训练模型是至关重要的。在业界有一个通用的认知是࿱

你可能感兴趣的:(人工智能,深度学习)