《深度学习推荐系统》(1/9)

第一章:互联网的增长引擎——推荐系统

1.1为什么推荐系统是互联网的增长引擎

如果公司广告点击率增长1%,就能增长成千上万的利润;

1.1.1 推荐系统的作用和意义

可以从用户和公司两个维度来阐释这个问题,
用户:推荐系统解决在 “信息过载” 的情况下,用户如何高效获得感兴趣信息的问题。从用户需求层面看,推荐系统是在用户需求并不十分明确的情况下进行信息的过滤。
公司:推荐系统解决产品能够最大限度地 吸引用户、留存用户、增加用户黏性、提高用户转化率 的问题,从而达到公司商业目标连续增长的目的。设计推荐系统的最终目标是达成公司的商业目标、增加公司收益!不同类型的公司需求不同。

1.1.2 推荐系统与YouTube的观看时长增长

文提到,推荐系统的“终极”优化目标应包括两个维度:一个维度是用户体验的优化;另一个维度是满足公司的商业利益。
YouTube优化用户体验的结果就是 用户观看时长的增加;同时,因为他是以广告为主要收入,其广告的曝光也与用户观看时长成正比,所以YouTube在用户体验和公司利益在 “观看时长” 这一点达成了一致;
事实上,YouTube的工程师在一篇著名的工程论文《 Deep Neural Networks for YouTube Recommenders》中,非常明确地提出了将观看时长作为优化目标的建模方法。其大致推荐流程是:先通过构建深度学习模型,预测用户观看某候选视频的时长,再按照预测时长进行候选视频的排序,形成最终的推荐列表。
《深度学习推荐系统》(1/9)_第1张图片

1.1.3 推荐系统与电商网站的收入增长

如果说推荐系统在实现YouTube商业目标的过程中起的作用相对间接,那么它在电商平台上则直接驱动了公司收入的增长。因为推荐系统为用户推荐的商品是否合适,直接影响了用户的购买转化率。
2019年天猫“双11”的成交额是2684亿元。这背后的一切是由以提高转化率、点击率为核心的推荐算法驱动的。假设通过推荐系统的某项改进,将平台整体的转化率提升了 1%,那么在2684亿元成交额的基础上,增加的成交额将达到26.84亿元(2684×1%)。
推荐系统几乎成了驱动互联网所有应用领域的核心技术系统,当之无愧地成为当今助推互联网增长的强劲引擎。
前面主要就是在说,推荐系统在工业界的应用比较成熟且产生了巨大的收益!!

1.2 推荐系统的架构,

(1)企业核心需求是“增长”;
(2)用户痛点是在信息过载的情况下高效的获得感兴趣的信息;
推荐系统要处理的是“人”和“信息”的关系,这里的“信息”,在商品推荐中指的是 “商品信息”,在视频推荐中指的是“视频信息”,在新闻推荐中指的是“新闻信息”,简而言之,可统称为“物品信息”。从“人”的角度出发,为了更可靠地推测出“人”的兴趣点,推荐系统希望利用大量与“人”相关的信息,包括历史行为、人口属性、关系网络等,这些可统称为 “用户信息”
实际工程实践场景下,用户的最终选择一般会受时间、地点、用户的状态等一系列环境信息的影响,可称为“场景信息”或 “上下文信息”

1.2.1 推荐系统的逻辑框架

对于用户U(user),在特定场景C(context)下,针对海量的“物品”信息,构建一个函数 f ( U , I , C ) f(U,I,C) fUIC,预测用户对特定候选物品 I (item)的喜好程度,再根据喜好程度对所有候选物品进行排序,生成推荐列表的问题。
《深度学习推荐系统》(1/9)_第2张图片

1.2.2 推荐系统的技术架构

在上述的图中,工程师需要着重处理下面的两个问题:
(1)数据和信息相关的问题,即“用户信息”“物品信息”“场景信息”分别是什么?如何存储、更新和处理?
(2)推荐系统算法和模型相关的问题,即推荐模型如何训练、如何预测、如何达成更好的推荐效果?
可以将这两类问题分为两个部分:
①“数据和信息”部分逐渐发展为推荐系统中融合了数据离线批处理实时流处理的数据流框架;
②“算法和模型”部分则进一步细化为推荐系统中集训练(training)评估(evaluation)部署(deployment)线上推断(online inference) 为一体的模型框架。
技术架构图如下:

《深度学习推荐系统》(1/9)_第3张图片

1.2.3 推荐系统的数据部分

推荐系统的数据部分(米黄色部分所示)主要负责“用户”“物品”“场景”的信息收集与处理。
将负责数据收集与处理的三种平台按照实时性的强弱排序,依次为“客户端及服务器端实时数据处理”“流处理平台准实时数据处理”“大数据平台离线数据处理”。在实时性由强到弱递减的同时,三种平台的海量数据处理能力则由弱到强。因此,一个成熟的推荐系统的数据流系统会将三者取长补短,配合使用。
然后经过特征工程处理,处理成适合推荐算法训练的数据形式;

1.2.4 推荐系统的模型部分

推荐系统的“模型部分”是推荐系统的主体(浅蓝色部分所示)。模型的结构一般由“召回层”“排序层”“补充策略与算法层”组成。
召回:从海量物品中找到可能感兴趣的物品;
排序:在召回的物品中进行排序;
补充策略与算法层:对排序进行调整,结合一些策略和客户需求,最终形成用户可见的推荐列表;
离线训练:离线训练的特点是可以利用全量样本和特征,使模型逼近全局最优点;
在线更新:可以准实时地“消化”新的数据样本,更快地反映新的数据变化趋势,满足模型实时性的需求。
为了评估推荐模型的效果,方便模型的迭代优化,推荐系统的模型部分提供了“离线评估”和“线上A/B测试”等多种评估模块,用得出的线下和线上评估指标,指导下一步的模型迭代优化。
“排序层”是学术界研究的重点!
我的理解是利用大数据框架处理数据,然后喂给推荐算法训练部署!!

深度学习对推荐系统的革命性贡献

深度学习对推荐系统的革命性贡献在于对推荐模型部分的改进。与传统的推荐模型相比,深度学习模型对数据模式的拟合能力和对特征组合的挖掘能力更强。此外,深度学习模型结构的灵活性,使其能够根据不同推荐场景调整模型,使之与特定业务数据“完美”契合。
与此同时,深度学习对海量训练数据及数据实时性的要求,也对推荐系统的数据流部分提出了新的挑战。如何尽量做到海量数据的实时处理、特征的实时提取,线上模型服务过程的数据实时获取,是深度学习推荐系统数据部分需要攻克的难题。

1.3 本书的整体结构

本书从上述的架构图展开,会依次介绍推荐系统的技术细节和工程实现,共九章。
第1章 互联网的增长引擎——推荐系统
介绍推荐系统的基础知识,在互联网中的地位和作用;介绍推荐系统的主要技术架构,使读者对推荐系统有宏观的认识,从整体到部分地展开本书的内容。
第2章 前深度学习时代——推荐系统的进化之路
介绍前深度学习时代推荐模型的演变历史,并介绍与推荐模型相关的基础机器学习知识,为深度学习推荐系统的学习夯实基础。
第3章 浪潮之巅——深度学习在推荐系统中的应用
介绍业界主流的深度学习推荐模型结构,以及不同模型之间的演化关系。希望读者能够在掌握深度学习推荐系统主要技术途径的同时,建立起改进推荐模型的思路和技术直觉。
第4章 Embedding技术在推荐系统中的应用
重点介绍深度学习的核心技术——Embedding 技术在推荐系统中的应用,其中包括主流Embedding技术的发展过程和技术细节,及其实践和应用。
第5章 多角度审视推荐系统
如果说深度学习推荐模型是推荐系统的核心,那么本章将从核心之外的角度重新审视推荐系统,内容覆盖推荐系统的不同技术模块及优化思路。其中包括特征工程、召回层策略、推荐系统实时性、优化目标、业务理解、冷启动、“探索与利用”等多个重要的推荐系统话题。
第6章 深度学习推荐系统的工程实现
介绍深度学习推荐系统的工程实现方法和主要技术平台。包括数据处理平台、离线训练平台、线上部署和预估方法等三大部分内容。
第7章 推荐系统的评估
介绍推荐系统评估的主要指标和方法。建立从传统离线评估、离线仿真评估方法,到快速线上评估测试方法,最终到线上A/B测试评估的多层推荐系统评估体系。
第8章 深度学习推荐系统的前沿实践
介绍业界前沿推荐系统的技术框架和模型细节。主要包括YouTube、Airbnb、Facebook、阿里巴巴等业界巨头的推荐系统的前沿实践。
第9章 构建属于你的推荐系统知识框架
汇总与本书相关的推荐系统知识,介绍推荐工程师应具备的主要技能点和思维方法。

你可能感兴趣的:(深度学习,人工智能,推荐算法)