一寒惊鸿

【总结】淘宝搜索/推荐系统背后深度强化学习与自适应在线学习的实践之路

搜索算法研究与实践

1.1背景

淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应，而淘宝的用户不仅数量巨大，其行为特点以及对商品的偏好也具有丰富性和多样性。因此，要让搜索引擎对不同特点的用户作出针对性的排序，并以此带动搜索引导的成交提升，是一个极具挑战性的问题。传统的Learning to Rank（LTR）方法主要是在商品维度进行学习，根据商品的点击、成交数据构造学习样本，回归出排序权重。LTR学习的是当前线上已经展示出来商品排序的现象，对已出现的结果集合最好的排序效果，受到了本身排序策略的影响，我们有大量的样本是不可见的，所以LTR模型从某种意义上说是解释了过去现象，并不一定真正全局最优的。针对这个问题，有两类的方法，其中一类尝试在离线训练中解决online和offline不一致的问题，衍生出Counterfactural Machine Learning的领域。另外一类就是在线trial-and-error进行学习，如Bandit Learning和Reinforcement Learning。

在之前我们尝试了用多臂老虎机模型（Multi-Armed Bandit，MAB）来根据用户反馈学习排序策略，结合exploration与exploitation，收到了较好的效果。

后来更进一步，在原来的基础上引入状态的概念，用马尔可夫决策过程对商品搜索排序问题进行建模，并尝试用深度强化学习的方法来对搜索引擎的排序策略进行实时调控。

实际上，如果把搜索引擎看作智能体（Agent）、把用户看做环境（Environment），则商品的搜索问题可以被视为典型的顺序决策问题。Agent每一次排序策略的选择可以看成一次试错（Trial-and-Error），把用户的反馈，点击成交等作为从环境获得的奖赏。在这种反复不断地试错过程中，Agent将逐步学习到最优的排序策略，最大化累计奖赏。而这种在与环境交互的过程中进行试错的学习，正是强化学习（Reinforcement Learning，RL）的根本思想。

本文接下来的内容将对具体的方案进行详细介绍。

1.2 问题建模

马尔可夫决策过程（Markov Decision Process，MDP）是强化学习的最基本理论模型。一般地，MDP可以由一个四元组表示：（1）S为状态空间（State Space）；（2）A为动作空间（Action Space）；（3）为奖赏函数；（4）为环境状态转移函数（State Transition Function）

我们的最终目标是用强化学习进行商品搜索排序策略的学习，在实现的过程中，我们一步一步完成了从简单问题到复杂问题的过渡，包括：

1. 基于值表（Tabular）强化学习方法的商品价格档T变换控制（离散状态、离散动作问题）；

2. 基于值表（Tabular）强化学习方法的商品展示比例控制（离散状态、离散动作问题）；

3. 基于强化学习值函数估计（Value Function Approximation）的商品排序策略调控（连续状态、离散动作问题）；

4.基于强化学习策略估计（Policy Approximation）的商品排序策略调控（连续状态、连续动作问题）。

1.2.1状态定义

假设用户在搜索的过程中倾向于点击他感兴趣的商品，并且较少点击他不感兴趣的商品。基于这个假设，我们将用户的历史点击行为作为抽取状态特征的数据来源。具体地，在每一个PV请求发生时，我们把用户在最近一段时间内点击的商品的特征作为当前Agent感知到的状态。当然，在不同的问题中，状态的表示方法会有所不同。例如，在值表强化学习方法中，状态为可枚举的离散变量；在值函数估计和策略估计方法中，状态则表示为特征向量。

1.2.2 奖赏函数定义

Agent给出商品排序，用户根据排序的结果进行的浏览、商品点击或购买等行为都可以看成对Agent的排序策略的直接反馈。在第四章中，我们将利用奖赏塑形（Reward Shaping）方法对奖赏函数的表达进行丰富，提高不同排序策略在反馈信号上的区分度。

1.3算法设计

由于篇幅有限，我们仅对强化学习在搜索中的使用给出2个实例。

1. Tabular方法

我们在排序中要引入价格的因素来影响最终展示的价格，若以GMV为目标，则简单可以表示为cvr*price，同时我们又想控制价格的作用程度，所以目标稍作修改：，加入一个变量t来控制价格的影响。这个t值的范围很有限，可以用MAB或CMAB来找到最优解。

我们用强化学习的视角来对这个问题进行抽象，把用户前2次点击的商品价格档位（0~7，从低到高）作为状态。这个状态表示的是用户之前点击商品的价格偏好，如果两次都点击1档商品，说明用户偏好低价商品，很有可能接下来用户只对低价商品感兴趣，如果这个状态转移分布是稳定的（stationary），那么一个统计模型可以就可以描述这种规律。而实际上，用户的行为是受我们排序模型的影响的，用户点击1档商品也可能是因为当前的排序策略只给用户展示了1档商品，并不一定是用户的本质需求。在接下来用户的搜索过程中，我们可以有的选择1是只出1档商品让用户的需求快速收敛，选择2是投放一些附近档位的商品供用户选择，如果用户选择了其他档位的商品，进行了状态的转移，就可能找到一个更好的路径，最终的收益和我们所有的过程中的投放策略都相关。从每个时间点上看，策略可能不是最优的，但全局上可能是最优的。

具体地，当用户进行了搜索后，根据用户的状态s，和Q表（下图）进行一个epsilon-greedy的投放，选择一个动作a（上文中的价格指数t），执行这个a的排序结果展示给用户，并记录下这次的状态s与动作a，以及用户对这次搜索结果的反馈r，从用户的点击与否的反馈，再对Q表进行更新。

根据Q-Learning公式进行权重更新。

接下来，由于用户点击了某商品，他的状态发生了转移，就找到对应的状态继续进行epsilon-greedy的投放。再继续进行学习，直到收敛。

2. DDPG方法

例如一个线性排序模型，

，x是m维的特征向量，我们学习每个用户状态的最优参数w，即

这种假设需要使用策略估计的方法。策略估计（Policy Approximation）方法是解决连续状态/动作空间问题的有效方法之一。其主要思想是用参数化的函数对策略进行表达，通过优化参数来完成策略的学习。通常，这种参数化的策略函数被称为Actor。假设我们一共调控（）个维度的排序权重，对于任意状态，Actor对应的输出为

其中，为Actor的参数，对于任意（），是关于状态的一个函数，代表第维的排序权重分，其形式可根据实际情况而定，我们的方案采用深度神经网络作为Actor函数。这种方式在不同的状态之间可以通过神经网络来共享一些参数权重。

强化学习的目标是最大化任意状态上的长期累积奖赏，根据策略梯度定理， Actor函数的参数的更新公式可以写为

其中，为Actor神经网络在状态上关于的梯度，为状态动作对（State-Action Pair）的长期累积奖赏。因为和都是连续的数值，我们采用深度神经网络作为估计器对进行学习，具体的学习算法可参考深度Q学习算法DQN [1]。

1.4 奖赏塑型

我们最初采用的奖赏函数仅基于用户在每一个PV中的点击、成交行为反馈来构建。然而，在淘宝主搜这种大规模应用的场景中，我们较难在短时间内观察到不同的排序策略在点击和成交这样的宏观指标上的差别。因此，长期累积奖赏关于不同学习参数的梯度并无明显区别，导致学习算法收敛缓慢。因此，我们有必要在奖赏函数中引入更多的信息，增大不同动作的区分度。

在进行强化学习方案的同时，我们用Pointwise LTR进行了一些对比实验，发现Pointwise LTR这种直接在商品特征上进行学习的方式在求取策略梯度的时候，能够将不同排序策略更为显著地区分开。参照这个思路，我们将商品的一些属性特征加入到奖赏函数的定义中，通过奖赏塑形（Reward Shaping）的方法[2, 3]丰富其包含的信息量。

奖赏塑形的思想是在原有的奖赏函数中引入一些先验的知识，加速强化学习算法的收敛。简单地，我们可以将“在状态上选择动作，并转移到状态”的奖赏值定义为

其中，为原始定义的奖赏函数，为包含先验知识的函数，也被称为势函数（Potential Function）。我们可以把势函数理解学习过程中的子目标（Local Objective）。根据上面的讨论，我们把每个状态对应PV的商品信息纳入Reward的定义中，将势函数定义为

其中，为状态对应PV中商品的个数，表示的第个商品，为Agent在状态执行的动作，表示排序策略为时商品的点击（或成交）的似然（Likelihood）。因此，也就表示在状态上执行动作时，PV中所有商品能够被点击（或购买）的似然概率之和。

1.5 实验效果

在双11期间，我们在无线搜索排序的21和22号桶对强化学习方案进行了测试。下图展示了我们的算法在学习的过程中的误差（RNEU）变化情况，截取的时间范围为11月10日18:00到11月11日8:00。

可以看到，从11月10日18:00启动开始，每个桶上的RNEU开始逐渐下降。到当天20:00之后，下降趋势变得比较缓和，说明学习算法在逐步往最优策略进行逼近。但过了11月11日0点之后，每个桶对应的RNEU指标都出现了陡然上升的情况，这是因为0点前后用户的行为发生了急剧变化，导致线上数据分布在0点以后与0点之前产生较大差别。相应地，学习算法获取到新的reward信号之后，也会做出适应性地调整。

推荐算法研究与实践

2.1背景介绍

双11主会场是一个很复杂的推荐场景。从推荐的业务形式上看，双11主会场分为三层：分别是楼层、坑位以及具体素材图的推荐。2016年的双11主会场在整体的组织形式上与去年的双11主会场类似，但具体业务的构成及组织有较大的不同。

首先，可推荐的楼层多于十层，我们需从中挑选数层进行展示，并有可能根据时间段和业务的需求进行调整。因此，展现形式的多变对模型的日志特征学习造成了一定的干扰。其次，坑位的构成分为三种会场入口：第一行是行业会场，第二行对应店铺会场，第三行对应是标签会场。最后，在楼层以及坑位都确定之后，我们需要每个的坑位入口上选择具体的素材。2016年双11主会场的素材有两种不同的展现形式，分别是双素材图以及单素材图。双素材图模式能提升用户的点击欲望，增强视觉感官冲击力，但也会对用户的真实点击行为数据造成一定程度的干扰或噪声，甚至对排序的模型产生比较大的偏置。

由于2016年双11首图宝贝素材总量在百万张且坑位数上百，我们会根据楼层的次序对参与打分的候选集进行配额，根据楼层的实时点击率分配楼层的打分量。在各类业务以及填坑逻辑及调控流量的限制下，推荐结果并不一定能按照原有的打分高低进行展示。因此，我们需要考虑打分宝贝数与工程实现上的平衡关系。由于主会场的QPS高达数万，一味地增大打分量是不可取的。为了解决这一问题，我们在初选的match召回方式上做了大量的努力，如提升用户的多重兴趣覆盖、增大有效的候选宝贝。

根据在2015双11的一些经验并结合2016年双11前期的系统压测情况，在2016年双11主会场我们采用了素材模型驱动的模式。从个性化推荐算法的角度来说，我们在2016年双11主会场尝试了多种新颖的排序模型，并做了严格的效果对比。具体的排序模型涉及LR、FTRL、GBDT+FTRL融合模型以及WIDE&DEEP模型，同时为了克服data drift的波动在日常的首图场景还尝试了Adaptive-Online-Learning的算法，以及尝试了强化学习的思路。在后面的章节，会从算法层面逐一阐释。

2.2算法模型

2.2.1 GBDT+FTRL模型
采用非线性模型学习intermediate feature，作为ID feature和cross feature的补充，最终输入到线性model来做CTR预估，最早是由Facebook提出的，思路大致如下：采用raw features（一般是统计类特征）训练出GBDT模型，获得的所有树的所有叶子节点就是它能够generate出来的特征空间，当每个样本点经过GBDT模型的每一个树时，会落到一个叶子节点，即产生了一个中间特征，所有这些中间特征会配合其他ID类特征以及人肉交叉的特征一起输入到LR模型来做CTR预估。显然，GBDT模型很擅长发掘有区分度的特征，而从根到叶子节点的每一条路径体现了特征组合。对比手工的离散化和特征交叉，模型显然更擅长挖掘出复杂模式，获得更好的效果。我们通过GBDT来做特征挖掘，并最终与FTRL模型融合的方案如下图：

输入到GBDT的特征非常关键，这些特征决定了最终产出的中间特征是否有效。我们有一套灵活的特征生成流程，可以方便做各种维度的特征提取以及交叉统计。GBDT+FTRL中主要用到的特征包含两部分：第一部分是用户/宝贝ID与对方泛化维度交叉统计的特征，包含各种基础行为的次数以及CTR等。

第二部分是来自于match阶段的一些连续类特征。推荐的match阶段负责粗选出一部分跟用户相关的content，该过程中会有多个模型分出现，例如做trigger selection的model分， content的最终match score等，这些分数来自于不同离线model，最终作为feature在online rank model中，能获得非常好的ensemble效果。

2.2.2 Wide & Deep Learning模型

借鉴Google今年在深度学习领域的论文《Wide & Deep Learning for Recommender Systems》中所提到的Wide & Deep Learning框架（以下简称为WDL），并将其结合基于搜索事业部自研的机器学习平台的在线学习技术，我们研发了一套适用于推荐业务的WDL模型算法。下文将会对这一技术进行详述。

WDL模型的原理框架如上图所示：它将深度神经网络(DNN)网络和逻辑回归(Logistic Regression)模型并置在同一个网络中，并且将离散型特征(Categorical Feature)和连续型特征(Continuous Feature)有机地结合在一起。WDL模型主要由wide侧和deep侧组成。Wide侧通过特征交叉来学习特征间的共现，而deep侧通过将具有泛化能力的离散型特征进行特征嵌入(embedding)，和连续型特征一起作为深度神经网络的输入（可以认为是一种特殊的深度神经网络，在网络的最后一层加入了大量的0/1节点），从理论上来说，我们可以把deep侧看作传统矩阵分解(matrix factorization)的一种泛化实现，值得注意的是特征嵌入的函数是和网络中其他参数通过梯度反向传播共同学习得到。模型的预测值采用如下公式进行计算：

其中，wide侧和deep侧合并在一起计算后验概率P(Y=1|x)；在误差反向传播(Backpropagation)的计算过程中时，我们对两个方向同时进行计算。

2.2.3 Adaptive-Online-Learning（自适应在线学习）
传统的在线学习模型没有一种机制很好的判断模型应该采用的多长时间的日志进行训练，目前业界的在线学习模型也都是通过经验值的方式来进行数据截断，自适应学习(adaptive learning)的最大优势就在于能够通过自我学习的方法适应业务的多变性。其实现原理在于保留下来每一个时刻开始到现在的数据学习到的模型，然后根据有效的评测指标，计算出各个模型的权重信息，并同时捕捉到数据分布快速变化波动的情况下的用户实时兴趣的细微差别，从而融合出一个最优的模型结果。

2.2.4 Reinforcement Learning（强化学习）

相比对每个推荐场景单独进行个性化推荐的策略，基于强化学习框架（Reinforcement Learning）的推荐系统根据全链路的数据进行整合，同时响应多个异构场景的推荐请求。下图中我们对手机淘宝（天猫）客户端的数据/流量通路进行抽象：每个圆圈代表一个独立的手淘场景，E代表用户在该场景随时离开，箭头代表流量可能地流动方向。

基于以上的数据通路图，我们可以很自然地将全链路多场景的推荐任务理解为一个连续的决策问题：作为一个智能决策者（agent），推荐系统需要持续不断地决定应该为用户推荐怎样的内容（比如，商品、店铺、品牌以及活动）。强化学习正是一种对智能决策者进行建模的最佳方式：通过对智能决策者短期状态的变化进行递归式建模，最终引导其渐进式地优化长期目标。

手淘上的推荐场景相当丰富，最具代表性的是一个页面以列表的形式同时推荐多个商品的场景。为了便于读者理解，我们首先介绍单个商品的推荐场景，之后再过渡到多商品的推荐场景。在单商品的推荐场景，a对应的是单个商品。我们的目标是学习在状态s下采取动作a所能获得的累积奖励（的期望值）。我们用Q(s,a)来表示这一期望值。在这种情况下，我们只需要选择一种函数映射关系（如线性函数或神经网络）将s和a所代表的向量映射到标量上对目标函数Q(s,a)进行拟合。

我们把这一定义延伸到典型的多商品推荐场景。由于文章长度有限，我们下面介绍一种最简单的思路，即假设用户是否会点击单商品的决策是独立的。也就是说，假设用户如果喜欢商品A，用户不会因为在同一推荐列表中见到了他更喜欢的商品B而放弃点击商品A。在这一假设下，我们对展示每个商品所获得的累积奖励的计算也是独立的。通过一系列的推导，我们可以得到一个对状态s下商品i能得到的分数f(s,i)的递归定义。

通过等式(7)，我们可以迭代计算对无偏估计值进行求解。实际情况中用户必然会因为推荐商品的组合问题产生更复杂的行为，这样一来必然导致累积奖励独立计算的假设不成立。但以此为本，我们可以推导出基于更复杂假设下的计算累积奖励估计量的递归公式。

【算法入门】LeetCode 239. 滑动窗口最大值：Java与JavaScript双解法详解｜单调队列的精妙运用力扣239题详解：滑动窗口最大值（Java & JavaScript 双语言实现）南北极之间算法算法 leetcode java
题目：官方链接：https://leetcode.cn/problems/sliding-window-maximum/description/?envType=study-plan-v2&envId=top-100-liked参考答案：【新手入门】LeetCode239.滑动窗口最大值：Java&JavaScript双解法详解目录题目描述问题分析解题思路3.1暴力法（不推荐）3.2单调队列法（最
Swift 解 LeetCode 321：拼接两个数组中的最大数，贪心 + 合并全解析
文章目录摘要描述题解答案题解代码分析（Swift实现）题解代码详解maxSubArray——单调栈选最大子序列merge——合并两个数组形成最大数枚举所有组合，找最大拼接示例测试及结果示例1示例2示例3时间复杂度分析空间复杂度分析总结摘要想象你有两组数字，每组都像一个“待拼接的号码牌”。你的目标是——从中选出某几个数字，把它们拼成一个尽可能大的数。听起来是不是有点像拼接手机号，或者在广告里比大小？
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
ThinkPHP 如何在生产环境中配置日志？深山技术宅 PHP 经验数据库 php 后端 ThinkPHP
在ThinkPHP生产环境中配置日志时，需要重点关注稳定性、性能和安全。以下是最佳实践配置方案：生产环境推荐配置(config/log.php)return['default'=>env('log.channel','stack'),'channels'=>[//组合通道（核心配置）'stack'=>['type'=>'stack','channels'=>['daily','error_file
解决 ECharts 组件中多个 ID 重复问题啃火龙果的兔子开发DEMO javascript 开发语言
在封装ECharts组件时，如果多个组件实例使用相同的id="myChart"会导致DOM冲突，ECharts无法正确渲染。以下是几种解决方案：方案1：使用动态ID（推荐）//React示例functionMyChartComponent(){constchartId=useRef(`chart-${Math.random().toString(36).substr(2,9)}`);useEffe
完全禁用缓存构建docekr镜像，使对镜像代码的变更生效 Gq.xxu 缓存 java eureka
✅正确解决方案方法一：分步执行（推荐）先禁用缓存构建镜像，再启动服务：先构建镜像（禁用缓存）dockercompose-plangfuse-chinesebuild--no-cache再启动容器dockercompose-plangfuse-chineseup-d方法二：通过up--build隐式构建（无法禁用缓存）若仍需单条命令完成，可用--build触发重新构建，但无法完全禁用缓存（仍可能复用
AI初学者如何对大模型进行微调？——零基础保姆级实战指南
仅需8GB显存，三步完成个人专属大模型训练四步实战：从环境配置到模型发布步骤1：云端环境搭建（10分钟）推荐使用阿里魔塔ModelScope免费GPU资源：#注册后执行环境初始化pip3install--upgradepippip3installbitsandbytes>=0.39.0gitclone--depth1https://github.com/hiyouga/LLaMA-Factory.
java中打印sql,利用JDBC的PrepareStatement打印真实SQL的方法详解 weixin_39878549 java中打印sql
前言本文主要给大家介绍了关于利用JDBC的PrepareStatement打印真实SQL的相关内容，分享出来供大家参考学习，下面来一起看看详细的介绍：我们知道，JDBC的PrepareStatement优点多多，通常都是推荐使用PrepareStatement而不是其基类Statment。PrepareStatement支持?占位符，可以将参数按照类型转自动换为真实的值。既然这一过程是自动的，封装
2024年最新4大典型安全漏洞是怎么来的？如何解决？，【2024网络安全最新学习路线】 2401_84297193 程序员 web安全学习网络
还有兄弟不知道网络安全面试可以提前刷题吗？费时一周整理的160+网络安全面试题，金九银十，做网络安全面试里的显眼包！王岚嵚工程师面试题（附答案），只能帮兄弟们到这儿了！如果你能答对70%，找一个安全工作，问题不大。对于有1-3年工作经验，想要跳槽的朋友来说，也是很好的温习资料！【完整版领取方式在文末！！】93道网络安全面试题内容实在太多，不一一截图了黑客学习资源推荐最后给大家分享一份全套的网络安全
C# 项目卷纸要用清风的 C#c#开发语言
语言基础开发环境与工具框架与库数据库与数据存储项目架构与设计模式前端技术（全栈开发场景）版本控制与协作测试与质量保障部署与运维安全实战项目建议学习资源推荐总结语言基础C#语法：变量、数据类型、控制流（条件语句、循环）、运算符、异常处理（try-catch）等。面向对象编程（OOP）：类与对象、继承、多态、封装、接口、抽象类。高级特性：委托（Delegate）与事件（Event）LINQ（Langu
C# 设计模式——单例模式（Singleton Pattern） Pdtian C#设计模式 c#设计模式单例模式
单例模式（SingletonPattern）是设计模式中最基础但应用最广泛的一种模式，它确保一个类只有一个实例，并提供一个全局访问点。在C#开发中，单例模式常用于管理共享资源、配置管理、日志系统等场景。文章目录一、基础实现：线程不安全的单例二、线程安全实现1.双重检查锁定模式（Double-CheckLocking）2.使用Lazy（推荐方式）三、进阶实现技巧1.防止反射攻击2.处理序列化问题四、
跨境电商：别让系统问题毁掉你的 Prime Day （Amazon）爆款机会！无妄（跨境电商）经验分享 java
凌晨两点，一位亚马逊Prime会员刷着首页的限时Deal，被你精心打造的一款产品吸引。他点击、加入购物车、付款——动作一气呵成。订单提交成功，交易完成。但你的后台系统却未能及时接收到这条订单，或因接口异常、库存未同步而触发了超卖；又或者，物流状态迟迟未更新，导致履约延迟，仓储物流产能缺乏管控，导致大量货物堆积到单一渠道等等，最终影响店铺评分和用户体验。与此同时，你的广告预算早已烧完，却没有带来预期
Git安装避坑指南 tonngw git 开源开源软件
Git安装避坑指南大纲系统环境准备确认操作系统版本（Windows/macOS/Linux）检查系统位数（32位或64位）确保网络环境稳定，避免下载中断下载官方安装包推荐从Git官网（https://git-scm.com/）下载避免第三方来源，防止捆绑软件或恶意程序选择与系统匹配的版本（如Windows用户注意选.exe安装包）Windows用户常见问题安装路径避免中文或特殊字符，建议全英文路径
Git安装避坑指南：新手村通关秘籍
Git安装避坑指南：新手村通关秘籍刚学编程那会儿，Git安装差点让我砸键盘。满心欢喜打开官网下载，结果卡在配置上，命令行死活不认识git命令。看着教程里别人行云流水的操作，自己对着报错信息干瞪眼——这感觉，经历过的人都懂。今天这份避坑指南，就是帮你跳过这些“新手坑”，稳稳装好Git！第一坑：官网迷路，下载错版本坑点描述：直接在搜索引擎搜“Git下载”，排在前面的广告链接可能是“高速下载器”或第三方
操作步骤缩减75%！HarmonyOS近场服务助力轻松交互，精准直达 harmonyos
线下服务场景中，开发者常面临用户触达率低、推荐不精准、转化效果差等问题。传统推送方式依赖用户主动搜索或广告曝光，无法结合实时位置精准匹配需求，导致服务推荐滞后、用户体验不佳。对此，HarmonyOS为开发者准备了一种智能、低门槛、高转化的近场服务解决方案——POI场景及信标设备场景：基于用户实时位置或通过用户手机定位与信标设备联动，智能识别用户场景，并经由小艺建议等入口推荐服务，从而提升用户触达率
推荐使用：Fluid Behavior Tree - 优雅的Unity AI行为树库
推荐使用：FluidBehaviorTree-优雅的UnityAI行为树库fluid-behavior-treeBehaviortreesforUnity3Dprojects.Writtenwithacodedrivenapproachonthebuilderpattern.项目地址:https://gitcode.com/gh_mirrors/fl/fluid-behavior-tree行为树（
【VSCode 插件离线安装包下载方法分享】 Gazer_S 编程工具 AI vscode ide 编辑器
VSCode插件离线安装包下载方法分享背景在使用VSCode或Cursor等编辑器时，有时需要下载插件的离线安装包（.vsix文件）进行手动安装。特别是当网络环境受限或需要在多台机器上安装相同插件时，离线安装包就显得非常有用。本文记录了几种获取VSCode插件离线安装包的实用方法，特别是针对Augment等热门插件的下载技巧。方法一：通过VSCode编辑器内部下载（推荐）这是目前最可靠的方法，因为
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
PyTorch安装总失败？看完这篇保姆级教程，从0到1轻松搞定！喜欢编程就关注我 pytorch 人工智能 python
引言：为什么你装不好PyTorch？“CUDA版本不匹配？pip安装超时？conda环境冲突？”新手安装PyTorch的坑比代码bug还多！这篇博客整合CSDN高赞实战技巧，手把手教你绕过10大安装陷阱，附赠代码级验证指南！一、安装前必看：环境检查清单检查项操作方法Python版本python--version（推荐3.8-3.11）CUDA驱动nvidia-smi（仅NVIDIA显卡需要）con
老码农冒死揭开行业黑幕：如何编写无法维护的代码小詹学 Python 编译器 scipy makefile crm relativelayout
【程序员的那些事注】：这是一篇非常经典的文章，我们以前发过多次。虽然部分内容是针对Java语言，但其他部分对所有编程语言都有参考意义。今天重新推荐给新读者朋友，老朋友也值得重温。编译：我们专栏作者-老码农的自留地英文：RoedyGreen如何编写无法维护的代码让自己稳拿铁饭碗简介永远不要（把自己遇到的问题）归因于（他人的）恶意，这恰恰说明了（你自己的）无能。——拿破仑为了造福大众，在Java编程领
探寻《答案之书》：在随机中寻找生活的指引振华OPPO 人工智能机器学习深度学习强化学习计算机视觉自然语言处理大模型
我强烈推荐4本可以改变命运的经典著作：《寿康宝鉴》在线阅读白话文《欲海回狂》在线阅读白话文《阴律无情》在线阅读白话文《了凡四训》在线阅读白话文在快节奏的现代生活中，人们常常面临各种困惑与抉择。当常规的思考与决策方式无法带来清晰答案时，一本名为《答案之书》的奇书悄然进入大众视野，为许多人提供了别样的思考路径与心灵慰藉。它并非传统意义上有着连贯章节和严密逻辑体系的书籍，而是以独特的互动方式，试图为读者
swift 开发学习与实践
准备工作在appstore中下载Xcode（iOS应用程序的集成开发环境）参考文档：XcodeHelp推荐书籍：《跟着项目学iOS应用开发：基于Swift4》微信读书该书实际上是根据AngelaYu在Udamy上的课程iOS&Swift-TheCompleteiOSAppDevelopmentBootcamp编写查询问题：StackOverflow；AppleAPIerrors-根据错误代码编号搜
分销系统开发全攻略：从技术架构到运营落地的深度解析 wx_ywyy6798 系统安全安全短剧短剧系统推客系统分销系统短剧分销
一、分销系统的商业价值与市场前景在当今电商竞争日益激烈的环境下，分销系统已成为企业拓展销售渠道、实现业绩倍增的核心利器。据统计数据显示，采用分销系统的企业平均可获得30%-50%的销售增长，优质案例甚至能达到300%以上的业绩提升。分销系统的核心价值在于：渠道裂变效应：通过社交化分销网络，实现几何级数的用户增长成本优化：将传统广告费用转化为销售佣金，实现按效果付费用户粘性提升：分销商既是消费者又是
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
用Python快速实现五子棋小游戏：从0到1的开发指南 python
作为一名程序员，闲暇时用代码实现个小游戏是件很有成就感的事。今天就带大家用Python的Tkinter库，从零开始开发一个简单的五子棋游戏，适合新手入门练手。开发准备首先明确我们的技术栈：编程语言：Python3.x（跨平台且语法简洁）GUI库：Tkinter（Python自带，无需额外安装，适合快速开发）开发工具：任意Python编辑器均可，推荐PyCharm（调试方便）不需要复杂的环境配置，确
Java进阶学习路径与资源推荐 java
Java的进阶之路Java作为一门成熟且广泛应用的编程语言，进阶学习需要系统性地掌握多个领域的知识。以下是一个清晰的Java进阶路径：一、Java核心深入JVM深度理解内存模型：堆、栈、方法区、元空间垃圾回收机制与算法：G1、CMS、ZGC等类加载机制与字节码增强JVM调优实战并发编程专家级Java内存模型(JMM)并发工具包深入：AQS、Fork/Join并发容器源码分析无锁编程与性能优化Jav
Python机器学习入门必看！从原理到实战，手把手教你线性回归模型小张在编程 python 机器学习线性回归
引言在人工智能浪潮席卷全球的今天，机器学习（MachineLearning）早已不再是实验室的“黑科技”——打开购物APP的“猜你喜欢”、输入搜索词后的“相关推荐”、甚至天气预报中的温度预测，背后都有机器学习模型的身影。而在线性回归（LinearRegression）作为机器学习中最基础、最经典的监督学习模型，堪称机器学习的“敲门砖”。本文将从原理到实战，带你彻底掌握这一核心算法。一、机器学习的“
【Python系列】空值判断
博客目录初始代码分析优化点一：查询条件的整合优化点二：使用SQLAlchemy推荐语法优化点三：简化条件判断优化点四：错误消息的规范化更现代的SQLAlchemy2.0风格在软件开发中，数据库查询是最常见的操作之一，但如何编写高效、可读且健壮的查询代码却是一门艺术。初始代码分析原始代码片段如下：app=db.session.query(App).filter(App.id==workflow_pr
【牛客刷题】实现返回最大的不大于n的完美数的函数字节卷动牛客刷题 java 算法牛客
文章目录一、题目介绍1.1题目描述1.2输入描述1.3输出描述1.4示例二、解题思路2.1核心算法设计2.2性能优化关键2.3算法流程图三、解法实现3.1解法一：借位+贪心3.1.1初级版本分析3.2解法二：优化版（推荐）3.2.1优化版本分析四、总结与拓展4.1关键优化技术4.2进阶优化方向4.3应用场景扩展一、题目介绍1.1题目描述给定一个正整数n，定义一个完美数为每一位数字只包含1、2、3的
互联网大厂Java面试指南：从基础到高阶技术栈与业务场景实战
互联网大厂Java面试指南：从基础到高阶技术栈与业务场景实战第一轮：Java基础与Spring生态问题1：请解释Java中的多线程实现方式及其适用场景。解析：核心概念：Java多线程可通过继承Thread类或实现Runnable接口实现，推荐后者以避免单继承限制。ExecutorService是更高级的线程池管理工具。适用场景：高并发任务如电商秒杀、实时数据处理。底层机制：JVM线程模型基于操作系
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

【总结】淘宝搜索/推荐系统背后深度强化学习与自适应在线学习的实践之路

搜索算法研究与实践

推荐算法研究与实践

你可能感兴趣的:(广告/推荐)