小万君

『干货』深度强化学习与自适应在线学习的阿里实践

原文链接

1搜索算法研究与实践

1.1背景

淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应，而淘宝的用户不仅数量巨大，其行为特点以及对商品的偏好也具有丰富性和多样性。因此，要让搜索引擎对不同特点的用户作出针对性的排序，并以此带动搜索引导的成交提升，是一个极具挑战性的问题。传统的Learning to Rank（LTR）方法主要是在商品维度进行学习，根据商品的点击、成交数据构造学习样本，回归出排序权重。LTR学习的是当前线上已经展示出来商品排序的现象，对已出现的结果集合最好的排序效果，受到了本身排序策略的影响，我们有大量的样本是不可见的，所以LTR模型从某种意义上说是解释了过去现象，并不一定真正全局最优的。针对这个问题，有两类的方法，其中一类尝试在离线训练中解决online和offline不一致的问题，衍生出Counterfactural Machine Learning的领域。另外一类就是在线trial-and-error进行学习，如Bandit Learning和Reinforcement Learning。

在之前我们尝试了用多臂老虎机模型（Multi-Armed Bandit，MAB）来根据用户反馈学习排序策略，结合exploration与exploitation，收到了较好的效果。

后来更进一步，在原来的基础上引入状态的概念，用马尔可夫决策过程对商品搜索排序问题进行建模，并尝试用深度强化学习的方法来对搜索引擎的排序策略进行实时调控。

实际上，如果把搜索引擎看作智能体（Agent）、把用户看做环境（Environment），则商品的搜索问题可以被视为典型的顺序决策问题。Agent每一次排序策略的选择可以看成一次试错（Trial-and-Error），把用户的反馈，点击成交等作为从环境获得的奖赏。在这种反复不断地试错过程中，Agent将逐步学习到最优的排序策略，最大化累计奖赏。而这种在与环境交互的过程中进行试错的学习，正是强化学习（Reinforcement Learning，RL）的根本思想。
本文接下来的内容将对具体的方案进行详细介绍。

1.2 问题建模

马尔可夫决策过程（Markov Decision Process，MDP）是强化学习的最基本理论模型。一般地，MDP可以由一个四元组表示：（1）S为状态空间（State Space）；（2）A为动作空间（Action Space）；（3）为奖赏函数；（4）为环境状态转移函数（State Transition Function）

我们的最终目标是用强化学习进行商品搜索排序策略的学习，在实现的过程中，我们一步一步完成了从简单问题到复杂问题的过渡，包括：
1. 基于值表（Tabular）强化学习方法的商品价格档T变换控制（离散状态、离散动作问题）；
2. 基于值表（Tabular）强化学习方法的商品展示比例控制（离散状态、离散动作问题）；
3. 基于强化学习值函数估计（Value Function Approximation）的商品排序策略调控（连续状态、离散动作问题）；
4. 基于强化学习策略估计（Policy Approximation）的商品排序策略调控（连续状态、连续动作问题）。

1.2.1状态定义

假设用户在搜索的过程中倾向于点击他感兴趣的商品，并且较少点击他不感兴趣的商品。基于这个假设，我们将用户的历史点击行为作为抽取状态特征的数据来源。具体地，在每一个PV请求发生时，我们把用户在最近一段时间内点击的商品的特征作为当前Agent感知到的状态。当然，在不同的问题中，状态的表示方法会有所不同。例如，在值表强化学习方法中，状态为可枚举的离散变量；在值函数估计和策略估计方法中，状态则表示为特征向量。

1.2.2 奖赏函数定义

Agent给出商品排序，用户根据排序的结果进行的浏览、商品点击或购买等行为都可以看成对Agent的排序策略的直接反馈。在第四章中，我们将利用奖赏塑形（Reward Shaping）方法对奖赏函数的表达进行丰富，提高不同排序策略在反馈信号上的区分度。

1.3算法设计

由于篇幅有限，我们仅对强化学习在搜索中的使用给出2个实例。

1. Tabular方法

我们在排序中要引入价格的因素来影响最终展示的价格，若以GMV为目标，则简单可以表示为cvr*price，同时我们又想控制价格的作用程度，所以目标稍作修改：，加入一个变量t来控制价格的影响。这个t值的范围很有限，可以用MAB或CMAB来找到最优解。

我们用强化学习的视角来对这个问题进行抽象，把用户前2次点击的商品价格档位（0~7，从低到高）作为状态。这个状态表示的是用户之前点击商品的价格偏好，如果两次都点击1档商品，说明用户偏好低价商品，很有可能接下来用户只对低价商品感兴趣，如果这个状态转移分布是稳定的（stationary），那么一个统计模型可以就可以描述这种规律。而实际上，用户的行为是受我们排序模型的影响的，用户点击1档商品也可能是因为当前的排序策略只给用户展示了1档商品，并不一定是用户的本质需求。在接下来用户的搜索过程中，我们可以有的选择1是只出1档商品让用户的需求快速收敛，选择2是投放一些附近档位的商品供用户选择，如果用户选择了其他档位的商品，进行了状态的转移，就可能找到一个更好的路径，最终的收益和我们所有的过程中的投放策略都相关。从每个时间点上看，策略可能不是最优的，但全局上可能是最优的。

具体地，当用户进行了搜索后，根据用户的状态s，和Q表（下图）进行一个epsilon-greedy的投放，选择一个动作a（上文中的价格指数t），执行这个a的排序结果展示给用户，并记录下这次的状态s与动作a，以及用户对这次搜索结果的反馈r，从用户的点击与否的反馈，再对Q表进行更新。

根据Q-Learning公式进行权重更新。

接下来，由于用户点击了某商品，他的状态发生了转移，就找到对应的状态继续进行epsilon-greedy的投放。再继续进行学习，直到收敛。

2. DDPG方法

例如一个线性排序模型，

x是m维的特征向量，我们学习每个用户状态的最优参数w，即

这种假设需要使用策略估计的方法。策略估计（Policy Approximation）方法是解决连续状态/动作空间问题的有效方法之一。其主要思想是用参数化的函数对策略进行表达，通过优化参数来完成策略的学习。通常，这种参数化的策略函数被称为Actor。假设我们一共调控（）个维度的排序权重，对于任意状态，Actor对应的输出为
其中，为Actor的参数，对于任意（），是关于状态的一个函数，代表第维的排序权重分，其形式可根据实际情况而定，我们的方案采用深度神经网络作为Actor函数。这种方式在不同的状态之间可以通过神经网络来共享一些参数权重。

强化学习的目标是最大化任意状态上的长期累积奖赏，根据策略梯度定理， Actor函数的参数的更新公式可以写为

其中，为Actor神经网络在状态上关于的梯度，为状态动作对（State-Action Pair）的长期累积奖赏。因为和都是连续的数值，我们采用深度神经网络作为估计器对进行学习，具体的学习算法可参考深度Q学习算法DQN [1]。

1.4 奖赏塑型

我们最初采用的奖赏函数仅基于用户在每一个PV中的点击、成交行为反馈来构建。然而，在淘宝主搜这种大规模应用的场景中，我们较难在短时间内观察到不同的排序策略在点击和成交这样的宏观指标上的差别。因此，长期累积奖赏关于不同学习参数的梯度并无明显区别，导致学习算法收敛缓慢。因此，我们有必要在奖赏函数中引入更多的信息，增大不同动作的区分度。

在进行强化学习方案的同时，我们用Pointwise LTR进行了一些对比实验，发现Pointwise LTR这种直接在商品特征上进行学习的方式在求取策略梯度的时候，能够将不同排序策略更为显著地区分开。参照这个思路，我们将商品的一些属性特征加入到奖赏函数的定义中，通过奖赏塑形（Reward Shaping）的方法[2, 3]丰富其包含的信息量。

奖赏塑形的思想是在原有的奖赏函数中引入一些先验的知识，加速强化学习算法的收敛。简单地，我们可以将“在状态上选择动作，并转移到状态”的奖赏值定义为

其中，为原始定义的奖赏函数，为包含先验知识的函数，也被称为势函数（Potential Function）。我们可以把势函数理解学习过程中的子目标（Local Objective）。根据上面的讨论，我们把每个状态对应PV的商品信息纳入Reward的定义中，将势函数定义为

其中，为状态对应PV中商品的个数，表示的第个商品，为Agent在状态执行的动作，表示排序策略为时商品的点击（或成交）的似然（Likelihood）。因此，也就表示在状态上执行动作时，PV中所有商品能够被点击（或购买）的似然概率之和。

1.5 实验效果

在双11期间，我们在无线搜索排序的21和22号桶对强化学习方案进行了测试。下图展示了我们的算法在学习的过程中的误差（RNEU）变化情况，截取的时间范围为11月10日18:00到11月11日8:00。

可以看到，从11月10日18:00启动开始，每个桶上的RNEU开始逐渐下降。到当天20:00之后，下降趋势变得比较缓和，说明学习算法在逐步往最优策略进行逼近。但过了11月11日0点之后，每个桶对应的RNEU指标都出现了陡然上升的情况，这是因为0点前后用户的行为发生了急剧变化，导致线上数据分布在0点以后与0点之前产生较大差别。相应地，学习算法获取到新的reward信号之后，也会做出适应性地调整。

2 推荐算法研究与实践

2.1背景介绍

双11主会场是一个很复杂的推荐场景。从推荐的业务形式上看，双11主会场分为三层：分别是楼层、坑位以及具体素材图的推荐。2016年的双11主会场在整体的组织形式上与去年的双11主会场类似，但具体业务的构成及组织有较大的不同。

首先，可推荐的楼层多于十层，我们需从中挑选数层进行展示，并有可能根据时间段和业务的需求进行调整。因此，展现形式的多变对模型的日志特征学习造成了一定的干扰。其次，坑位的构成分为三种会场入口：第一行是行业会场，第二行对应店铺会场，第三行对应是标签会场。最后，在楼层以及坑位都确定之后，我们需要每个的坑位入口上选择具体的素材。2016年双11主会场的素材有两种不同的展现形式，分别是双素材图以及单素材图。双素材图模式能提升用户的点击欲望，增强视觉感官冲击力，但也会对用户的真实点击行为数据造成一定程度的干扰或噪声，甚至对排序的模型产生比较大的偏置。

由于2016年双11首图宝贝素材总量在百万张且坑位数上百，我们会根据楼层的次序对参与打分的候选集进行配额，根据楼层的实时点击率分配楼层的打分量。在各类业务以及填坑逻辑及调控流量的限制下，推荐结果并不一定能按照原有的打分高低进行展示。因此，我们需要考虑打分宝贝数与工程实现上的平衡关系。由于主会场的QPS高达数万，一味地增大打分量是不可取的。为了解决这一问题，我们在初选的match召回方式上做了大量的努力，如提升用户的多重兴趣覆盖、增大有效的候选宝贝。

根据在2015双11的一些经验并结合2016年双11前期的系统压测情况，在2016年双11主会场我们采用了素材模型驱动的模式。从个性化推荐算法的角度来说，我们在2016年双11主会场尝试了多种新颖的排序模型，并做了严格的效果对比。具体的排序模型涉及LR、FTRL、GBDT+FTRL融合模型以及WIDE&DEEP模型，同时为了克服data drift的波动在日常的首图场景还尝试了Adaptive-Online-Learning的算法，以及尝试了强化学习的思路。在后面的章节，会从算法层面逐一阐释。

2.2算法模型

2.2.1 GBDT+FTRL模型

采用非线性模型学习intermediate feature，作为ID feature和cross feature的补充，最终输入到线性model来做CTR预估，最早是由Facebook提出的，思路大致如下：采用raw features（一般是统计类特征）训练出GBDT模型，获得的所有树的所有叶子节点就是它能够generate出来的特征空间，当每个样本点经过GBDT模型的每一个树时，会落到一个叶子节点，即产生了一个中间特征，所有这些中间特征会配合其他ID类特征以及人肉交叉的特征一起输入到LR模型来做CTR预估。显然，GBDT模型很擅长发掘有区分度的特征，而从根到叶子节点的每一条路径体现了特征组合。对比手工的离散化和特征交叉，模型显然更擅长挖掘出复杂模式，获得更好的效果。我们通过GBDT来做特征挖掘，并最终与FTRL模型融合的方案如下图：

输入到GBDT的特征非常关键，这些特征决定了最终产出的中间特征是否有效。我们有一套灵活的特征生成流程，可以方便做各种维度的特征提取以及交叉统计。GBDT+FTRL中主要用到的特征包含两部分：第一部分是用户/宝贝ID与对方泛化维度交叉统计的特征，包含各种基础行为的次数以及CTR等。

第二部分是来自于match阶段的一些连续类特征。推荐的match阶段负责粗选出一部分跟用户相关的content，该过程中会有多个模型分出现，例如做trigger selection的model分， content的最终match score等，这些分数来自于不同离线model，最终作为feature在online rank model中，能获得非常好的ensemble效果。

2.2.2 Wide & Deep Learning模型

借鉴Google今年在深度学习领域的论文《Wide & Deep Learning for Recommender Systems》中所提到的Wide & Deep Learning框架（以下简称为WDL），并将其结合基于搜索事业部自研的机器学习平台的在线学习技术，我们研发了一套适用于推荐业务的WDL模型算法。下文将会对这一技术进行详述。

WDL模型的原理框架如上图所示：它将深度神经网络(DNN)网络和逻辑回归(Logistic Regression)模型并置在同一个网络中，并且将离散型特征(Categorical Feature)和连续型特征(Continuous Feature)有机地结合在一起。WDL模型主要由wide侧和deep侧组成。Wide侧通过特征交叉来学习特征间的共现，而deep侧通过将具有泛化能力的离散型特征进行特征嵌入(embedding)，和连续型特征一起作为深度神经网络的输入（可以认为是一种特殊的深度神经网络，在网络的最后一层加入了大量的0/1节点），从理论上来说，我们可以把deep侧看作传统矩阵分解(matrix factorization)的一种泛化实现，值得注意的是特征嵌入的函数是和网络中其他参数通过梯度反向传播共同学习得到。模型的预测值采用如下公式进行计算：

其中，wide侧和deep侧合并在一起计算后验概率P(Y=1|x)；在误差反向传播(Backpropagation)的计算过程中时，我们对两个方向同时进行计算。

2.2.3 Adaptive-Online-Learning（自适应在线学习）

传统的在线学习模型没有一种机制很好的判断模型应该采用的多长时间的日志进行训练，目前业界的在线学习模型也都是通过经验值的方式来进行数据截断，自适应学习(adaptive learning)的最大优势就在于能够通过自我学习的方法适应业务的多变性。其实现原理在于保留下来每一个时刻开始到现在的数据学习到的模型，然后根据有效的评测指标，计算出各个模型的权重信息，并同时捕捉到数据分布快速变化波动的情况下的用户实时兴趣的细微差别，从而融合出一个最优的模型结果。

2.2.4 Reinforcement Learning（强化学习）

相比对每个推荐场景单独进行个性化推荐的策略，基于强化学习框架（Reinforcement Learning）的推荐系统根据全链路的数据进行整合，同时响应多个异构场景的推荐请求。下图中我们对手机淘宝（天猫）客户端的数据/流量通路进行抽象：每个圆圈代表一个独立的手淘场景，E代表用户在该场景随时离开，箭头代表流量可能地流动方向。

基于以上的数据通路图，我们可以很自然地将全链路多场景的推荐任务理解为一个连续的决策问题：作为一个智能决策者（agent），推荐系统需要持续不断地决定应该为用户推荐怎样的内容（比如，商品、店铺、品牌以及活动）。强化学习正是一种对智能决策者进行建模的最佳方式：通过对智能决策者短期状态的变化进行递归式建模，最终引导其渐进式地优化长期目标。

手淘上的推荐场景相当丰富，最具代表性的是一个页面以列表的形式同时推荐多个商品的场景。为了便于读者理解，我们首先介绍单个商品的推荐场景，之后再过渡到多商品的推荐场景。在单商品的推荐场景，a对应的是单个商品。我们的目标是学习在状态s下采取动作a所能获得的累积奖励（的期望值）。我们用Q(s,a)来表示这一期望值。在这种情况下，我们只需要选择一种函数映射关系（如线性函数或神经网络）将s和a所代表的向量映射到标量上对目标函数Q(s,a)进行拟合。

我们把这一定义延伸到典型的多商品推荐场景。由于文章长度有限，我们下面介绍一种最简单的思路，即假设用户是否会点击单商品的决策是独立的。也就是说，假设用户如果喜欢商品A，用户不会因为在同一推荐列表中见到了他更喜欢的商品B而放弃点击商品A。在这一假设下，我们对展示每个商品所获得的累积奖励的计算也是独立的。通过一系列的推导，我们可以得到一个对状态s下商品i能得到的分数f(s,i)的递归定义。

通过等式(7)，我们可以迭代计算对无偏估计值进行求解。实际情况中用户必然会因为推荐商品的组合问题产生更复杂的行为，这样一来必然导致累积奖励独立计算的假设不成立。但以此为本，我们可以推导出基于更复杂假设下的计算累积奖励估计量的递归公式。

原文链接

LeetCode202.快乐数
LeetCode202.快乐数题目：编写一个算法来判断一个数n是不是快乐数。「快乐数」定义为：对于一个正整数，每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为1，也可能是无限循环但始终变不到1。如果这个过程结果为1，那么这个数就是快乐数。如果n是快乐数就返回true；不是，则返回false。示例：输入：n=19n=19n=19输出：truetruetrue解释：12+9
leetcode 202. 快乐数 ∮∞ leetcode 刷题 leetcode 算法职场和发展
编写一个算法来判断一个数n是不是快乐数。「快乐数」定义为：对于一个正整数，每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为1，也可能是无限循环但始终变不到1。如果这个过程结果为1，那么这个数就是快乐数。如果n是快乐数就返回true；不是，则返回false。示例1：输入：n=19输出：true解释：12+92=8282+22=6862+82=10012+02+02=1示例
javascript基础从小白到高手系列四千八百七十三：禁用验证完美句号 javascript 开发语言 ecmascript
通过指定novalidate属性可以禁止对表单进行任何验证：这个值也可以通过JavaScript属性noValidate检索或设置，设置为true表示属性存在，设置为false表示属性不存在：document.forms[0].noValidate=true;//关闭验证如果一个表单中有多个提交按钮，那么可以给特定的提交按钮添加formnovalidate属性，指定通过该按钮无须验证即可提交表单：
Jetson Orin NX Super安装TensorRT-LLM u013250861 #LLM/部署&推理 elasticsearch 大数据搜索引擎
根据图片中显示的JetsonOrinNXSuper系统环境（JetPack6.2+CUDA12.6+TensorRT10.7），以下是针对该平台的TensorRT-LLM安装优化方案：一、环境适配调整基于你的实际配置：JetPack6.2（含CUDA12.6,TensorRT10.7）Python3.10.12aarch64架构需选择适配的TensorRT-LLM版本。由于官方预编译包可能未覆盖此
【力扣刷题-滑动窗口篇】2134. 最少交换次数来组合所有的 1 II的定长滑动窗口解法爱分享的浩然 Leetcode刷题 leetcode 算法 java 数据结构
目录【力扣刷题-滑动窗口篇】（面试原题）2134.最少交换次数来组合所有的1II的定长滑动窗口解法题目链接最优解思路解题方法复杂度【力扣刷题-滑动窗口篇】（面试原题）2134.最少交换次数来组合所有的1II的定长滑动窗口解法交换定义为选中一个数组中的两个互不相同的位置并交换二者的值。环形数组是一个数组，可以认为第一个元素和最后一个元素相邻。给你一个二进制环形数组nums，返回在任意位置将数组中的所
力扣239题，滑动窗口的最大值瀛台夜雪力扣刷题 leetcode 算法数据结构
力扣239题，滑动窗口的最大值题目描述给你一个整数数组nums，有一个大小为k的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的k个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。输入输出样式输入：nums=[1,3,-1,-3,5,3,6,7],k=3输出：[3,3,5,5,6,7]解释：滑动窗口的位置最大值--------------------[13-1]-35
力扣239 滑动窗口最大值--JS解法大号密码忘了力扣刷题算法 leetcode 数据结构
239.滑动窗口最大值-力扣（LeetCode）(leetcode-cn.com)题目：给你一个整数数组nums，有一个大小为k的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的k个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。算法核心：1.维护一个大小为K的队列（数组）头部是该队列最大的单调队列；方法：推入元素之前，与该大小为K的队列的队尾元素进行比较，如果推入元
【LeetCode 热题 100】21. 合并两个有序链表——（解法一）迭代法 xumistore LeetCode leetcode 链表算法 java
Problem:21.合并两个有序链表题目：将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。文章目录整体思路完整代码时空复杂度时间复杂度：O(M+N)空间复杂度：O(1)整体思路这段代码旨在解决一个基础且经典的链表问题：合并两个有序链表(MergeTwoSortedLists)。问题要求将两个已按升序排列的链表合并为一个新的、仍然保持升序的链表。该算法采
【LeetCode 热题 100】73. 矩阵置零——（解法一）空间复杂度 O(M + N) xumistore LeetCode leetcode 矩阵算法
Problem:73.矩阵置零题目：给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。文章目录整体思路完整代码时空复杂度时间复杂度：O(M*N)空间复杂度：O(M+N)整体思路这段代码旨在解决“矩阵置零”问题，它通过HashSet来存储需要置零的行和列的索引，并在一个统一的阶段完成置零操作。算法的整体思路是“先标记，后置零”：第一阶段：使用HashSet进
剑指 Offer 04. 二维数组中的查找菜菜今天学习了吗 leetcode刷题 leetcode 算法数据结构
在一个n*m的二维数组中，每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个高效的函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。示例:现有矩阵matrix如下：[[1,4,7,11,15],[2,5,8,12,19],[3,6,9,16,22],[10,13,14,17,24],[18,21,23,26,30]]给定target=5，返回true
为什么国内的教科书编写的如此晦涩？点云SLAM 数学学习方法
很多人在学习过程中都有类似感受：中国的教科书“难搞懂”。造成这种现象的原因主要可以从以下几个方面来分析：1.教学目标更重“系统性”而非“启发性”中国教科书通常强调知识的完整性、系统性、逻辑性，但不强调引导性和直觉体验。很多内容是按照“定义→定理→推论”的顺序展开，对初学者不友好，因为缺少“为什么要学”“生活中的例子”“背后直觉”的铺垫。国外教材比如《Calculus》（Stewart）会在每章开头
LeetCode-169-多数元素（完整代码C语言） William国学 LeetCode刷题笔记算法数据结构 leetcode c语言
LeetCode-169-多数元素（完整代码C语言）题目示例及提示代码1（C语言）（部分样例未通过）代码2（C语言）解读题目给定一个大小为n的数组，找到其中的多数元素。多数元素是指在数组中出现次数大于⌊n/2⌋的元素。你可以假设数组是非空的，并且给定的数组总是存在多数元素。来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/majority-ele
【算法入门】LeetCode 239. 滑动窗口最大值：Java与JavaScript双解法详解｜单调队列的精妙运用力扣239题详解：滑动窗口最大值（Java & JavaScript 双语言实现）南北极之间算法算法 leetcode java
题目：官方链接：https://leetcode.cn/problems/sliding-window-maximum/description/?envType=study-plan-v2&envId=top-100-liked参考答案：【新手入门】LeetCode239.滑动窗口最大值：Java&JavaScript双解法详解目录题目描述问题分析解题思路3.1暴力法（不推荐）3.2单调队列法（最
leetcode1089.复写零
题目链接：1089.复写零题目描述：给你一个长度固定的整数数组arr，请你将该数组中出现的每个零都复写一遍，并将其余的元素向右平移。注意：请不要在超过该数组长度的位置写入元素。请对输入的数组就地进行上述修改，不要从函数返回任何东西。示例一：输入：arr=[1,0,2,3,0,4,5,0]输出：[1,0,0,2,3,0,0,4]解释：调用函数后，输入的数组将被修改为：[1,0,0,2,3,0,0,4
【Swift开发】屏蔽NSSecureCoding频繁警告 Jaaaaaaaaaaaaa swift 开发语言 ios
解决iOS开发中NSSecureCoding警告的最佳实践问题背景在开发Mac应用时，我遇到了一个令人困扰的问题：Xcode控制台不断输出NSSecureCodingallowedclasseslistcontains[NSObjectclass]相关的警告信息。这些警告虽然不影响应用功能，但严重干扰了开发调试过程，让真正重要的日志信息淹没在系统警告中。***-[NSXPCDecodervalid
力扣--169. 多数元素
给定一个大小为n的数组nums，返回其中的多数元素。多数元素是指在数组中出现次数大于⌊n/2⌋的元素。你可以假设数组是非空的，并且给定的数组总是存在多数元素。示例1：输入：nums=[3,2,3]输出：3示例2：输入：nums=[2,2,1,1,1,2,2]输出：2classSolution{publicintmajorityElement(int[]nums){Arrays.sort(nums)
使用 Docker 部署 Spring Boot 项目流程 hoho不爱喝酒随便写写 docker spring boot 容器运维 linux
文章目录使用Docker部署SpringBoot项目流程1.构建SpringBoot项目使用Maven构建项目：使用Gradle构建项目：2.创建Dockerfile示例Dockerfile：解释：3.构建Docker镜像4.运行Docker容器5.查看容器日志6.管理Docker容器查看正在运行的容器：停止容器：删除容器：删除镜像：7.访问SpringBoot应用总结使用Docker部署Spri
死锁（Dead Lock）详解
1.什么是死锁死锁是多线程或多进程并发编程中的一种常见问题，它发生在两个或多个线程（或进程）相互等待对方释放资源的情况下，导致它们都无法继续执行下去的状态。这种情况下，每个线程都在等待某个资源，而同时也拥有一些资源，这使得它们之间产生了僵局，无法继续执行。死锁通常包括以下四个必要条件：互斥条件（MutualExclusion）：每个资源只能同时被一个线程占用。如果一个线程占用了某个资源，其他线程就
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
使用策略模式 + 自动注册机制来构建旅游点评系统的搜索模块
✅目标：搜索模块支持不同内容类型（攻略、达人、游记等）每种搜索逻辑用一个策略类表示自动注册（基于注解+Spring容器）新增搜索类型时，只需添加一个类+一个注解，无需改工厂、注册表等！️技术方案：SpringBoot自定义注解@SearchType("guide")进行标记启动时由Spring自动扫描并注册到Map项目结构如下（SpringBoot）search-system-springboot
LeetCode力扣 75. 颜色分类冒泡排序法，计数法等閒 leetcode 算法排序算法
75.颜色分类难度中等1190收藏分享切换为英文接收动态反馈给定一个包含红色、白色和蓝色、共n个元素的数组nums，原地对它们进行排序，使得相同颜色的元素相邻，并按照红色、白色、蓝色顺序排列。我们使用整数0、1和2分别表示红色、白色和蓝色。必须在不使用库的sort函数的情况下解决这个问题。示例1：输入：nums=[2,0,2,1,1,0]输出：[0,0,1,1,2,2]示例2：输入：nums=[2
Linux部署MinIO与Spring Boot整合实战指南 luoqinqin linux spring boot 运维
一、MinIO简介与核心概念MinIO是一款高性能的分布式对象存储服务，兼容AmazonS3API，适用于存储图片、文档等非结构化数据。核心术语：Bucket：存储对象的容器（类似文件夹）Object：存储的基本单元（文件+元数据）AccessKey/SecretKey：身份验证凭证二、Linux环境MinIO部署1.单节点安装#下载二进制文件wgethttps://dl.min.io/serve
Leetcode 202. 快乐数 Richest_li python Leetcode leetcode 算法
202.快乐数Leetcode202.快乐数一、题目描述二、我的想法三、其他人的题解一、题目描述编写一个算法来判断一个数n是不是快乐数。「快乐数」定义为：对于一个正整数，每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为1，也可能是无限循环但始终变不到1。如果这个过程结果为1，那么这个数就是快乐数。如果n是快乐数就返回true；不是，则返回false。示例1：输入：n=1
面试150 矩阵置0 Alfred king 面试150题目矩阵线性代数 leetcode 面试数组
思路我们使用两个标记集合，分别记录当矩阵的元素为0的时候的横、纵坐标。然后在对矩阵元素进行遍历，如果所在行或者所在列的索引在集合中，对应的矩阵元素修改为0即可```classSolution:defsetZeroes(self,matrix:List[List[int]])->None:"""Donotreturnanything,modifymatrixin-placeinstead."""ro
LeetCode--40.组合总和II dying_man leetcode 算法
前言：如果你做出来了39题，但是遇到40题就不会做了，那我建议你去再好好缕清39题的思路，再来看这道题，会有种豁然开朗的感觉解题思路：这道题其实与39题基本一致，所以本次题解是借着39题为基础来讲解的40题，故，看本次题解的前提是，会了39题1.获取信息：与39题唯一的区别就是：（1）数组里面的数字不能在同一个组合中重复使用了（2）数组中会出现重复的数字了2.分析题目：与39题相比，只是变更了几个
linux安装mysql客户端
有时候我们只想在某个机器上安装mysql客户度，而不是安装整个mysql服务,因为服务已经存在了，而我们又因为某些原因我们不能直接登录到这台服务器上，或者是我们要在其他机器上查询mysql的数据安装mysql客户端yuminstallmysql-y(安装mysql服务我们用的是yuminstall-ymysql-server这个命令)连接目标主机mysqlmysql-h192.168.123.11
力扣刷题-169.多数元素 cynicism?? C++练手 leetcode 算法职场和发展
给定一个大小为n的数组nums，返回其中的多数元素。多数元素是指在数组中出现次数大于⌊n/2⌋的元素。你可以假设数组是非空的，并且给定的数组总是存在多数元素。示例1：输入：nums=[3,2,3]输出：3示例2：输入：nums=[2,2,1,1,1,2,2]输出：2classSolution{public:intmajorityElement(vector&nums){intnum=nums[0]
SpringBoot多数据源动态切换方案：AbstractRoutingDataSource详解 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot多数据源动态切换
Java 中 LeetCode 热门算法精讲孙恒阳算法 java leetcode
在Java中，如何实现快速排序算法？1、选择基准值：在数组中选择一个元素作为基准值，常见的方法是选择第一个元素或者中间的元素。2、分区操作：将数组分为两个部分，左边部分所有元素小于基准值，右边部分所有元素大于基准值。3、递归排序：对左右两个部分分别进行递归排序。4、合并结果：由于在分区过程中元素已经被重新排列，所以不需要额外的合并操作，递归结束后数组即为有序。5、选择合适的基准值：基准值的选择会影
Spring Boot + Easy Excel 自定义复杂样式导入导出
tips：能用模板就用模板，当模板不适用的情况下，再选择自定义生成Excel。官网：https://easyexcel.opensource.alibaba.com安装com.alibabaeasyexcel3.1.1一、处理自定义导出复杂场景1、列不固定，动态列2、动态下拉3、自定义锁定行/列，添加密码4、合并单元格5、导入自定义统一注解统一校验6、样式处理（字体，颜色，底色，富文本，列宽，行宽
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

『干货』深度强化学习与自适应在线学习的阿里实践

你可能感兴趣的:(『干货』深度强化学习与自适应在线学习的阿里实践)