zhisheng_blog

Flink + 强化学习搭建实时推荐系统

点击上方 "zhisheng"关注, 星标或置顶一起成长

Flink 从入门到精通系列文章

如今的推荐系统，对于实时性的要求越来越高，实时推荐的流程大致可以概括为这样：推荐系统对于用户的请求产生推荐，用户对推荐结果作出反馈 (购买/点击/离开等等)，推荐系统再根据用户反馈作出新的推荐。这个过程中有两个值得关注的地方：

这可被视为是一个推荐系统和用户不断交互、互相影响的过程。
推荐系统需要对用户反馈作出快速及时的响应。

这两点本篇分别通过强化学习和 Flink 来实现，而在此之前先了解一些背景概念。

强化学习

强化学习领域的知名教材《Reinforcement Learning: An Introduction》开篇就写道：

当我们思考学习的本质的时候，脑中首先联想到的可能就是在与环境不断交互中学习。当一个婴儿在玩耍、挥舞手臂或是旁顾四周时，并没有任何老师教它，但它确实能直接感知到周围环境的变化。

强化学习的主要过程是构建一个智能体，使之与环境交互的过程中不断学习，以期获得最大的期望奖励。它是一种非常通用的学习范式，可以用于对各种各样问题的建模，比如游戏、机器人、自动驾驶、人机交互、推荐、健康护理等等。其与监督学习的主要不同点在于：强化学习根据延迟的反馈通过不断试错 (trial-and-error) 进行学习，而监督学习则是每一步都有明确的反馈信息进行学习。

下图反映了一个推荐智能体 (recommender agent) 与环境进行互动的过程。这里将用户 (user) 视为环境，用户的行为数据作为状态 (state) 输入到智能体中，智能体据此作出相应的动作 (action) ，即推荐相应的物品给用户，用户对此推荐的反应如点击/不点击、购买/不购买等可视为新一轮的奖励。从这里可以看出，推荐可被认为是一个动态序列决策过程，推荐物品对用户产生影响，进而用户的反馈反过来影响推荐系统的决策本身，这样的过程会不断延续下去形成一个序列。

“决策” 这个词实际上很能代表强化学习本身的特点。设想当一个人在做决策的时候，很多时候需要对瞬息万变的局势进行评估并快速作出相应的选择，而另一方面，作出的决定需要考虑长期的目标而非仅仅是短期收益。而这两点恰恰是几乎所有用强化学习做推荐系统的论文中都会提到的关于传统推荐方法的问题，即将推荐视为静态预测的过程以及只注重短期收益等等。当然论文里这么说主要是为了凸显自己的成果，但实际的情况应该远不是这么简单。

强化学习的最终目标是学习出一个策略 ????(????|????) 来最大化期望奖励。策略 (policy) 指的是智能体如何根据环境状态 ???? 来决定下一步的动作 ????，对应到推荐的场景中就是根据用户过往行为记录来决定下一步推荐的物品。对于如何通过训练得到最优策略，目前主流有两类方法: on-policy 和 off-policy 。不同于监督学习的需要预先人工收集数据并标注，强化学习的数据来源于不断地与环境进行互动，继而用收集来的数据更新模型。所以在这个过程中有两个部分与策略相关，一是与环境互动时需要使用策略，二是训练时更新策略。On-policy 指的是环境互动的策略和训练时更新的策略是同一个策略，相应地 off-policy 则是互动和更新时使用的是不同的策略。如下左图为 on-policy，下中图为 off-policy (下右图为 offline 方法，后文再述 )。

On-policy 的思想比较直观，相当于一个智能体在环境中边试错边学习，但是其主要问题是样本利用率低，进而训练效率低。使用了一个策略与环境进行交互取得数据进而更新模型后，就产生了一个新的策略，那么旧策略交互得来的数据可能就不服从新策略的条件分布了，所以这些数据不能再使用会被丢弃。

Off-policy 则缓解了这个问题，主要通过将之前策略收集来的数据通过一个经验回放池 (experience replay buffer) 储存起来，然后从中采样数据进行训练。那么 off-policy 类方法为什么能使用旧策略产生的数据进行训练？既然数据分布不同导致新旧数据不能放一起训练，那就调整数据分布使之接近就可以了，所以 Off-policy 类的算法普遍采用了重要性采样的思想对不同数据施加不同的权重，后文介绍 YouTube 的推荐系统时会提到，到那时再说。

那么本篇的强化学习方法适用于哪一种呢？这其实不大好说。。我没有能互动的环境，只有静态数据集，所以 off-Policy 看上去更适合一些，但即使是 off-policy 的方法通常也需要与环境进行交互不断产生新数据用于训练。因此本篇的方法属于 batch reinforcement learning，或称 offline reinforcement learning，不过我倾向于使用 batch 这个词，因为 offline 和 off-policy 很容易混淆。上右图显示的就是 batch (offline) reinforcement learning，其特点是一次性收集完一批数据后就只用这批数据进行训练，在正式部署之前不再与环境作任何交互。

我们知道深度学习近年来在图像和 NLP 领域取得了很大的进展，一大原因是算力和数据的爆炸式增长。然而对于主流的深度强化学习算法来说，需要不断与环境进行交互来获取数据，这通常意味着需要边训练边收集数据。然而许多领域是无法像传统强化学习那样有条件频繁与环境进行交互的，存在成本太高或者安全性太低的原因，甚至会引发伦理问题，典型的例子如无人驾驶和医疗。所以这时候人们自然会去想，训练强化学习时也收集一堆固定的数据，然后不断重复利用，不再收集新的，仿照深度学习那样在固定数据集上大力出奇迹，这样是否可行呢？因此 batch reinforcement learning 近年来受到越来越多学术界和工业界的关注，被广泛认为是实现强化学习大规模应用到实际的一个有效途径。而推荐系统就很适合这种模式，因为直接线上探索交互代价太大，影响用户体验，但收集用户行为日志却相对容易且数据量大。

Flink

另一方面，推荐系统作为一个系统，光有算法肯定是不行的。上文提到 batch reinforcement learning 无需与环境互动，仅靠数据集就能训练，那么在训练完模型真正上线以后就需要与环境交互了，而这个过程中需要有中间载体，用于快速获得信息、清洗原始数据并转化成模型可输入的格式。在本篇中这个前道工序我们主要使用 Flink。Flink 官网上的自我介绍是 ”数据流上的有状态计算 (Stateful Computations over Data Streams)“：

换言之随着数据的不断流入，其可以保存和访问之前的数据和中间结果，当到达特定的条件后一并计算。对于我们的强化学习模型来说，需要累计一定的用户行为才能作为模型输入作推荐，所以需要在 Flink 中实时保存之前的行为数据，这就要用到 Flink 强大的状态管理功能。

另外，离线训练使用的深度学习框架是 PyTorch，这个不像 Tensorflow 那样部署方便，所以这里采用近年来流行的 FastAPI 做成 api 服务，在 Flink 中获取满足条件的特征后直接调用服务进行推理，产生推荐后存到数据库中，服务器在下次用户请求时可直接从数据库中调用推荐结果。

整体架构见下图，完整代码和流程见 FlinkRL (https://github.com/massquantity/flink-reinforcement-learning) 和 DBRL (https://github.com/massquantity/DBRL) 。

下面介绍使用的三种算法，限于篇幅，这里仅仅大致介绍原理，欲了解细节可参阅原论文。下面是主要符号表：

YouTube Top-K (REINFORCE)

这个方法主要参考 YouTube 2018 年发表的论文 Top-K Off-Policy Correction for a REINFORCE Recommender System 。论文作者在这个视频中宣称这个方法取得了近两年来的最大增长，说实话我是有点怀疑的。在论文最后的实验部分提到，这个强化学习模型只是作为众多召回模型之一，然后所有的召回物品再经过一个独立的排序模块后推荐给用户，文中也没说这个排序模块用的是什么模型，所以这里面的空间就比较大了。

论文中使用了 policy gradient 领域最古老的 REINFORCE 算法，并就其具体业务情形做了一些改动，这里我们先看 REINFORCE 的基本框架。

假定执行的是随机策略，智能体在环境中互动产生的一个轨迹为 ????=(????0,????0,????1,????1,????1,⋯,????????−1,????????−1,????????,????????) 。在深度强化学习中一般使用神经网络来参数化策略 ????，一般会在环境中采样多个轨迹，那么该策略的期望总回报为：

其中 ???? 是神经网络的参数，????(????) 为轨迹 ???? 的总回报，因为轨迹带有随机性，所以我们希望最大化期望回报来获得最优的策略 ????∗：

REINFORCE 的思想，或者说整个 policy gradient 的思想，和监督学习中的很多算法殊途同归，即通过梯度上升 (下降) 法求参数 ???? ，把 (1.1) 式当成目标函数，那么一旦有了梯度，就可以用这个熟悉的式子进行优化了：

直接求 ????(????????) 的梯度异常困难，但是通过 policy gradient 定理，我们可以得到一个近似解：

其中 ????????=∑|????|????′=????????????′−????????(????????′,????????′) ，意为 ???? 时刻采取的动作获得的最终回报只与之后获得的奖励有关，而与之前的奖励无关。关于 policy gradient 定理的证明见附录 A 。

原始的 REINFORCE 算法是 on-policy 的，亦即线上交互和实际优化的是同一个策略，然而论文中说他们线上交互的是不同的策略，甚至是多种不同策略的混合体。这样就导致了数据分布不一致，如果直接使用 REINFORCE 会产生巨大的 bias 。论文中通过重要性采样把算法改造成 off-policy 的：

为实际的交互策略，这个式子的推导也可以直接通过 policy gradient 得出，具体见附录 B 。接下来经过一系列的权衡，作者认为下面这个式子比较合理地平衡了偏差与方差：

主要的不同就是采样是沿着 ???? 的轨迹进行，并在每一步 ???? 中加了重要性权重 ????????(????????|????????)????(????????|????????) ，而这个权重相对很容易计算。

论文中考虑的另外一个问题是，之前都是考虑的动作只有一个，即只推荐一个物品，但现实中往往是一次性推荐 ???? 个物品给用户，如果 ???? 个物品同时考虑就会组合爆炸。论文中假设同时展示 ???? 个不重复物品的总奖励等于每个物品的奖励之和，这样就可以转化为单个物品的优化，同时作者说这个假设成立的前提是用户对推荐列表中每个物品的观察是独立的。

YouTube 在 2019 年发表过另外一篇用强化学习做推荐的论文 (Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology) ，和 2018 年中的方法相比，主要的不同是使用了 on-policy 的 SARSA 算法，而且是用在了排序而不是召回阶段。这篇论文中同样对推荐的 ???? 个物品作了某种假设：假设一个推荐列表中用户只会消费其中一个物品，如果用户消费完后又返回到这个推荐列表消费第二个物品，则这个行为会被视为另外的事件，在日志中分开记录。实际上这两个假设的本质就在于用户面对 ???? 个物品的列表只会关注其中一个而不管其他，然而实际很多时候用户会对多个感兴趣，但是消费完一个后就把剩余几个忘了。极端情况是推荐了 10 个全部都感兴趣，消费了一个后有些事离开了或者陷入不断点击循环消费，这样原来的另外 9 个感兴趣的就都被当成负样本处理了。。

到这里我们可以看到，两篇论文都必须作出一些假设的根本原因在于使用的算法输出的都是离散型动作，即单个物品，然而推荐的场景不像一般的强化学习应用只需要输出一个动作就行了。所以不得不作出一些看上去很别扭的假设，而后面介绍的两个算法输出的都是连续型动作，则会有另外的解决办法。

接下来依然沿着上面的假设走，???? 个就转化为单个物品了，结合重要性权重后， (1.3) 式可转化为：

式中主要是用 ????????(????????|????????) 代替了原来的 ????????(????????|????????)，因为 ???? 个物品是各自独立从策略 ???????? 中采样的，则 ????????(????????|????????)=1−(1−????????(????????|????????))???? 表示 ???? 时刻物品 ???? 出现在最终的 ???? 个物品的列表中的概率，因为 (1−????????(????????|????????))???? 表示 ???? 次都没有被采样到的概率。

可以看到 (1.3) 式和 (1.4) 式的唯一差别是多了一个乘子 : ∂????(????????|????????)∂????(????????|????????)=????(1−????????(????????|????????))????−1 。因此我们只要采样一个轨迹，在每一步 ???? 由神经网络计算出 ????????(????|????),????(????|????) (这两个实际就是 softmax 输出的概率)，再整合计算折扣回报 ????????=∑|????|????′=????????????′−????????(????????′,????????′) 后，就能相应地实现算法了，最终的代码见 https://github.com/massquantity/DBRL/blob/master/dbrl/models/youtube_topk.py

DDPG

就推荐的场景来说，离散型动作是比较自然的想法，每个动作就对应每个物品。然而现实中物品数量可能至少有百万级，意味着动作空间很大，用 softmax 计算复杂度很高。上面 YouTube 的论文中使用 sampled softmax 来缓解这个问题，而这里我们可以换个思路，让策略输出一个连续的向量 ????∈ℝ???? ，再将 ???? 与每个物品的 embedding 点乘再排序来获得推荐列表，在线上则可以使用高效的最近邻搜索来获取相应物品。对于连续型动作而言， DDPG 是比较通用的选择，在我看过的推荐相关的论文里使用 DDPG 是最多的，比如京东的两篇[1][2]，阿里的一篇[1]，华为的一篇[1] 。

DDPG 全称 Deep Deterministic Policy Gradient，是一种适用于连续型动作的 off-policy 算法。不同于上文的 REINFORCE，其使用的是确定性策略，顾名思义对于相同的状态 ???? 会产生唯一的动作 ???? ，所以这里我们用 ????(????) 来表示。而因为是确定性策略，不存在动作 ???? 的概率分布，也就不需要重要性采样了。

DDPG 采用 Actor-Critic 框架，Actor 为具体的策略，其输入为状态 ???? ，输出动作 ???? 。Critic 用于评估策略的好坏，其输入为 (????+????) 拼接而成的向量，输出为一个标量。Actor 和 Critic 都可以用神经网络来参数化，假设 Actor 网络为 ????(????|????????) ，Critic 网络为 ????(????,????|????????) ，则 Actor 和 Critic 的目标函数和梯度分别为：

那么算法的核心就是通过梯度上升 (下降) 优化这两个目标函数来求得最终的参数，进而得到最优策略。DDPG 其他的一些实现细节如 target network、soft update 等等这里不再赘述，由于我们使用的是固定的数据集，因而只要将数据转化成 DDPG 算法可以输入的格式，再像监督学习那样分 batch 训练就行了，不用再与环境作交互，最终的代码见 https://github.com/massquantity/DBRL/blob/master/dbrl/models/ddpg.py

BCQ

BCQ 算法全称 Batch-Constrained Deep Q-Learning ，出自论文 Off-Policy Deep Reinforcement Learning without Exploration 。BCQ 可以看作是对 DDPG 在 batch (offline) 场景的改造版本，如前文所述，batch (offline) reinforcement learning 指的是在固定的数据集上进行学习，不再与环境进行交互。论文作者指出在这种条件下当前流行的的 off-policy 算法如 DQN、DDPG 等可能效果不会很好，原因主要出在会产生 extrapolation error。

Extrapolation error 主要源于数据集中状态 ???? 和动作 ???? 组合的分布和当前策略中状态-动作组合分布的不一致，即采样的策略和当前策略差别很大，从而使得 Critic 对于值函数的估计不准，进而使得学习失效。以上文中 DDPG 的 Critic 网络的目标函数 (改变了一些符号) 为例：

因为 ????′ 本身是一个神经网络，如果 ????′(????′) 最终输出了一个不在数据集内的动作，那么很可能导致 ????′(????′,????′(????′)) 对于该状态-动作组合的估值不准，那么就学不到好的策略了。如下图(来源)就显示了如果动作 ???? 在行为策略 ???? 的分布之外，会有可能对 ???? 值产生过高的估计，导致后续错误不断累计。

我在实际训练 DDPG 的时候确实碰到过类似情况，Critic 的损失有时候会到达 1e8 这样夸张的级别，不论再怎么调小学习率都没用。后来发现可能的原因，最开始是将用户之前交互过的多个物品向量平均起来作为状态 ???? 的表达，然而平均过后的向量就可能不会长得和任何单个物品向量很像了，也即远离了原来的数据分布。那么 ????′(????) 输出的动作 ???? 自然也和数据集中的动作相去甚远，这样一环传一环致使最终 ???? 值爆炸，而后来改为物品向量直接拼接后就没这种情况了。

另外作者也提到，DQN、DDPG 这样常见的 off-policy 算法中并没有考虑 extrapolation error，为什么它们在正统强化学习任务中很有效呢？因为是这些算法本质上采用的是 growing batch learning 的训练方法：在用一批数据离线训练一段时间后，依然会用训练好的策略去环境中收集新数据用于训练，这样采样来的数据实际上和现有策略差别不大，因而 extrapolation error 可以忽略不计。但是在完全 offline 训练的情况下，数据集很可能是使用完全不同的策略收集而来的，因而这种时候 extrapolation error 的影响就比较显著了。

所以问题的核心是如何避免生成一个莫名其妙的状态-动作组合从而导致 extrapolation error？论文中的方法是用一个生成模型 (generative model) 来生成和数据集中相似的状态-动作组合，再用一个扰动模型 (perturbation model) 对生成的动作添加一些噪声来增加多样性。其中生成模型使用的是变分自编码器 (variational auto-encoder, VAE)，扰动模型就是一个普通的全连接网络，输入为生成出的动作 ???? ，输出为范围在 [−Φ,Φ] 内的新动作，Φ 为动作的最大值，对于连续型动作我们一般设定一个上限避免输出太大的动作值。这两个模型合起来可视为 BCQ 算法使用的策略，即 Actor，而 Critic 的部分和 DDPG 差别不大，完整代码见 https://github.com/massquantity/DBRL/blob/master/dbrl/models/bcq.py

Appendix A: Policy Gradient 定理

由 (1.1) 式可知目标函数为：

Appendix B: 重要性采样 (Importance Sampling)

设实际的交互策略 ???? 的轨迹分布为 ????????(????) ，对 (A.2) 式应用重要性采样：

之后就和附录 A 的推导一样了。

原文地址：https://www.cnblogs.com/massquantity/p/13842139.html

References

Richard S Sutton, Andrew G Barto, et al. Reinforcement learning: An introduction
Minmin Chen, et al. Top-K Off-Policy Correction for a REINFORCE Recommender System
Xiangyu Zhao, et al. Deep Reinforcement Learning for List-wise Recommendations
Scott Fujimoto, et al. Off-Policy Deep Reinforcement Learning without Exploration
Sergey Levine, Aviral Kumar, et al. Offline Reinforcement Learning: Tutorial, Review,and Perspectives on Open Problems
Eugene Ie , Vihan Jain, et al. Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology




基于 Apache Flink 的实时监控告警系统关于数据中台的深度思考与总结（干干货）日志收集Agent，阴暗潮湿的地底世界
2020 继续踏踏实实的做好自己

公众号(zhisheng)里回复 面经、ClickHouse、ES、Flink、 Spring、Java、Kafka、监控 等关键字可以查看更多关键字对应的文章。

点个赞+在看，少个 bug ????

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

Flink + 强化学习 搭建实时推荐系统