美团技术团队

如何利用「深度上下文兴趣网络」提升点击率？

美团到店广告平台在用户行为序列建模算法的迭代落地中，基于对业务实际场景中用户决策心智的观察，创新性地提出了深度上下文兴趣网络，精确建模了用户的兴趣，提升了CTR等线上业务指标。本文介绍了相应算法背后的动机、建模方法以及工程优化，希望能为从事相关工作的同学带来一些启发或帮助。

1. 背景
2. 深度上下文兴趣网络
- 2.1 CTR模型介绍
- 2.2 深度上下文兴趣网络
- 2.3 线上服务优化
3. 实验
- 3.1 实验设置
- 3.2 实验结果
4. 结论
5. 参考文献
6. 团队招聘

点击率（CTR）预测是在线广告、推荐系统等领域的一个基础任务，主要目标是预测用户点击某个Item的概率。用户行为序列中蕴含着丰富的用户兴趣信息，这对于CTR预测至关重要。然而，大部分用户行为序列模型只从用户的点击行为中建模用户的正向兴趣，而忽视了上下文信息，即点击Item周围的其他Item，导致效果受限。

我们认为上下文信息在用户行为序列建模中非常重要，因此提出了一种名为深度上下文兴趣网络（DCIN）的新模型，可以对点击及点击周围的展示上下文进行统一建模，以学习用户的上下文感知兴趣。DCIN由三个关键模块组成：1）位次感知的上下文聚合模块（PCAM），通过注意力机制对展示Item进行聚合；2）反馈-上下文融合模块（FCFM），通过非线性特征交互，融合点击和展示上下文的表征；3）兴趣匹配模块（IMM），激活与目标Item相关的兴趣。

此外，我们还对线上性能进行了针对性优化，使得DCIN模型可以在大规模的工业广告系统上部署。我们提出的DCIN方法在离线和线上实验中都取得了显著的效果提升。目前已经在我们美团线上广告系统落地并全量，带来了1.5%的CTR提升和1.5%的RPM提升。

1. 背景

点击率（CTR）预测任务的目标是预测用户对某个Item的点击概率，这对于在线广告和推荐系统等领域至关重要[5, 16]。这里我们主要关注CTR预测中的用户行为序列建模问题。用户行为序列建模的目标是挖掘用户行为序列中蕴含的丰富的用户兴趣，更准确地理解用户的兴趣和偏好，从而提供更个性化的推荐服务。很多工作[7, 11, 13, 18, 21, 22]从用户的点击行为中捕捉用户的兴趣，大大提高了CTR模型的效果。

然而，一些研究[13, 15]发现用户的点击行为并不能完整地刻画用户兴趣，导致仅从用户点击行为中得到的用户表征有偏。为了解决这个问题，DFN[17]、DUMN[1]等一些开创性的工作引入了用户的未点击行为来捕捉用户的负面偏好（如不喜欢），取得了不错的效果。不过这些方法虽然引入了未点击行为，但它们将用户的点击和未点击行为分开建模，忽视了点击和未点击Item之间的交互。通常，智能手机的屏幕可以同时展示许多Item。用户的点击行为不仅由目标Item与用户兴趣之间的匹配程度决定，而且还受到展示上下文的影响[2, 12, 20]。

如下图1所示，当用户想买一件T恤时，如果周围的Item是智能手机、鞋子或吹风机，TA可能会点击绿色T恤，因为这些Item对TA来说很无聊。但是，当周围的展示Item都是T恤时，TA可能会点击蓝色的那一个，因为蓝色T恤比绿色T恤更符合TA的兴趣。基于上述分析，我们认为展示上下文在用户兴趣建模中是至关重要的。

图1 展示上下文示例，用户的点击行为可能会受到其他展示Item的影响

为了从用户的点击行为和相应的展示上下文中提取出具有上下文感知的用户兴趣表征，我们提出了深度上下文兴趣网络（DCIN）。具体来说，我们首先设计了一个位次感知的上下文聚合模块（PCAM），该模块通过注意力机制对展示Item进行聚合。同时，我们考虑到位次偏差[9, 10]，并将位次信息集成到PCAM中。其次，我们通过反馈-上下文融合模块（FCFM），利用非线性特征交互将点击和相应的展示上下文的表征融合在一起，以捕捉用户的上下文相关兴趣。最后，我们使用兴趣匹配模块（IMM）来匹配与目标Item相关的行为。此外，我们还设计了相应的线上落地方案，使得DCIN模型可以在大规模的工业系统上部署。具体来说，本文的贡献如下：

我们强调了引入上下文信息进行用户兴趣建模的重要性。上下文信息可以帮助我们更准确、全面地捕捉用户的兴趣；
我们创新性地设计了序列模型DCIN，它有效地集成了展示上下文和位次信息，以获取用户的上下文感知兴趣；
我们进行了广泛的线下和线上实验，结果都证明了DCIN的优越性。目前DCIN已经在我们的在线广告系统中全量，并带来了1.5%的点击率（CTR）提升和1.5%的每千次展示收入（RPM）的提升。

2. 深度上下文兴趣网络

| 2.1 CTR模型介绍

点击率预估是在给定用户行为（点击行为）和（浏览行为），以及上下文的情况下，使用模型预测用户点击目标Item 的概率,公式为。用户的历史点击行为是一个包含对应特征（如Item id、类别等）的点击项目的顺序列表，即，其中是第个点击Item，表示点击序列的长度。

为了建模展示上下文，我们为每个点击选择个对应的展示Item，因此用户的浏览行为可以表示为：，其中是点击周围的第个展示Item。在为每次点击选择周围的展示Item时，我们试图将点击保持在中间。我们用和分别表示和的绝对位次。我们还计算和之间的相对位次。我们利用广泛使用的Embedding技术将稀疏特征转化为低维度的稠密向量。例如，代表点击Item 的Embedding。

| 2.2 深度上下文兴趣网络

DCIN的架构如下图2所示，主要包含三个模块。具体来说，我们首先设计了位次感知的上下文聚合模块（PCAM），通过注意力机制来聚合展示上下文。然后，我们通过反馈-上下文融合模块（FCFM），利用非线性特征交互融合点击和相应的展示上下文，以获取上下文感知的兴趣表征。最后，我们使用兴趣匹配模块（IMM），自适应地学习与目标Item相关的用户兴趣。

图2 DCIN整体框架

2.2.1 深度上下文兴趣网络

如图1所示，智能手机一屏通常会展示很多Item。用户的点击行为不仅由Item与他们的兴趣之间的匹配程度决定，也受到展示上下文的影响[2, 20]。然而，仅从他们的点击行为中建模用户的兴趣会忽略上下文信息，导致提取的兴趣表征有偏。为了捕获用户的上下文感知兴趣，我们设计了PCAM，它通过注意力机制为每次点击聚合展示上下文。

此外，用户通常倾向于点击屏幕上的位次靠前的Item（称为位次偏差[9, 10]），而不考虑相关性。因此，Item的位次同样影响用户的点击行为。我们还将位次信息集成到PCAM中，以更好地理解用户的实际兴趣。因此，PCAM可以被公式化如下：

其中，代表点击对应的展示上下文，表示为展示Item 的加权总和，是学习参数。是注意力权重，可以被表示为：

其中，是第次点击与其第个展示Item之间的相关性，代表项目嵌入和其绝对位次的拼接，同理。是相对位次的一维嵌入向量，和是可学习参数。

2.2.2 反馈-上下文融合模块

以前的用户序列模型[7, 11, 13, 18, 21, 22]直接将用户的点击Item视为用户的兴趣，忽略了上下文信息。为了捕捉用户的上下文感知兴趣，我们提出了FCFM来通过非线性特征交互融合点击和相应展示上下文的表征。具体来说，FCFM是通过一个2层的MLP（多层感知器）来实现的：

其中，是第层的输出，和是学习参数。其中输入的形式如下：

其中，表示元素间的乘积。然后，我们从点击及其相应的展示上下文中获得了上下文感知兴趣。为了实现泛化和可训练性，我们在不同的点击中共享可学习的参数。

2.2.3 兴趣匹配模块

通过前两个模块，我们整体地建模了点击Item和其展示上下文，以捕获用户的上下文感知兴趣，表示为，这比仅从点击行为中提取的用户兴趣更精确和全面。为了捕获与目标Item相关的用户兴趣，我们可以轻松集成最新的序列模型，如DIN[22]，DIEN[21]，BST[3]等。在这里，我们选择了DIN方法来聚合用户兴趣，可以表示为：

其中，是最终的用户表示，它将与其他特征拼接后输入到MLP中进行CTR预估。我们使用广泛使用的二分类交叉熵损失函数来训练我们的DCIN模型。

| 2.3 线上服务优化

对于工业广告系统来说，服务延迟的限制非常严格。由于我们引入了展示Item来捕获用户的上下文感知兴趣，序列长度被扩展了数十倍，而在线模型的服务延迟通常与序列长度成正比，因此直接在工业在线系统中使用DCIN会带来服务延迟的重大负担。为了解决这个问题，我们针对性地进行了一些在线优化。

具体来说，由于PCAM和FCFM与目标Item无关，我们可以提前计算用户的上下文感知兴趣表示，在线服务时直接将其作为模型的输入。这节省了大量的在线服务时间（约10毫秒），使DCIN可以处理的用户行为序列最大长度比RACP [6]（引入了页面反馈建模的SOTA模型）长28倍，并且仅增加约1毫秒的在线延迟。

3. 实验

| 3.1 实验设置

3.1.1 数据集

将展示上下文和位次信息集成到序列模型中是一种全新的探索，目前缺乏相关的公开数据集。因此，我们从在线广告系统中构建了一个31天的工业数据集，其中包含数十亿的样本。按照惯例，我们将前30天的数据划分为训练集，最后一天的数据划分为测试集，并保留用户最近的50次点击行为，每次点击的周围20个展示Item被用来建模展示上下文。

3.1.2 基线模型

我们选取六种序列模型与DCIN进行比较。所有模型都使用相同的特征进行公平比较：

Wide&Deep[4] 由一个Wide部分和一个Deep部分组成，用于学习原始和高阶特征交互；
DeepFM[8] 用FM层替换了Wide&Deep中的Wide部分；
DIN[22] 引入了一种注意力机制，用于捕获用户对不同目标Item的多样化兴趣；
DIEN[21] 提出了一个基于门控循环单元（GRU）的兴趣演化层，用于模拟用户的动态兴趣；
DFN[17] 试图从点击行为中学习正向偏好，从未点击行为中学习负向偏好；
RACP[6] 引入了页面反馈建模，是已发布的用户行为建模的SOTA方案。

3.1.3 评估指标

我们在CTR预测任务中使用了广泛采用的评估指标AUC，我们进一步引入RelaImpr[19] 来衡量相对于基础模型的改进：

| 3.2 实验结果

我们重复所有实验5次，并报告他们的平均结果。在实验中，每个特征的嵌入维度为16。FCFM中MLP的隐藏大小和输出层分别为64/16，和1024/512/128。我们使用学习率为1e-4的Adam，Batch Size大小为3000。

3.2.1 离线效果

实验结果如下表所示，从中我们可以发现，我们提出的DCIN在AUC上显著优于所有方法，并在基础模型上实现了21.24%的RelaImpr。如2.3节所介绍，DCIN可以处理的最长用户行为序列比RACP长28倍。为了公平比较，DCIN(Short)使用与RACP相同的序列长度，而DCIN使用我们在线广告系统中实现的更长序列。

具体来说，首先DIN和DIEN比Wide&Deep和DeepFM表现得更好，因为它们捕获了用户对不同目标Item的多样化和时变性兴趣。其次，DFN略微优于DIN和DIEN，因为它试图从未点击行为中捕获不喜欢的信号。第三，RACP比DFN表现得更好，因为它模拟了用户的上下文化页面兴趣。第四，我们提出的DCIN(Short)优于RACP，这出于两方面原因。一方面，RACP只模拟页面兴趣，忽略了同一页面上的不同点击也可能表明不同的兴趣，降低了模型捕获用户细粒度兴趣的能力。另一方面，RACP忽略了Item位次对用户点击行为的影响。最后，DCIN优于DCIN(Short)，因为它引入了更长的序列。

3.2.2 消融实验

我们还进行了消融测试，以验证DCIN中不同组件的有效性和必要性。首先，我们在PCAM中去除位次信息，并进行DCIN(short)-w/o postition的实验。如表1所示，DCIN(short)-w/o postition的表现比DCIN(Short)差，因为Item的位次对用户的点击行为也有重要影响。

其次，我们在DCIN中去除了FCFM模块，并进行了DCIN(short)-w/o FCFM的实验，其中我们直接将展示上下文视为用户的兴趣，可以公式化为而不是。如表1所示，由于缺乏点击和展示上下文之间的融合，DCIN(short)-w/o FCFM的表现也比DCIN(Short)差。

3.2.3 线上A/B测试

我们进行了严格的在线A/B测试，在线上对DCIN进行了两周的评估。与DIN（线上基线）相比，DCIN实现了CTR+1.5%、RPM+1.5%的提升。目前，DCIN已经在线部署并全量，显著提升了广告收入。

3.2.4 Case研究

为了展示DCIN在上下文感知兴趣表示方面的有效性，我们随机选择10个点击Item，并分别为每个点击选择100个不同的展示上下文。然后我们提取相应的上下文感知兴趣，并通过t-SNE [14]可视化它们的分布。如下图3所示，点击Item之间的明显分离表明了学习中点击行为的主导地位。同一点击的不同上下文的明显多样性证明了DCIN捕获细粒度上下文感知兴趣表示的能力。

图3 10个点击Item在100个不同展示上下文下提取得到的上下文感知兴趣的可视化。每种颜色代表一个点击Item

为了验证上下文建模的有效性，我们可视化了目标Item和在不同展示上下文下的同一点击Item之间的IMM的注意力权重。如图4所示，DIN（绿色）的权重是相同的，因为DIN只将点击行为作为输入，所以它无法区分不同的显示上下文。而DCIN可以根据不同的上下文学习到不同的权重，右图展示的Item之间的竞争更激烈，其上下文反映的用户兴趣更精确，因此DCIN学习到了更高的权重。

图4 不同展示上下文下的同一点击Item与目标Item之间的注意力权重。由于缺少上下文信息，DIN产生相同的注意力权重，而我们提出的DCIN可以差异化点击权重

4. 结论

我们强调了展示上下文和位次信息对兴趣建模的必要性，并创新性地设计了序列模型DCIN。无论是在离线还是在线评估中，DCIN都取得了显著的效果提升。目前，DCIN已经在美团的在线广告系统中部署并全量，取得了较好的业务结果。

5. 本文作者

旭阳、浩然、刘奇、景文、曲檀、王哲等，均来自美团到店/广告平台技术部。

6. 参考文献

[1] Zhi Bian, Shaojun Zhou, Hao Fu, Qihong Yang, Zhenqi Sun, Junjie Tang, Guiquan Liu, Kaikui Liu, and Xiaolong Li. 2021. Denoising User-aware Memory Network for Recommendation. In Fifteenth ACM Conference on Recommender Systems. 400–410.

[2] Jesús Bobadilla, Raúl Lara-Cabrera, Ángel González-Prieto, and Fernando Ortega. 2020. Deepfair: deep learning for improving fairness in recommender systems. arXiv preprint arXiv:2006.05255 (2020).

[3] Qiwei Chen, Huan Zhao, Wei Li, Pipei Huang, and Wenwu Ou. 2019. Behavior sequence transformer for e-commerce recommendation in alibaba. In Proceedings of the 1st International Workshop on Deep Learning Practice for High-Dimensional Sparse Data. 1–4.

[4] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra, Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, et al. 2016. Wide & deep learning for recommender systems. In Proceedings of the 1st workshop on deep learning for recommender systems. 7–10.

[5] Paul Covington, Jay Adams, and Emre Sargin. 2016. Deep neural networks for youtube recommendations. In Proceedings of the 10th ACM conference on recommender systems. 191–198.

[6] Zhifang Fan, Dan Ou, Yulong Gu, Bairan Fu, Xiang Li, Wentian Bao, Xin-Yu Dai, Xiaoyi Zeng, Tao Zhuang, and Qingwen Liu. 2022. Modeling Users’ Contextualized Page-wise Feedback for Click-Through Rate Prediction in E-commerce Search. (2022).

[7] Yufei Feng, Fuyu Lv,Weichen Shen, MenghanWang, Fei Sun, Yu Zhu, and Keping Yang. 2019. Deep session interest network for click-through rate prediction. arXiv preprint arXiv:1905.06482 (2019).

[8] Huifeng Guo, Ruiming Tang, Yunming Ye, Zhenguo Li, and Xiuqiang He. 2017. DeepFM: a factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247 (2017).

[9] Huifeng Guo, Jinkai Yu, Qing Liu, Ruiming Tang, and Yuzhou Zhang. 2019. PAL: a position-bias aware learning framework for CTR prediction in live recommender systems. In Proceedings of the 13th ACM Conference on Recommender Systems. 452–456.

[10] Jianqiang Huang, Ke Hu, Qingtao Tang, Mingjian Chen, Yi Qi, Jia Cheng, and Jun Lei. 2021. Deep Position-wise Interaction Network for CTR Prediction. In Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 1885–1889.

[11] Jing Li, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Tao Lian, and Jun Ma. 2017. Neural attentive session-based recommendation. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. 1419–1428.

[12] Xiang Li, Shuwei Chen, Jian Dong, Jin Zhang, Yongkang Wang, Xingxing Wang, and Dong Wang. 2023. Decision-Making Context Interaction Network for Click- Through Rate Prediction. Proceedings of the AAAI Conference on Artificial Intelligence 37, 4 (Jun. 2023), 5195–5202.

[13] Qi Pi, Weijie Bian, Guorui Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Practice on long sequential user behavior modeling for click-through rate prediction. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2671–2679.

[14] Laurens Van der Maaten and Geoffrey Hinton. 2008. Visualizing data using t-SNE. Journal of machine learning research 9, 11 (2008).

[15] MenghanWang, Mingming Gong, Xiaolin Zheng, and Kun Zhang. 2018. Modeling dynamic missingness of implicit feedback for recommendation. Advances in neural information processing systems 31 (2018).

[16] Zhibo Xiao, Luwei Yang, Wen Jiang, Yi Wei, Yi Hu, and Hao Wang. 2020. Deep multi-interest network for click-through rate prediction. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2265–2268.

[17] Ruobing Xie, Cheng Ling, Yalong Wang, Rui Wang, Feng Xia, and Leyu Lin. 2021. Deep feedback network for recommendation. In Proceedings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence. 2519–2525.

[18] Weinan Xu, Hengxu He, Minshi Tan, Yunming Li, Jun Lang, and Dongbai Guo. 2020. Deep interest with hierarchical attention network for click-through rate prediction. In Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 1905–1908.

[19] Ling Yan, Wu-Jun Li, Gui-Rong Xue, and Dingyi Han. 2014. Coupled group lasso for web-scale ctr prediction in display advertising. In International Conference on Machine Learning. PMLR, 802–810.

[20] Yu Zheng, Chen Gao, Xiang Li, Xiangnan He, Yong Li, and Depeng Jin. 2021. Disentangling user interest and conformity for recommendation with causal embedding. In Proceedings of the Web Conference 2021. 2980–2991.

[21] Guorui Zhou, Na Mou, Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Deep interest evolution network for click-through rate prediction. In Proceedings of the AAAI conference on artificial intelligence, Vol. 33. 5941–5948.

[22] Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep interest network for click-through rate prediction. In Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 1059–1068.

---------- END ----------

招聘信息

到店广告平台立足美团&大众点评广告场景，探索深度学习、强化学习、人工智能、大数据、知识图谱、NLP和计算机视觉最前沿的技术发展。团队负责的是美团核心的广告业务，现在业务增长很快。我们注重技术创新，不断地探索技术的边界，用技术去驱动业务，团队技术氛围浓厚。团队有多名北斗计划同学，成员多毕业于清华，北大，中科院等知名高校。团队多次在SIGIR、CIKM等国际顶级会议发表论文，并在KDD CUP等顶级算法比赛取得冠军。主要技术方向包括：1）搜推广预估模型相关方向；2）NLP/CV多模态相关方向。

欢迎感兴趣的同学发简历到：[email protected]，邮件标题格式：姓名-美团广告算法-社招。

推荐阅读

| 新一代CTR预测服务的GPU优化实践

| SIGIR 2021 | 广告系统位置偏差的CTR模型优化方案

| 大规模异构图召回在美团到店推荐广告的应用

算法小分队-刷题2 「已注销」 c++
注：代码周日刷完一块交3.20小鱼的游泳时间(1425)模拟竖式运算，注意借位问题3.21小鱼比可爱(1428)简单的循环比较大小3.22小玉在游泳(1420)注意数据的处理，浮点还是整数3.23手机(1765)只会简单的条件循环判断然后累加3.24轰炸III(1830)调错：轰炸的次序处理
Java实现生日悖论的算法，计算至少有两个人生日相同的概率 YiWait java 算法
importjava.util.Random;publicclassBirthdayParadox{publicstaticvoidmain(String[]args){intn=23;//邀请的人数inttrials=1000000;//实验次数intcount=0;//至少有两个人生日相同的实验次数Randomrand=newRandom();for(inti=0;i
算法竞赛备赛——【数论】高精度 Aurora_wmroy 算法竞赛备赛算法 c++数据结构蓝桥杯
高精度高精度计算，也被称作大整数计算，运用了一些算法结构来支持更大整数间的运算（数字大小超过语言内建整型）。加法P1601A+BProblem（高精）-洛谷#includeusingnamespacestd;constintN=10100;inta[N],b[N],c[N];intinit(intx[]){//读入数返回位数strings;cin>>s;intl=s.size();for(inti
算法竞赛备赛——【数据结构】链表 Aurora_wmroy 算法竞赛备赛数据结构算法链表 c++蓝桥杯
链表原地逆置206.反转链表-力扣（LeetCode）classSolution{public:ListNode*reverseList(ListNode*head){//链表无头节点原地逆置ListNode*pre=head;ListNode*cur=NULL;ListNode*t=NULL;//t=head->next若head指向空链表会报错非法访问其他空间while(pre!=NULL){
啸叫抑制（AFS）从算法仿真到工程源码实现-第一节-效果演示 aflyingwolf_pomelo 语音信号处理算法人工智能
一、概述啸叫抑制算法也叫声反馈抑制，本专题我们讨论啸叫抑制算法的平台搭建，算法仿真和设备端的工程落地实现。完整记录一个扩声系统的搭建。更多资料和代码可以进入https://t.zsxq.com/qgmoN，同时欢迎大家提出宝贵的建议，以共同探讨学习。二、啸叫抑制算法视频演示啸叫抑制算法演示视频三、语谱图3.1产生啸叫效果3.2去啸叫后的效果四、总结这一节我们主要记录了啸叫抑制（去啸叫）算法的效果演
群体智能优化算法-模拟退火优化算法（Simulated Annealing, SA，含Matlab源代码） HR Zhou 算法模拟退火算法机器学习 matlab 群体智能优化优化人工智能
摘要模拟退火（SA）算法是一种基于物理退火过程的全局优化算法，其核心思想来源于热力学中的退火过程：将材料加热到高温后再缓慢冷却，使其分子结构趋于最低能量状态，从而获得稳定结构。SA算法利用Metropolis准则来决定接受新的解，以一定概率接受劣解，从而避免陷入局部最优。SA具有收敛速度快、计算复杂度低、适用于连续优化问题等特点，被广泛应用于组合优化、函数优化、神经网络训练等领域。算法介绍1.主要
相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型算法神经网络计算机视觉
关键要点研究表明，PPO（近端策略优化）是一种稳定高效的强化学习算法，适用于单代理或多代理场景，重点是最大化绝对奖励。GRPO（基于梯度的相对策略优化）似乎是专为多代理系统设计的，优化代理之间的相对表现，目前信息有限，可能较少为人所知。这两个算法在目标和应用领域上有显著差异，PPO更通用，GRPO更适合竞争性多代理环境。关于PPO的解释什么是PPO？PPO，全称近端策略优化，是一种强化学习算法，帮
第三十九个问题-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型自然语言处理算法
PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。其核心思想是通过限制策略更新的幅度，确保新策略不会偏离旧策略太远，从而稳定训练过程。1.策略梯度（PolicyGradient）基础策略梯度方法通过直接优化策略参数θθ来最大化期望回报。目标函数为：J(θ)
代码随想录算法训练营第四十一天 | hot65/100| 33.搜索旋转排序数组、153.寻找旋转排序数组中的最小值、155.最小栈、394.字符串解码 boguboji 刷题算法 leetcode 数据结构
33.搜索旋转排序数组思路是：数组可能有两种情况2345671和6712345将数组一分为二，其中一定有一个是有序的，每次判断前半部分是有序的还是后半部分是有序的，每次只在有序的那部分里找。无序那部分不管（没找到会重新一分为二，继续在有序的一半里找，迟早会找到）注意点：这道题重点是记住边界条件（哪些是小于等于小于大于等于大于）有小于等于/大于等于的情况是因为，如果出现[2,1]中找1的情况，需要有
代码随想录算法训练营第三十八天 | hot57/100| 114.二叉树展开为链表、437.路径总和III、124.二叉树中的最大路径和、22.括号生成 boguboji 刷题算法链表数据结构
114.二叉树展开为链表思路是：（1）定义方法，先序遍历保证顺序，把节点按顺序保存（2）再for循环转成链表，一列都是往右排列完整代码：classSolution{ publicvoidflatten(TreeNoderoot){ Listlist=newArrayList(); preorderTraversal(root,list); intsize=list.size()
代码随想录算法训练营第十天 | 栈与队列part01| 232.用栈实现队列、225. 用队列实现栈、 20. 有效的括号、1047. 删除字符串中的所有相邻重复项 boguboji 刷题算法 java 开发语言
232.用栈实现队列栈与队列的基本知识：Stackstack=newStackq=newLinkedListstack=newStack显然是存储整数类型，如果要存储字符，应该用Dequedeque=newLinkedListstack=newStack<>();还有我写for(inti=0;i
代码随想录算法训练营第二十三天 | 回溯算法part02| 39. 组合总和、40.组合总和II、131.分割回文串 boguboji 刷题算法数据结构
39.组合总和这道题和前面组合问题的区别是，取的元素可以重复，也就是遍历的时候，同一个元素可以一直取。所以for循环里，逐个添加元素，判断和大于目标时break（否则会一直加）还是新建二维数组放结果，一维数组放path。输入参数为放结果数组、path、提供的数组、目标值、目前总和sum、startIndex提前把提供的数组排序，用Arrays.sort()这样sum超过target就break递归
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
双指针与二分算法打不了嗝蓝桥杯 c++算法
一.双指针1.基本介绍双指针算法是一种暴力枚举的优化算法，他也被叫做尺取法或者滑动窗口。当我们发现算法需要两次for循环时并且两个指针可以不回退，我们可以利用双指针来优化算法复杂度。2.例题详解题目描述企业家Emily有一个很酷的主意：把雪花包起来卖。她发明了一台机器，这台机器可以捕捉飘落的雪花，并把它们一片一片打包进一个包裹里。一旦这个包裹满了，它就会被封上送去发售。Emily的公司的口号是“把
算法刷题区域部分反转无敌的牛算法算法
不断创建数组，相加，利用cpp内字符串相加的性质即可。具体代码如下：classSolution{public:stringreverseStr(strings,intk){intsize=s.size();intcount=size/(2*k);stringa;inti=0;for(i=0;ik){reverse(a2.begin(),a2.begin()+k);}else{reverse(a2.
优选算法训练篇07--力扣LCR179.查找总价格为目标值的两个商品大胆飞猪算法训练篇算法 leetcode
目录1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：3.解法一(暴力解法，会超时)：4.解法二(双指针-对撞指针):1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：购物车内的商品价格按照升序记录于数组price。请在购物车中找到两个商品的价格总和刚好是target。若存在多种情况，返回任一结果即可。示例1：输入：price=[3,9,12,15],tar
LeetCode215. 数组中的第K个最大元素 techpupil 算法快速选择 leetcode
给定整数数组nums和整数k，请返回数组中第k个最大的元素。请注意，你需要找的是数组排序后的第k个最大的元素，而不是第k个不同的元素。你必须设计并实现时间复杂度为O(n)的算法解决此问题。示例1:输入:[3,2,1,5,6,4],k=2输出:5示例2:输入:[3,2,3,1,2,4,5,5,6],k=4输出:4分析：本题我们能想到最简单的方法就是直接给数组排序，然后取第第N-k个元素，但题目要求是
SM国密算法深度解析与技术实践安全
SM国密算法深度解析与技术实践一、算法体系概述SM系列密码算法是由中国国家密码管理局发布的商用密码标准体系，涵盖非对称加密、对称加密、杂凑算法、标识密码等多个领域。其核心组件包括：SM2：基于椭圆曲线的非对称加密算法（GB/T32918）SM3：密码杂凑算法（GB/T32905）SM4：分组对称加密算法（GB/T32907）与国际算法对比类型国密算法国际标准密钥长度安全强度非对称加密SM2RSA-
梯度下降法理论理解伶星37 机器学习人工智能
梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上，得要死，他们目标是看谁尽快找到山谷中的水源老大比较后选择最陡的方向随便探索一下，就朝较低处走去探测几下就走陡峭的方向梯度下降算法的核心思想就是沿着负梯
2.服务器负载均衡我是一条胖咸鱼华为安全HCIP 网络服务器安全负载均衡华为
1.服务器负载均衡概述负载均衡基本概念实服务器：处理业务流量的实体服务器，客户端发送的服务请求最终是由实服务器处理的。实服务器组：由多个实服务器组成的集群，对外提供特定的一种服务。虚拟服务器：实服务器组对外呈现的逻辑形态，客户端实际访问的是虚拟服务器。负载均衡算法：FW分配业务流量给实服务器时依据的算法，不同的算法可能得到不同的分配结果。服务健康检查：FW检查服务器状态是否正常的过程，可以增强为用
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
使用 Spring Security的一些常用功能代码代码快快显灵 springsecurity spring java 前端 SpringSecurity
在实际开发中，SpringSecurity常常涉及一些常用的功能。以下是一些在开发中经常使用的SpringSecurity功能：1.PasswordEncoderBean（密码加密）这段配置使用BCryptPasswordEncoder作为密码加密算法。它是SpringSecurity中常用的密码加密方式，通常用于存储和验证用户的密码。@BeanpublicPasswordEncoderpassw
最小生成树C He11o__Wor1d424 c语言算法图论
最小生成树是所有节点的最小连通子图，即：以最小的成本（边的权值）将图中所有节点链接到一起。图中有n个节点，那么一定可以用n-1条边将所有节点连接到一起。Primprim算法是从节点的角度采用贪心的策略每次寻找距离最小生成树最近的节点并加入到最小生成树中。prim算法核心就是三步：第一步，选距离生成树最近节点第二步，最近节点加入生成树第三步，更新非生成树节点到生成树的距离（即更新minDist数组）
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
代码随想录算法训练营Day19| LeetCode 77 组合、216 组合总和 III、17 电话号码的字母组合今天也要早睡早起代码随想录算法训练营跟练算法 leetcode c++数据结构递归回溯
理论基础回溯的本质是穷举，也就是暴力求解，它是递归的一部分。所有回溯法解决的问题都可以抽象为树形结构，因为回溯法解决的都是在集合中递归查找子集，集合的大小构成了树的宽度，递归的深度就构成了树的深度（cr.代码随想录）。应用回溯一般被用于以下几种问题（cr.代码随想录）的求解中：组合问题：N个数里面按一定规则找出k个数的集合切割问题：一个字符串按一定规则有几种切割方式子集问题：一个N个数的集合里有多
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
R.E.D.算法：革新文本分类的半监督学习新范式真智AI 算法 r语言分类人工智能学习
随着大型语言模型（LLMs）在解决问题方面的应用进入新时代，只有少数问题仍然存在不尽如人意的解决方案。大多数分类问题（在概念验证层面）可以通过良好的提示工程技术和自适应的上下文学习（ICL）示例，利用LLMs以70-90%的精确度/F1分数来解决。当您希望持续实现高于此水平的性能时——当提示工程不再足够时，会发生什么？分类难题文本分类是监督学习中最古老且最易理解的示例之一。鉴于这一前提，构建能够处
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n