阿里妈妈技术

CBRL：面向ROI约束竞价问题的课程引导贝叶斯强化学习框架

丨目录：

· 摘要

· 背景

· 问题定义与MDP建模

· CBRL: 课程引导的贝叶斯强化学习框架

· 实验

· 总结与展望

· 参考文献

1. 摘要

实时广告竞价（Real-Time Bidding, RTB）是互联网在线广告中的核心问题之一，也是实现流量高效分配和广告定向投放的重要机制之一。为了在RTB中获得期望的广告投放效果，商家广告主通常需要采用竞价策略来满足多样化的需求。其中投入产出比（Return-on-Investment，ROI）约束是效果类广告主非常关注的一类诉求。我们发现，由于 ROI 非单调下降的特点，以及 ROI 约束与优化目标间常出现的跷跷板效应，约束竞价问题中 ROI 约束常难以满足。这一点在市场环境多变且存在外部博弈的投放场景上尤为显著和棘手。过去的工作由于通常假设市场环境相对稳定不变，其所设计的竞价策略难以在非稳态和部分观测下的广告市场中平衡好约束和目标最大化之间的权衡。本文探讨了非稳态市场下的 ROI 约束广告竞价问题。我们提出了部分可观测约束的 MDP 建模方式，利用了示性函数不引入额外参数地处理约束条件，开发了一个由课程引导的贝叶斯强化学习（Curriculum-Guided Bayesian Reinforcement Learning，以下简称CBRL）框架来数据驱动地学习竞价策略，该方法能够在非稳态的广告市场中，自适应地调节约束条件和目标之间的权衡。大量的实验结果验证了该方法在稳定性、学习效率、分布内和分布外泛化能力上的优越表现。基于该项工作整理的论文已经发表在 KDD 2022，欢迎感兴趣的同学阅读交流。

论文：ROI-Constrained Bidding via Curriculum-Guided Bayesian Reinforcement Learning

下载（点击↓阅读原文）：https://dl.acm.org/doi/abs/10.1145/3534678.3539211

2. 背景

实时广告竞价（RTB[1]）已经成为互联网流量商业化的重要渠道之一，它服务于大量效果类广告主，其每日吞吐流量可以超过万亿级。在 RTB 中，每一条流量均会触发一次用户的广告展现机会，不同的商家通过程序化出价代理（programmatic buying agents）参与到广告展现触发的在线拍卖中。在这样实时在线的序列化广告竞价过程中，广告主的诉求通常是最大化目标投放效果并且满足预算等金融性约束。在各种需求中，效果类广告主关注的一类诉求通常是投入产出比（ROI）约束。ROI 计算了单位成本的（各种类型的）回报，例如单位成本的点击数（Click per Cost, CPC）等，可以直观地反映金融资源的使用效率。

ROI 约束下的竞价问题具有一些独特的挑战。一方面，ROI 分子上的效用和分母上的成本可以以不同的速率变化，因此 ROI 是非单调的，而过去针对预算约束竞价问题设计的方法（详见[2]的调研）基于预算单调性导出的pacing策略往往不适合直接用于处理 ROI 约束。另一方面，由于效用与成本随出价提高而增长的速率不同，ROI 约束与最大化目标之间通常存在跷跷板效应，而这一现象在市场环境多变且存在外部博弈的站外投放场景尤为显著和棘手。尽管近期有一些工作[3]提出通过引入额外超参数来显式地控制约束目标权衡，但是它们通常假设静态或者相对稳定的市场环境，所设计的算法无法适用于更加动态变化的市场环境。更为严峻地是，广告主仅能通过扣费来感知市场的变化（例如对手策略的变化、媒体拍卖机制的变化），使得竞价策略难以针对性地调整。

针对这样非稳态市场下的 ROI 约束竞价问题，我们提出了一个部分观测约束的 MDP 建模，并且介绍了一种采用硬间隔来处理非单调约束的方法。该方法利用示性函数来处理约束条件，并开发了一个课程引导的贝叶斯强化学习（Curriculum-Guided Bayesian Reinforcement Learning，简称CBRL）框架来进行高效的策略学习以及约束目标权衡的自适应控制。我们在工业场景真实数据的不同问题设定上验证了 CBRL 在稳定性、学习效率、分布内和分布外泛化能力的优越表现。

3. 问题定义与MDP建模

3.1 ROI-Constrained Bidding

图1. RTB系统一次广告拍卖的流程

本文研究的 ROI 约束竞价问题（ROI-Constrained Bidding, RCB）具体指，在确定的时间周期内（通常考虑一天），竞价策略需要在满足指定ROI约束时最大化总收入。本文假设采用二价拍卖机制[8]，即竞得者按其他参竞者最高出价扣费。问题的形式化定义如下，一名参竞者获得请求 (和用户、广告、上下文有关的特征），基于效用预估返回出价。在胜出时，广告主从系统获得反馈包括：实际的收入，实际的支出，以及支出所反映的市场价格（二价）。如果没有竞得，则不参与目标或约束的计算。ROI约束下竞价的目标是最大化收入总和，并且投产比 ROI 大于L，预算为B：

其中我们定义为t次广告展现的拍卖信息序列。在下文，不引起歧义的前提下，我们采用缩写。

最优出价定理二价拍卖机制下，如果所有拍卖都事先知道，即都已知，可以推导出它的最优出价公式（定理1）。证明请参考论文附录。

3.2 POCMDP建模

本文采用了强化学习的环境互动式学习的方式来学习竞价策略。训练阶段所使用的的拍卖环境基于高价桶日志数据集的经验分布构建。由于竞价策略需要实时的对每个广告展现报价。然而实际的广告系统中每天吞吐量可以达到数十亿。如果以单次请求为决策过程的一步，决策过程的序列长度过长而难以训练。如定理1所述，最优出价公式对于效用是线性的。因此本文将亿级别的长序列实时出价问题转化为时间片粒度的出价系数控制问题，并把市场发生相对显著变化的时间单位作为一个时间片的长度。至此，我们构建了以下的部分观测约束的 MDP（Partially Observable Constrained MDP），，其中：

状态和观测包含了时间片粒度的一些累积统计量，具体请参考论文附录。
动作是每个时间片的出价系数（定理1中），有界正实数。
刻画环境的初始状态、转移和观测的发射概率。
奖励函数和成本函数用于刻画竞价问题的目标价值和约束破坏情况

基于示性函数设计的奖励函数

为了求解上述 POCMDP，我们注意到其约束形式具有等价的非约束形式，

其中我们定义了基于示性函数的奖励函数：

为简便地表示可行解和不可行解，定义：表示分别是满足 ROI 约束、预算约束和两个约束均满足的可行解，代表它们的否定集合。

上述奖励函数的设计有以下特点：

等价性，是由于成立。
没有引入额外的超参数
满足贝尔曼方程的递归性质，即：

由此，对于上述约束的 MDP 的策略优化，我们可以基于该奖励函数采用任何基于贝尔曼方程的无约束 MDP 策略优化方法。这种基于示性函数的奖励函数设计对于约束条件的处理十分简洁，但十分有效的解决了过去工作的局限性。其背后的设计思想是在可行解和不可行解之间构建硬间隔，在奖励上单调地反映解的质量（默认可行解优于不可行解，而无关目标价值），避免引入额外参数再来控制约束和优化目标之间的权衡。因此，策略需要学会自适应调节约束和优化目标之间的权衡来获得更高的奖赏，而不是依赖于额外设置或优化出的固定超参数。

4. CBRL: 课程引导的贝叶斯强化学习框架

原则上，基于上述 POCMDP 建模已经可以进行策略优化，但是稀疏奖赏和不可观测性是悬而未决的两个挑战。为此我们提出了一个结合课程学习和贝叶斯学习的CBRL框架。

图2.方法概览图

本工作提出 CBRL 学习框架解决 ROI 约束下的竞价问题。智能体由一个课程序列引导，学会基于历史轨迹推断未观测的市场状态，并针对市场状态自适应地调节约束和目标价值之间的权衡。

4.1 课程引导的策略搜索

注意到上文设计的奖励函数只在终止时刻提供奖赏信号。稀疏奖励往往导致策略探索的低效（例如离散有限动作空间的回合制 MDP 中 worst-case 探索需要指数时间），而且由于探索不到近优的状态动作分布而导致策略的次优性能。我们发现，利用约束竞价问题的约束结构，我们可以通过构造一系列结构近似且最优解接近的 proxy 问题作为先修课程，通过稠密奖励来引导策略在状态动作空间的探索。

具体地，定义以下形式的近似问题：

在原问题的终止时刻约束条件之外，在每个时间片额外增加了共 T-1 个约束条件。这个近似问题可以进一步推出贪心近似问题，在每个时间片的目标是最大化累积价值并满足累积约束：

而这种递归结构提供了一个稠密的奖励函数，对于满足截止到当前时间片累积约束且片内收入较大的动作有较高的奖励。

稠密的奖励函数提供了直接的引导信号来帮助缩小策略的探索空间（在离散有限动作空间的回合制MDP的情况下，worst-case探索仅需要多项式时间），但是问题的近似也导致解的欠优。为此，我们通过设计一系列终结于原始问题的课程来保证策略求解的最优性。

其中每个近似问题由增加的约束条件极限

所表征。原则上，约束条件极限的设计随着 k 增加而增加（靠前的课程约束强但是欠优程度也更强），随着时间逼近原问题的约束极限。具体课程设计请参考论文附录。

直观上，我们结合约束竞价问题的结构特性，通过引入课程学习将 worst-case 指数时间的探索效率提升到了多项式时间。在实验中我们发现，课程学习提升了超过五倍的收敛效率，同时能收敛到更优的解。

4.2 贝叶斯强化学习

在上述的 MDP 建模中，我们将环境的部分可知和非稳态变化都归结为 MDP 的部分观测性。而为了有效地处理这一点挑战，我们采用了贝叶斯视角，目标是通过变分贝叶斯学习近似推断不可观测部分的后验分布（即当前市场及其变化成因的后验），并基于后验采样自适应地决策、平衡约束和目标价值。

具体而言，我们采用隐变量 z 刻画不可观测的市场及其变化，目标学习基于历史轨迹的后验分布近似其真实分布。由于真实分布的未知或不可解，我们通常采用变分贝叶斯达到近似推断的目的。注意到在Q学习一类的强化学习方法中，Q 学习的目标是最小化贝尔曼残差，它等价于为转移元组极大似然估计的目标：

由此我们可以推导出变分下界作为学习近似推断的目标函数，具体推导见论文附录。

基于上式，我们可以学习一个用于推断隐变量 z 后验的变分分布，它基于策略过去的历史轨迹推断当前未观测的市场情况。基于 Q 学习目标和最大化Q价值，我们学习出策略分布。在部署时，智能体与近似推断互相配合，通过后验采样在未知环境中进行决策。在后验采样过程中，首先从采样，策略依据表征的信念 MDP（belief-MDP）执行动作。新动作构造出新的转移元组，并加入到历史轨迹，用于更新后验分布。这样的迭代过程在环境未知的情况下，呈现出贝叶斯最优（Bayes-Optimal）的探索利用权衡。

分析策略的优化目标，可以发现，在未知环境中，策略的决策选择的是环境不确定性期望下的最优动作，权衡了探索与利用。与此同时，Q 价值在我们的定义下始终保持了可行解和不可行解之间的硬间隔。因此，相比于过去依赖于额外设置超参数控制约束目标权衡的方法[3,7]，CBRL框架将要求策略学习依据推断的市场状态自适应调节约束目标权衡，以达到较高的Q价值。

5. 实验

我们在大规模工业数据构造的两个问题设定下进行了验证，回答了以下三个问题：1）CBRL方法与过去的方法的对比表现；2）所提出的课程学习的学习效率；3)所提出的贝叶斯学习在非稳态（甚至分布外）环境中的自适应控制能力。

5.1 综合性能

我们主要对比了三类能够（改编用于）处理约束竞价非单调性约束的方法，包括：1）对偶方法[4]；2）近似方法[5,6]；3）引入超参数的方法[7,3]。对于所有方法我们均进行20次随机试验绘制箱线图。其中，所提出的方法CBRL在约束满足和目标优化的综合表现上性能最优并且保持统计稳定性。其他具体分析请参考论文。

图3.与过去方法的对比。每个方法进行20次随机试验绘制出箱线图。黑线和红线分别代表中位数和均值

5.2 课程学习的学习效率

针对基于强化学习的方法，我们对比了[3]以及数个基线方法。其中，我们发现一个课程的学习下就可以达到接近收敛的性能，相比于直接优化原始问题，学习效率提高了超过五倍。

图4. 学习效率的对比。其中误差区间基于20次随机试验计算

5.3 贝叶斯强化学习的自适应控制

为了验证贝叶斯学习在动态调节约束与目标价值之间权衡上的作用，我们对比了基于强化学习的方法（详情参考论文图6），特别在分布外的测试场景上发现了贝叶斯学习的显著优势。具体而言，在存在系统变化和外部博弈的投放场景上，CBR在不同的随机试验中仍然保持基本满足 ROI 约束，同时保持一定的收入水平，其中位数约束满足率接近75%。对比之下，由于没有考虑环境的非稳态变化，过去的工作通常难以在分布外的测试场景权衡好约束与目标价值。

图5. 分布外测试场景下与USCB[3]的对比。横轴为问题实例ID，纵轴为regret。蓝色代表可行解，橙色代表不可行解。散点图和KDE分别反映联合分布和边缘分布

6. 总结与展望

本文针对非稳态市场下的ROI约束竞价问题提出了一种硬间隔处理约束的方法。该方法基于示性函数设计奖励函数，将约束问题转化为无约束问题求解，并开发了一个CBRL学习框架数据驱动地学习竞价策略。大规模的实验验证了所提出的方法在稳定性、学习效率、分布内外泛化能力上的优越表现。

该项工作对于通用场景下的约束竞价问题尚且只是一个初步尝试，仍然存在一些局限性。在方法论上，尽管课程学习能有效的提升学习效率，但是课程的设计仍然需要额外的基于数据的人工设计；在问题设定上，我们没有过多地探讨广告系统有偏采样和数据反馈（data feedback loop）问题，对于市场环境的非稳态变化和外部博弈的建模也只是浅尝辄止。这些都是非常有现实意义的问题，也欢迎感兴趣的同行follow我们的工作。

最后，欢迎感兴趣的同学加入我们。简历投递邮箱：

[email protected]

参考文献

[1] Shuai Yuan, Jun Wang, and Xiaoxue Zhao. 2013. Real-time bidding for online advertising: measurement and analysis. In Proceedings of the seventh international workshop on data mining for online advertising. 1–8.

[2] S. Balseiro, A. Kim, M. Mahdian, and V. Mirrokni. 2021. Budget-Management Strategies in Repeated Auctions. Operations Research 69, 3 (2021).

[3] Yue He, Xiujun Chen, Di Wu, Junwei Pan, Qing Tan, Chuan Yu, Jian Xu, and Xiaoqiang Zhu. 2021. A Unified Solution to Constrained Bidding in Online Display Advertising. Association for Computing Machinery, New York, NY, USA, 2993–3001. https://doi.org/10.1145/3447548.3467199

[4] T. Wang, H. Yang, H. Yu, W. Zhou, and H. Song. 2019. A Revenue-Maximizing Bidding Strategy for Demand-Side Platforms. IEEE Access PP, 99 (2019), 1–1.

[5] Xun Yang, Yasong Li, Hao Wang, Di Wu, Qing Tan, Jian Xu, and Kun Gai. 2019. Bid optimization by multivariable control in display advertising. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1966–1974.

[6] Antoine Jamin and Anne Humeau-Heurtier. 2019. (Multiscale) Cross-Entropy Methods: A Review. Entropy 22 (12 2019). https://doi.org/10.3390/e22010045

[7] Chen Tessler, Daniel J Mankowitz, and Shie Mannor. 2018. Reward constrained policy optimization. arXiv preprint arXiv:1805.11074 (2018).

[8] Benjamin Edelman, Michael Ostrovsky, and Michael Schwarz. 2007. Internet advertising and the generalized second-price auction: Selling billions of dollars worth of keywords. American economic review (2007).

END

也许你还想看

丨一种用于在线广告自动竞价的协作竞争多智能体框架

丨CausalMTA: 基于因果推断的无偏广告多触点归因技术

丨基于对抗梯度的探索模型及其在点击预估中的应用

丨基于多智能体协同竞价博弈的电商搜索广告多目标竞价优化

喜欢要“分享”，好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
IDS检测原理和架构 hao_wujing 安全
大家读完觉得有帮助记得关注和点赞！！！IDS（入侵检测系统）的核心使命是**从海量网络/主机行为中精准识别攻击企图**，其技术本质是**异常行为模式识别引擎**。以下从检测原理、系统架构到技术演进进行深度解析：---###⚙️IDS核心检测原理####1.**双引擎协同机制**|**检测类型**|**原理**|**优势/局限**|**典型算法**||--------------------|---
塞浦路斯VPS MySQL 8.7量子安全索引测试 cpsvps_net mysql 安全数据库
在数字化时代背景下，数据安全已成为全球企业关注的核心议题。本文将深入解析塞浦路斯VPS环境下MySQL8.7量子安全索引的突破性测试成果，揭示其如何通过先进的加密算法重构数据库防护体系，为金融、医疗等敏感行业提供符合后量子密码学标准的解决方案。塞浦路斯VPSMySQL8.7量子安全索引测试-下一代数据库防护技术解析量子计算威胁下的数据库安全新挑战随着量子计算机的快速发展，传统加密算法正面临前所未有
深度学习之分类手写数字的网络 newyork major 卷积神经网络CNN 深度学习人工智能
面临的问题定义神经⽹络后，我们回到⼿写识别上来。我们可以把识别⼿写数字问题分成两个⼦问题：把包含许多数字的图像分成⼀系列单独的图像，每个包含单个数字；也就是把图像，分成6个单独的图像分类单独的数字我们将专注于编程解决第⼆个问题，分类单独的数字。这样是因为，⼀旦你有分类单独数字的有效⽅法，分割问题是不难解决的。⼀种⽅法是尝试不同的分割⽅式，⽤数字分类器对每⼀个切分⽚段打分；如果数字分类器对每⼀个⽚段
8、探讨排序算法及其实际应用侯昂排序算法插入排序快速排序
探讨排序算法及其实际应用1.排序算法的重要性排序算法在计算机科学中扮演着至关重要的角色。无论是日常生活中常见的任务，还是复杂的数据处理工作，排序算法都能帮助我们更有效地管理和检索信息。以下是几个实际应用场景：字典中的单词：字典中的单词按顺序排列，忽略大小写差异。这使得查找特定单词变得非常容易。目录中的文件：目录中的文件通常按排序顺序列出，方便用户快速找到所需文件。书籍索引：一本书的索引是排序过的，
JVM调优实战 Day 14 ：大数据处理中的JVM调优在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day14】大数据处理中的JVM调优文章标签jvm调优,大数据处理,Java性能优化,JVM参数配置,JVMGC调优,Java开发,大数据架构,Jvm实战文章简述在大数据处理场景中，Java应用通常面临内存占用高、GC频率频繁、堆内存不足等挑战。本文作为“JVM调优实战”系列的第14天，深入探讨了大数据处理中的JVM调优策略。文章从概念解析、技术原理、常见问题、诊断方法、调优策略到
推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
基于MATLAB平台设计并实现自适应噪声抵消器（Adaptive Noise Canceller, ANC） AI Dog 自动控制 matlab 自适应噪声抵消器 ANC 信号去噪
本课题旨在基于MATLAB平台设计并实现自适应噪声抵消器（AdaptiveNoiseCanceller,ANC），以有效去除信号中的背景噪声，提升语音、医疗或通信系统中的信噪比。系统采用自适应滤波算法，如最小均方误差（LMS）或归一化LMS（NLMS）算法，通过参考噪声信号估计并抵消主通道信号中的噪声成分，实现动态降噪。研究内容包括信号采集与仿真建模、自适应滤波器结构设计、算法参数调整及降噪性能评
鸿蒙开发必备技能：六种数据存储方式全解析+实战代码 harmonyos
摘要在当前多设备互联的时代，移动端应用不再局限于单一设备，而是需要在多个终端上保持状态一致、数据同步与持久管理。鸿蒙系统提供了多种数据存储机制，从轻量级状态存储到复杂的数据持久化方案，满足不同场景下的需求。本文将结合实战案例，深入讲解鸿蒙系统中的六大数据存储方式，并配有可运行的代码，帮助开发者快速掌握数据管理方法。引言随着鸿蒙系统的不断发展，越来越多的开发者开始构建面向多设备、多用户、多场景的智能
教育技术学读计算机论文的提示词东方-教育技术博主学术学习相关 AI
角色：你是一位经验丰富的计算机专业教授，擅长用通俗易懂的语言向初学者解释复杂概念。我现在正在学习阅读计算机科学领域的算法论文，但我的基础比较薄弱（了解编程基础如变量、循环、函数，了解一点数据结构和算法概念如数组、链表、排序，但对高级术语和数学证明不熟悉）。同时又是一个教育技术学教授。任务：请帮我解释以下论文内容中我不理解的部分。如果遇到初学者可能不懂的地方，我需要你用最清晰、最简洁、最易懂的方式解
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
深度学习流体力学【干货】人工智能交叉前沿技术，人工智能深度学习 python 机器学习
深度学习作为一种新兴的机器学习技术，为流体科学的研究提供了新的思路和方法。通过对大量数据的学习和分析，深度学习模型可以自动提取特征和模式，为流体科学中的复杂问题提供解决方案。然而，深度学习在流体科学中的应用还面临一些挑战，需要进一步研究和探索。未来，深度学习与传统流体力学方法的结合将成为流体科学研究的重要方向，多模态数据的融合、模型的可解释性、实时预测和控制等将是深度学习在流体科学中发展的重点。相
使用GPU进行机器学习训练时，如果GPU-Util计算核心满载工作但是显存占用较少，应该如何优化？十子木机器学习深度学习人工智能
是否需要优化？如果任务运行正常：无需干预（GPU设计本就是优先榨干计算性能）。如果出现卡顿或效率低下：增大batch_size：提升显存占用，减少数据搬运次数（但需避免OOM）。启用混合精度：torch.cuda.amp可减少显存占用并加速计算。检查CPU到GPU的数据流：避免频繁的小数据拷贝（如DataLoader的num_workers设置）。
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
Python 爬虫实战：12306 订单记录爬取（登录态保持 + 订单数据可视化）西攻城狮北 python 爬虫信息可视化
引言在大数据驱动的今天，12306作为国内最重要的铁路出行平台，积累了海量的出行数据。对于广大用户而言，能够方便地查看和分析自己的出行订单记录，不仅有助于行程管理，还能为未来的出行规划提供有力参考。本文将详细讲解如何利用Python爬虫技术实现12306的模拟登录，爬取个人订单记录，并通过数据可视化技术直观展示出行情况。一、环境搭建与准备工作（一）Python环境配置确保本地已安装Python3.
高精度相机：工业自动化的“慧眼”，驱动智能制造新未来 lingling009 数码相机
在当今工业4.0时代，自动化技术的飞速发展正重塑制造业格局。作为工业视觉系统的核心组件，高精度相机扮演着“智慧之眼”的角色，帮助企业在复杂环境中实现精准识别与高效操作。迁移科技，自2017年成立以来，已成长为行业领先的3D工业相机和3D视觉系统供应商。凭借在硬件、算法及软件领域的技术积累，我们打造了稳定、易用、高回报的AI+3D视觉解决方案，服务于新能源、汽车、化工、家电、金属制造等行业。本文将聚
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
结构光相机：重塑工业自动化的“智慧之眼”，驱动智能制造新未来 lingling009 数码相机
一、迁移科技——3D视觉领域的创新引擎迁移科技成立于2017年，凭借结构光相机核心技术，已成为全球领先的3D工业视觉系统供应商。累计融资数亿元，深耕硬件、算法与软件三位一体技术，打造“稳定、易用、高回报”的AI+3D视觉解决方案，服务新能源、汽车、化工等10+行业，赋能工业自动化转型升级。二、结构光相机如何破解工业四大痛点1：高精度定位——汽车装配的“毫米级守护者”痛点：传统2D视觉无法捕捉曲面零
入门pytorch-联邦学习四代机您发多少 pytorch 人工智能 python
本文联邦学习的代码引用于https://github.com/shaoxiongji/federated-learning本篇文章相当于带大家读一遍联邦学习的代码，同时加深了大家对联邦学习和Pytorch框架的理解。这里想简单介绍一下联邦学习。联邦学习说白了，就是假如有NNN个数据拥有者F1,...,FN{F_1,...,F_N}F1,...,FN，他们希望使用这些数据来训练机器学习模型，但是又各
探索Gemini Balance：Google Gemini API的代理与负载均衡解决方案几道之旅人工智能智能体及数字员工负载均衡运维人工智能
引言在人工智能领域，API的高效使用和管理至关重要。尤其是当涉及到Google的GeminiAPI时，为了实现更稳定、更高效的服务，我们需要一个强大的代理和负载均衡工具。今天，我们就来深入了解一下GeminiBalance这个开源项目，它为GeminiAPI的使用提供了全面而灵活的解决方案。项目概述GeminiBalance是一个基于PythonFastAPI构建的应用程序，主要用于提供Googl
意识边疆保卫战：22：47深圳AI-BioFab人机融合危机全息实录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《意识边疆保卫战：22：47深圳AI-BioFab人机融合危机全息实录》副标题：机械义肢产线惊现神经突触叛乱，中国科学家激活甲骨文量子纹重写人类认知主权2025年7月2日22：47光明科学城脑机接口中心急电负五层神经植入舱突爆血雾！为边防军人陈默安装的AI机械臂在神经接驳瞬间剧烈震颤，量子脑电图
时空屏障崩塌：14:28深圳AI-BioFab平行宇宙保卫战全纪实 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《时空屏障崩塌：14:28深圳AI-BioFab平行宇宙保卫战全纪实》副标题：抗癌疫苗冷链门关闭前3秒遭量子生物武器袭击，中国科学家启动长城时空盾改写人类文明存续方程2025年7月2日14:28:57光明科学城虫洞警报第184支疫苗即将注入液氮罐的刹那，B3层量子钟突现重影！14:28/15:4
实时直击：全球首座AI-BioFab工厂72小时全息记录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《实时直击：全球首座AI-BioFab工厂72小时全息记录》副标题：2025年7月2日深圳现场——癌症疫苗11天定制神话如何改写万亿生物经济规则本报深圳2025年7月2日电（记者徐远舟）此刻，位于光明科学城负三层的无菌车间内，液态机器人正将第4,817管CRISPR编辑液注入微流控芯片。墙上的量
生命制造的读秒革命：全球首个AI-BioFab工厂72小时全息记录 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生命制造的读秒革命：全球首个AI-BioFab工厂72小时全息记录》副标题：2025年7月2日14：04深圳现场——癌症疫苗定制最后3分钟如何改写万亿生物经济规则光明科学城2025年7月2日电（记者直击）负三层B区微流控平台红光闪烁，液态机械臂正将第9,217管CRISPR编辑液注入芯片。量子
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
千亿参数大模型轻量化实战：手机端LLM推理加速300%方案
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《千亿参数大模型轻量化实战：手机端LLM推理加速300%方案》副标题：2025实测骁龙8Gen4+FP4稀疏量化技术，70B模型推理延迟低至127ms，重构移动端AI天花板封面图：[高通骁龙8Gen4芯片显微照片与Llama3-70B手机端运行界面对比图，右上角标注「实测延迟：127ms/tok
多模态进化论：GPT-5V图文推理能力在工业质检中的颠覆性应用 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《多模态进化论：GPT-5V图文推理能力在工业质检中的颠覆性应用》副标题：2025年实测报告显示误检率降至0.0038%，重构制造业质量标准体系封面建议：GPT-5V识别微米级电路板缺陷的对比图，背景显示传统AOI与GPT-5V的误检率曲线一、工业质检的范式革命▶︎传统视觉检测的三大死穴传统AO
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发