IT农民工1

如何用强化学习优化广告投放中的A/B Test

公众号后台回复“图书“，了解更多号主新书内容

作者：会痛的stone

来源：R语言工程化

A/B Test是决策科学的最常见方法之一。以广告投放为例，将客户群分为两组或多组，每组群体展示不同的广告形式。在测试结束时，针对测试结果选择最优的形式做大量投放。

然而A/B test有个很大的弊端，即一定程度上影响了部分用户的体验。尤其在测试内容存在极好、极差的情况下。

如果只有一个A/B test，那么成本可能是可控的，值得进行投资以发现最佳素材。但是，如果有多个A/B test，或者要测试多个版本，那么会有大量用户没有被提供最优体验，这可能会带来高昂的成本。

又或者，受成本限制无法进行一定量级的A/B Test，又或者成本能支持的A/B Test量级通过中心极限定理测算达不到目标精度要求的样本量。

理想情况下，我们希望能够迅速排除较差的版本，将测试集中到较优质的版本上。

多臂赌博机(Bandit算法)

在介绍他之前先简单聊聊强化学习。

强化学习就是学习做什么（即如何把当前的情境映射成动作）才能使得数值化的收益信号最大化。学习者必须自己通过尝试去发现哪些动作会产生最丰厚的收益，并且在某些情形下，策略动作不仅仅影响即时收益，也会影响后续收益。因此，试错与延迟收益是强化学习两个最重要最显著的特征。

为了获得大量的收益，强化学习智能体会更喜欢那些在过去为他有效产生过收益的动作（开发）；同时，为了发现这些动作，往往需要尝试从未选择的动作（试探）。因此，试探与开发的权衡成了强化学习独有的挑战。

并且，试探应是一直存在的，即便已经发现了当前收益最大的行为。因为在现实情况中，期望收益会随着时间变化而改变（非平稳），需要不断试探去发掘符合新情形下最大化收益的动作。

而多臂赌博机是强化学习的入门版本，背景是一个赌博机有k个杆，每拉一个杆都会产生一次收益，如何使收益最大化。其中，每个杆的收益可以是定值，也可以是服从某个分布（收益有波动）。至于如何通过尝试+开发来使收益最大化，这就引出了多臂赌博机的三种基本算法：ε-贪心、UCB（置信度上界）与Thompson Sampling（汤普森采样）。

ε-greedy

每次动作选取精简版的逻辑如下：

每次行动有两个选择，一个是选择之前收益最大的动作（以1 - ε 的概率），一个是随机选取动作（以 ε 的概率）。这里ε为给定的概率值，取值在0~1之间。

如果要增加试探，则增大ε取值；相应的，如果想要增加开发，则减小ε取值。如果取ε等于0，则变成了贪心算法，贪心算法只适用于收益定值的情形下（局部最优即全局最优），在收益服从某种分布的情形下表现很差。

UCB（置信度上界）

ε-贪心中以 ε 的概率选取随机动作，这种随机选取显然是盲目的，一个更好的策略是根据他们的潜力来选择可能更优的动作。但是完全变成贪心算法，从长远看效果很差。一个有效方法是按照以下公式选取动作：

c为给定的系数，Nt(i)为时刻t之前动作i被选择的次数。计算以上公式计算当前每个动作的收益情况，选取最大收益的动作，若某动作未被选取过，参照以上公式收益为无穷大，则该动作将会被选取。

所有动作最终都会被选取，但随着时间流逝，价值估计较低的动作以及已经被选取多次的动作再被选取的频率会变低。

Thompson Sampling（汤普森采样）

TS是一种贝叶斯算法，从结构上看他与贪心算法类似，都是选取当前收益最大的动作。但与之不同的是，贪心算法是基于每个动作历史收益的矩估计（样本均值），TS是基于每个动作后验分布的采样值。

以两点问题为原型的两种算法示例：

其中，t为第t次行动，k为可供选择的动作数，为第i个动作期望收益的估计值（样本均值），意为第i个动作的期望收益的后验分布服从贝塔分布。

正是由于二项分布期望的共轭先验分布为贝塔分布的良好特性，使得每次更新后验分布变得非常容易，

其中，rt表示是否产生收益，是则为1，否则为0。也就是说，每次对应动作后验贝塔分布的参数更新只是先前两个参数α或β加1即可。随着α + β 的值越大，分布曲线越集中，采样值也会越来越接近。

下面，以广告投放为背景测试下传统A/B Test与多臂赌博机算法的效果。

仿真模拟

有5个广告素材需要在同一投放平台进行A/B Test，假定5个素材的真实CTR分别是5%、6%、15%、25%、28%。我们会对5个素材各进行1000次曝光，并进行1000次模拟以求得每种算法的期望收益。本文仅考虑收益平稳且上下文无关的情况。

1. A/B Test

假定对实际CTR的预估误差必须有90%把握控制在5%以内，则根据中心极限定理最小样本量为：

根据计算结果，首先对5个素材各进行271次实验，之后对剩下的总次数平均分配到最优素材上。实现代码如下，

# A/B TEST
# setup 
horizon <- 1000L # 时长、试验次数
simulations <- 1000L # 模拟次数
conversionProbabilities <- c(0.05, 0.06, 0.15, 0.25, 0.28) # 真实CTR


nTestSample <- 271


clickProb <- rep(NA, simulations)
adDistMatrix <- matrix(NA, nrow = simulations, 
                       ncol = length(conversionProbabilities))
adDistMatrixAB <- matrix(NA, nrow = simulations, 
                         ncol = length(conversionProbabilities))
ABPayoff <- rep(NA, simulations)
# simulation
for(i in 1:simulations) {
  testSample <- sapply(conversionProbabilities,
                       function(x) sample(0:1, nTestSample, replace = TRUE, prob = c(1 - x, x))) # 模拟测试期所有广告点击情况
  
  testColumns <- (1:length(conversionProbabilities))[-which.max(colSums(testSample))] # 取出非最优广告
  
  p.values <- sapply(testColumns, function(x) prop.test(x = colSums(testSample[, c(x, which.max(colSums(testSample)))]),
                                                        n = rep(nTestSample, 2))$p.value) # 与最优广告做假设检验
  
  adsAfterABTest <- (1:length(conversionProbabilities))[- testColumns[which(p.values < 0.05)]] # A/B Test后选取最优广告进行投放
  
  # now just with the best performing ad(s)
  ABSample <- sapply(conversionProbabilities[adsAfterABTest],
                     function(x) sample(0:1, 
                                        round((horizon - nTestSample) * length(conversionProbabilities) / 
                                                length(adsAfterABTest), 0),
                                        replace = TRUE, prob = c(1 - x, x))) # 模拟Test后最优广告的投放情况
  
  clickProbTest <- sum(as.vector(testSample)) / length(unlist(testSample))
  clickProbAB <- sum(as.vector(ABSample)) / length(unlist(ABSample))
  
  clickProb[i] <- clickProbTest * (nTestSample / horizon) + clickProbAB * (1 - nTestSample / horizon)
  
  # 计算广告选取情况及收益情况
  adDistMatrix[i,] <- rep(1 / length(conversionProbabilities), length(conversionProbabilities))
  adDistributionAB <- rep(0, length(conversionProbabilities))
  adDistributionAB[adsAfterABTest] <- rep(1 / length(adsAfterABTest), length(adsAfterABTest))
  adDistMatrixAB[i,] <- adDistributionAB
  ABPayoff[i] <- (nTestSample * clickProbTest) + ((horizon - nTestSample) * clickProbAB)
}


# mean payoff
mean(ABPayoff)
# about 236.0714

A/B Test总体在1000次曝光中平均带来了236次的点击，约占可能最好收益(280)的84％，这个结果还不错。再看下广告的选取情况，

在前271个试验中，广告被选取投放的比例是平均的。在接下来的500个试验中，最常看到广告5（效果最好的广告），其次是广告4，很少看到广告3。

如果把要求定的严格点，如90%把握误差控制在2%以内，则所需样本量提高，A/B Test效果更好。

2. ε-greedy

library(contextual)


# EPSILON GREEDY
horizon <- 1000L
simulations <- 1000L
conversionProbabilities <- c(0.05, 0.06, 0.15, 0.25, 0.28)


bandit <- BasicBernoulliBandit$new(weights = conversionProbabilities)
policy <- EpsilonGreedyPolicy$new(epsilon = 0.10)
agent <- Agent$new(policy, bandit)


historyEG <- Simulator$new(agent, horizon, simulations)$run()


plot(historyEG, type = "arms",
     legend_labels = c('Ad 1', 'Ad 2', 'Ad 3', 'Ad 4', 'Ad 5'),
     legend_title = 'Epsilon Greedy',
     legend_position = "topright",
     smooth = TRUE)


summary(historyEG)

可以看到Epsilon Greedy（这里取ε = 0.1）算法可以迅速确定Ad 5是最优的，并且随着时间的推移而不断改进。总点击（收益）为250次，约占总可能最好收益的89.2％。这也比A/B Test试高出约6％，因为该算法能够比传统方法更快地开始利用最优质的广告。

3. UCB

library(contextual)


# UCB
horizon <- 1000L
simulations <- 1000L
conversionProbabilities <- c(0.05, 0.06, 0.15, 0.25, 0.28)


bandit <- BasicBernoulliBandit$new(weights = conversionProbabilities)
policy <- UCB1Policy$new()
agent <- Agent$new(policy, bandit)


historyEG <- Simulator$new(agent, horizon, simulations)$run()


plot(historyEG, type = "arms",
     legend_labels = c('Ad 1', 'Ad 2', 'Ad 3', 'Ad 4', 'Ad 5'),
     legend_title = 'UCB',
     legend_position = "topright",
     smooth = TRUE)


summary(historyEG)

UCB总体收益为216，低于A/B Test。

4. Thompson Sampling

library(contextual)


# Thompson Sampling
horizon <- 1000L
simulations <- 1000L
conversionProbabilities <- c(0.05, 0.06, 0.15, 0.25, 0.28)


bandit <- BasicBernoulliBandit$new(weights = conversionProbabilities)
policy <- ThompsonSamplingPolicy$new(alpha = 1, beta = 1)
agent <- Agent$new(policy, bandit)


historyThompson <- Simulator$new(agent, horizon, simulations)$run()


plot(historyThompson, type = "arms",
     legend_labels = c('Ad 1', 'Ad 2', 'Ad 3', 'Ad 4', 'Ad 5'),
     legend_title = 'Thompson Sampling',
     legend_position = "topright",
     smooth = TRUE)


summary(historyThompson)

汤普森采样总体收益253，高于之前的所有算法，相对于A/B Test 收益提升7.2%，效果最好。

library(contextual)


# 比较三个bandit算法累计收益
horizon <- 1000L
simulations <- 1000L
conversionProbabilities <- c(0.05, 0.06, 0.15, 0.25, 0.28)


bandit             <- BasicBernoulliBandit$new(conversionProbabilities)


agents             <- list(Agent$new(EpsilonGreedyPolicy$new(0.1), bandit),
                           Agent$new(ThompsonSamplingPolicy$new(1.0, 1.0), bandit),
                           Agent$new(UCB1Policy$new(), bandit))


simulation         <- Simulator$new(agents, horizon, simulations)
history            <- simulation$run()


plot(history, type = "cumulative", regret = FALSE)

可以看到，UCB收益最低，ε-greedy起初较高，随后被TS超越。

总结

A/B Test在精度或总体收益要求高，但成本不足以支撑最小样本量的情况下，总体效果不是特别理想。
强化学习整体效果好于A/B Test，能更快更好的利用最优质素材，尤其是汤普森采样。
强化学习本质上是进行策略优化的，本文仅是一个抛砖引玉、开拓思路的作用，具体应用可以扩展到很多业务场景，留待大家思考。

参考

https://www.inwt-statistics.com/read-blog/multi-armed-bandits-as-an-a-b-testing-solution.html
强化学习（第2版）.[加] RichardS.Sutton，[美] AndrewG.Barto 著，俞凯等译
https://zhuanlan.zhihu.com/p/55254900
概率论与数理统计教程（第2版）.茆诗松，程依明，濮晓龙著

↑↑↑ 扫一扫就能关注我哦！

◆ ◆ ◆  ◆ ◆
麟哥新书已经在当当上架了，我写了本书：《拿下Offer-数据分析师求职面试指南》，目前当当正在举行活动，大家可以用相当于原价5折的预购价格购买，还是非常划算的：

数据森麟公众号的交流群已经建立，许多小伙伴已经加入其中，感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容，还没有加入的小伙伴可以扫描下方管理员二维码，进群前一定要关注公众号奥，关注后让管理员帮忙拉进群，期待大家的加入。

管理员二维码：


猜你喜欢

● 卧槽！原来爬取B站弹幕这么简单
● 厉害了！麟哥新书登顶京东销量排行榜！
● 笑死人不偿命的知乎沙雕问题排行榜

● 用Python扒出B站那些“惊为天人”的阿婆主！
● 你相信逛B站也能学编程吗

（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
算法分析与设计实验2：实现克鲁斯卡尔算法和prim算法表白墙上别挂我算法笔记经验分享
实验原理（一）克鲁斯卡尔算法：一种用于求解最小生成树问题的贪心算法，该算法的基本思想是按照边的权重从小到大排序，然后依次选择边，并加入生成树中，同时确保不会形成环路，直到生成树包含图中所有的顶点为止。具体步骤：边的排序：将所有边按照权重从小到大排序。初始化：创建一个空的生成树（可以是一个空的图结构），以及一个用于记录每个顶点所属集合（或称为连通分量）的数据结构（例如并查集）。边的选择：依次选择排序
Python高频面试题（四） Irene-HQ 测试 python 自动化测试 python 开发语言面试测试工具 github pycharm
以下是Python研发和自动化测试面试中‌更高阶的专项考点及典型问题‌一、并发与异步编程（高级）‌GIL全局解释器锁的应对策略‌问题：GIL如何影响Python多线程性能？如何绕过GIL限制？答案：GIL使同一时刻仅一个线程执行字节码，CPU密集型任务性能受限绕过方案：使用多进程（multiprocessing）、C扩展（如Cython）、异步IO（asyncio）‌46‌协程异步调用示例‌问题：
（面经总结）一篇文章带你整理面试过程中常考的九大排序算法南淮北安冲刺大厂之面经总结面经排序算法二分插入冒泡快速
文章目录一、二分插入排序1.原理2.代码二、冒泡排序1.原理2.代码三、插入排序算法1.原理2.代码四、快速排序算法1.原理2.代码五、希尔排序1.原理2.代码六、归并排序1.原理2.代码七、桶排序八、基数排序九、堆排序1.原理2.代码十、总结1.算法分类2.性能分析一、二分插入排序首先必须是排好序的数组，然后通过二分查找，找到合适的位置，插入1.原理二分查找算法又叫作折半查找，要求待查找的序列有
Python常考面试题汇总（附答案） TT图图面试职场和发展
写在前面本文面向中高级Python开发，太基本的题目不收录。本文只涉及Python相关的面试题，关于网络、MySQL、算法等其他面试必考题会另外开专题整理。不是单纯的提供答案，抵制八股文！！更希望通过代码演示，原理探究等来深入讲解某一知识点，做到融会贯通。部分演示代码也放在了我的github的该目录下。语言基础篇Python的基本数据类型Python3中有六个标准的数据类型：Number（数字）(
Python 编程基础作业总结
本周主要围绕Python基础编程展开了学习，通过一系列的作业题来巩固所学知识。这些题目涵盖了输入输出、条件判断、循环结构等多个基础知识点，下面将对每道作业题进行详细分析。1.计算指定月份第一天是星期几题目描述编写一个程序，接受用户输入的一个年份和一个月份，输出该月份的第一天是星期几。使用蔡乐公式计算星期。提示：使用蔡乐公式计算星期。W=((26*M-2)/10+D+Y+Y/4+C/4-2*C)%7
交叉编译Python-3.6.0到aarch64/aarch32 —— 支持sqlite3
参考https://datko.net/2013/05/10/cross-compiling-python-3-3-1-for-beaglebone-arm-angstrom/平台主机：ubuntu14.0464bit开发板：qemu+aarch64（参考：http://www.cnblogs.com/pengdonglin137/p/6442583.html）工具链：aarch64-linux-
python# python:3.5 aarch64构建镜像 Ling丶落 centos
构建失败从ubuntu中尝试构建FROMpython:3.5-slimLABELMAINTAINER="[email protected]"#installrelatedpackagesENVENVIRONMENTDOCKER_PRODWORKDIR/workCOPY./dataset.py/work/dataset.pyCOPY./model.py/work/model.pyCOPY./PyA
opencv-python与opencv-contrib-python的区别联系剑心缘零碎小知识 python opencv
opencv-python包含基本的opencvopencv-contrib-python是高配版，带一些收费或者专利的算法，还有一些比较新的算法的高级版本,这些算法稳定之后会加入上面那个。官网对contrib模块的简介（点击链接跳转）参考链接
通信算法之278：数据链/自组网通信设备--MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码--1.系统指标需求及帧结构设计秋风战士无线通信基带处理算法 MATLAB仿真软件无线电算法无人机经验分享
MIMO(2T2R)-OFDM系统系列–实际工程应用算法代码第一章：系统指标需求拆解分析第二章：通信系统帧结构设计和OFDM参数设计第三章：通信业务速率设计及理论解调门限第四章：同步序列设计及同步性能仿真验证第五章：数据业务设计及性能仿真验证第六章：信道模型设计第七章：接收关键算法设计及仿真验证第八章：其它待补充本文目录MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码一、实际项目：系
通信算法之287：通信技术点咨询秋风战士 MATLAB仿真软件无线电无线通信基带处理算法网络算法无人机经验分享
专业技术咨询方向第一：SFBC编码与解码原理推导第二：SFBC系统中信道均衡推导第三：云哨物理层协议-速率匹配-解调门限-5dB第四：两天线SCFDE系统（SFBC码）帧结构设计第五：两天线OFDM系统（SFBC码）帧结构设计第一：SFBC编码与解码原理推导第二：SFBC系统中信道均衡推导第三：云哨物理层协议-速率匹配-解调门限-5dB第四：两天线SCFDE系统（SFBC码）帧结构设计第五：两天线
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
两步移动搜索法（2SFCA）python 我在北京coding python python 开发语言
实现两步移动搜索法（Two-StepFloatingCatchmentAreaMethod,2SFCA）是一种广泛应用于地理信息系统（GIS）领域的方法，用于评估设施的空间可达性。以下是基于Python和GeoPandas的一种实现方式。准备工作为了实现2SFCA方法，需要准备以下数据集：供给点：表示服务提供方的位置及其服务能力。需求点：表示潜在使用者的位置及其需求量。距离矩阵：描述供给点与需求点
反向传播神经网络极简入门自信哥
单个神经元神经网络是多个“神经元”（感知机）的带权级联，神经网络算法可以提供非线性的复杂模型，它有两个参数：权值矩阵{Wl}和偏置向量{bl}，不同于感知机的单一向量形式，{Wl}是复数个矩阵，{bl}是复数个向量，其中的元素分别属于单个层，而每个层的组成单元，就是神经元。神经元神经网络是由多个“神经元”（感知机）组成的，每个神经元图示如下：这其实就是一个单层感知机，其输入是由和+1组成的向量，其
Java、python中高级开发工程师岗位框架要求统计爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ java python 开发语言
一、主流框架使用频率框架/技术出现频率说明SpringBoot89%几乎成为Java后端开发的标配，用于快速构建微服务和独立应用。SpringCloud76%微服务架构必备，提供服务发现、配置管理、网关等核心组件。MyBatis/MyBatis-Plus72%最流行的ORM框架，MyBatis-Plus进一步简化开发。Spring68%基础框架，中高级岗位要求深入理解IoC、AOP原理。Hiber
PPOCRLabel 环境配置教程 ysh9888 人工智能算法计算机视觉 opencv
PPOCRLabel环境配置教程_哔哩哔哩_bilibili1安装conda2新建环境condacreate--nameppocrpython=3.8--channelhttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/condaactivateppocrpipinstall-rrequirements.txt-ihttps://pypi
response.split(“\n“)[0].strip() 是什么 ZhangJiQun&MXP 教学 2021 AI python python 机器学习人工智能语言模型自然语言处理
response.split(“\n”)[0].strip()是什么returnresponse.split("\n")[0].strip()这行代码在Python中通常用于对字符串进行处理并返回处理后的结果response.split("\n")：split()是Python字符串对象的一个方法，用于根据指定的分隔符将字符串拆分成一个列表。在这行代码中，"\n"作为分隔符，表示按照换行符来拆分字
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
Python函数 python知识
1文档字符串函数定义下的第一个字符串是文档字符串，用于解释函数。可以通过help(function_name)或function_name.__doc__来查看。2函数返回单个返回值：return一个值无返回值：函数执行完毕没有return语句，或者return后面没有值，会隐式地返回None返回多个值：实际上是返回一个包含所有值的元组(tuple)3参数函数声明：使用def关键字来创建函数默认参
【限时干货】Calibre智能分类，轻松突破内网限制畅享电子书库比头发还脆弱服务器 tcp/ip linux
文章目录前言1.网络书库软件下载安装2.网络书库服务器设置3.内网穿透工具设置4.公网使用kindle访问内网私人书库前言本研究旨在构建一套运行于微软操作系统环境下的独立电子图书管理体系，核心目标是建立可远程操作的资源访问机制。该架构采用高可用性设计，在第三方阅读平台服务中断时仍能保障数字内容传输的稳定性。系统创新性地融合了两大核心技术组件：通过Calibre开源软件实现文献分类算法与格式转换功能
Python-selenium爬取藏在歌词里 python selenium 开发语言
selenium前言使用python的requests模块还是存在很大的局限性，例如：只发一次请求；针对ajax动态加载的网页则无法获取数据等等问题。特此，本章节将通过selenium模拟浏览器来完成更高级的爬虫抓取任务。什么是seleniumSelenium是一个用于自动化Web应用程序测试的开源工具集。它提供了一组API和工具，可以与多种编程语言一起使用，如Java、Python、C#等，用于
python --飞浆离线ocr使用/paddleocr
依赖#python==3.7.3paddleocr==2.7.0.2paddlepaddle==2.5.2loguru==0.7.3frompaddleocrimportPaddleOCRimportcv2importnumpyasnpif__name__=='__main__':OCR=PaddleOCR(use_doc_orientation_classify=False,#检测文档方向use
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
说话人识别python_基于各种分类算法的说话人识别（年龄段识别） weixin_39673184 说话人识别python
基于各种分类算法的语音分类(年龄段识别)概述实习期间作为帮手打杂进行了一段时间的语音识别研究，内容是基于各种分类算法的语音的年龄段识别，总结一下大致框架，基本思想是：获取语料库TIMIT提取数据特征，进行处理MFCC/i-vectorLDA/PLDA/PCA语料提取，基于分类算法进行分类SVM/SVR/GMM/GBDT...用到的工具有HTK(C,shell)/Kaldi(C++,shell)/L
llama-cpp-python使用教程 try2find llama python 开发语言
以下是llama-cpp-python的完整使用教程，涵盖安装、基础用法、高级功能（如GPU加速、多模态等）和常见问题解决。1.安装1.1基础安装（CPU版）pipinstallllama-cpp-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1.2启用GPU加速（CUDA）CMAKE_ARGS="-DGGML_CUDA=ON"pipinstall
【Python】列表嵌套字典多规则排序魔都吴所谓 Python 算法工具 python 服务器 java
数据a=[{"project":"pro_613","branchList":[]},{"project":"pro_614","branchList":[]},{"project":"pro_612","branchList":[]},{"project":"pro_631","branchList":[]},{"project":"pro_617","branchList":[]},{"pro
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

如何用强化学习优化广告投放中的A/B Test

参考

你可能感兴趣的:(算法,人工智能,python,大数据,机器学习)