夕小瑶

王喆：计算广告技术综述与思考

‍

编｜王喆

源｜DataFunTalk

导读：大家好，我是《深度学习推荐系统》的作者王喆，很多同行可能读过这本系统性介绍推荐系统的书，但大多数人可能不知道我职业生涯的头四年都在做广告系统，之后才在推荐系统方向工作了四年，这两年又回到了广告方向。既然是重操旧业，就不免想对计算广告这个方向做一次全面的再思考。深度学习浪潮如火如荼的这些年间，计算广告到底发生了哪些深刻的变化？相比于推荐系统，广告系统有哪些独特的、又至关重要的模块？在这个很多人认为深度学习的红利已经吃尽的大环境下，计算广告整个领域还有哪些突破口？搜广推行业的同行们，又应该怎样规划未来的发展？借这篇文章的机会，就让我们再一起“深度”学习一下计算广告。

01 计算广告系统在做一件什么事情？

广义的计算广告系统囊括的范围非常广，分类也非常复杂。比如效果广告和品牌广告，合约广告和不保量交付广告，CPC、CPA、oCPM、oCPC广告等等。搞清楚这些复杂的分类固然重要，但却不是重点，因为这些知识肯定会随着你从业年数的增加一一理解清楚。这里我们只描述这些广告系统的一个超集，从技术上，只要搞清楚了这个“超集”的技术体系，其他类型的广告系统通过补充一些枝节就可以比较快的熟悉。

那么这个超集是什么呢？我建议你就了解清楚oCPM广告系统是怎么工作的就完全足够了。oCPM的全称是 Optimized Cost Per 1000 Impressions，就是优化后的千次曝光价格。广告主需要选定一个优化目标，大多数时候是一个转化目标比如APP安装，电商购买行为等，但广告主还是按照CPM来付费。oCPM最早是由facebook提出的，这种付费方式既满足了广告主追求优化目标的利益，又保证了广告平台相比CPA付费比较可控的收入预期，双方利益都能有效保证，因此很快成为了效果广告行业的主流。那为什么说oCPM广告系统是最适合了解计算广告技术体系的“超集”呢？我们看一看它的计费公式就知道了。一般来说，oCPM广告要求广告主提供一个转化目标的出价，即CPA，那么一次广告展示的出价公式就是：_CPA x pCTR x pCVR x pacingFactor_上面的公式中pCTR指的是系统预估的这次广告请求的点击率，pCVR是预估转化率，pacingFactor是进行广告预算平滑使用的pacing因子。从这几个变量就可以看到，要做好oCPM广告，就一定要把CTR模型，CVR模型，广告预算相关的pacing模块都做好才行，而这几个模块，就是计算广告系统最核心的模块。如果是其他类型的广告，比如品牌广告，缺少了CTR，CVR模块；如果是CPC广告，缺少了CVR模块，都不能算是广告系统的“超集”。明确了我们要研究的对象，下面我们看一看一个经典的广告系统技术架构是怎样的。

02 当前经典的广告系统架构是怎么样的？

下面两张图分别是当前推荐系统和广告系统的经典技术架构。不用多说，大家粗略一看就能发现，广告系统的复杂度远远大于推荐系统。事实也确实如此，广告系统涉及到的模块数量，与系统外的其他系统，甚至不同公司交互的复杂度远远高于推荐系统。具体来说，广告系统的复杂度主要是下面三个问题带来的：① 广告系统往往需要跟Ad Exchange，广告主的数据系统，第三方计费度量系统，数据采买和合作公司系统进行对接，这些工作推荐系统一般不会涉及，工程复杂度就高很多。② 广告系统中的模型相比推荐模型的要求更高，推荐模型一般只要求把推荐物品的序排正确，广告模型则要求预估的CTR，CVR要非常准确，具备物理意义，因为这些都影响到出价和扣费这些直接和公司收入相关的模块。

③ 广告系统需要处理广告计划，需要合理匹配广告预算和流量，因此催生了一大批推荐系统不具备的业务模块和相应算法，包括pacing，流量预估，预算分配等等。

推荐系统技术框架

计算广告系统技术框架

复杂的系统代表着更多的挑战，当然也就意味着你要面对更多有意思的问题。如果说对推荐系统的改造是不断的打磨“推荐模型”这样一把利剑，改进广告系统就更像是打造一把“火枪”，只有把火枪上的各个零部件都打磨好，装配好，它才能发挥出最大的威力。那广告系统这把“火枪”上有哪些主要的零件呢？如上面的架构图，主要有四大部分：① 数据工程部分。这部分其实跟推荐系统没有明显区别，主要是在流式或batch的数据平台上处理广告模型/算法所用的样本、标签和特征。唯一有显著区别的是由于CVR模型需要第三方回传的转化数据作为label，因此需要增加一个度量模块，并在模型训练中处理label回传延迟的问题。② 算法流程部分。这个部分是指广告系统的主要逻辑流程。推荐系统的“召回、粗排、精排、重排”经典流程在这里被框定为Ad Ranking模块，这仍然是广告流程中的核心部分。此外广告系统还前置了定向、预算规划，后置了Pacing、对外竞价这些广告系统独有的模块。③ 基础模型部分。基础模型部分解决的是一个个比较独立的计算广告问题，比如CTR、CVR模型就是要准确的预估出点击率和转化率，Pacing算法就是要精确的控制广告计划的投放速度等，这些基础模型被算法的主流程调用，组装成为完整的广告投放逻辑。但一般来说，基础模型的各模块都可以当作独立的问题单独迭代。④ 模型工程部分。这部分跟推荐系统也是一致的，一般负责模型的在线/离线训练，模型的分发和评估等功能。在学习广告系统的过程中，我也建议大家心中先有系统框架，脑海里再逐渐补充各模块的细节。希望上面的架构图能先印在你心中，下面我们来看看，深度学习时代，各模块是怎么演进的。

03深度学习时代，广告系统各主模块的技术是怎样演进的？

1. Ad Ranking - 从大刀阔斧的革命到精雕细琢的改进

深度学习时代对于广告系统最大的革命性影响还是在于Ad Ranking，也就是架构图最中央的红色部分。而Ad Ranking的技术发展其实跟推荐系统的主流进展是高度一致的，在2022年的KDD-DLP workshop上，我与董振华，唐睿明两位博士合作的文章：

《A Brief History of Recommender Systems》

https://arxiv.org/pdf/2209.01860.pdf

又重新更新了《深度学习推荐系统》的模型发展图，这里也给大家分享一下：相比于几年前阿里提出的DIN、DIEN等模型，精排模型的发展其实有两个主要的趋势，一是Transformer、Bert等NLP结构的进一步引入，让模型具备更强的表达能力，这里面典型的模型是BERT4Rec；二是GCN等知识图谱领域的技术与精排模型的结合，让模型对于复杂结构的知识有了更好的融合能力，典型的模型有RippleNet，KGAT。但关于深度学习模型的发展，这里不希望展开太多，这里有两个原因：① 相关的信息已经过剩。大量paper、学术分析文章对这部分的关注已经过多，大家肯定也不缺乏相应的信息源。② 过于复杂的深度学习模型已经被不少公司证明对业务指标的提升效果是微乎其微的。复杂结构对于稳定性的影响，模型体积过大对于资源的过度浪费，已经很难和模型带来的效果提升持平。因此不希望过分强调模型继续朝复杂化的方向发展。特别是对于数据质量比较低的公司，盲目追求模型的复杂度，只意味着盲目的投入和计算资源的浪费。可以这么说，2016到2021年这段业界大刀阔斧的把原有传统模型替代为深度学习模型的时代已经过去了，大家不约而同的开始对自己的模型方案进行精雕细琢，这里面有两大机会：① 保效果的前提下，压缩模型体积降成本。这里面典型的工作是知识蒸馏在模型压缩上的应用。② 针对自己公司数据特点的模型微改造，微创新。这里面最典型的工作是多任务学习，也就是针对不同广告系统的优化目标不同，自定义不同的任务，融合在一个模型里学习。

很多同行可能会说，上面主要说的是CTR，CVR这类比较重的精排模型吧，召回和粗排的迭代难道也遇到同样的问题吗？这里我推荐大家读另外一篇文章，张俊林老师的两万字大作《推荐系统技术演进趋势：从召回到排序再到重排》

https://zhuanlan.zhihu.com/p/100019681

文中不仅详细介绍了当前召回的经典框架，而且覆盖了“用户行为序列召回”，“用户多兴趣Embedding召回”，“知识图谱召回”等多种新颖的召回手段，这里也不再重复了。

粗排领域近来给我比较深刻影响的工作是阿里的COLD：

Computing power cost-aware Online and Lightweight Deep pre-ranking system

https://arxiv.org/pdf/2007.16122.pdf

它的主要思路是通过一系列的infra优化提升了深度学习模型中特定operation的计算效率，从而能够在粗排阶段应用原来不具备应用条件的复杂模型。两年前我们的认知还认为粗排召回只能用双塔模型，因为可以通过ANN的计算快速找到合适的备选。但COLD的提出让粗排层也能够进行复杂的特征交叉，给人一种“合久必分，分久必合”的感觉。事实也确实如此，七八年前，大家清一色用的是FTRL，因为是线性模型，计算速度非常快，系统也没有必要分成召回粗排精排这么多层。四五年前，随着深度学习模型的崛起，排序模型做的效果越来越好，但体积也越来越大，延迟越来越长，我们不得不把Ranking的过程拆分开来，召回负责快速过滤候选集，粗排负责高效的排序和截断，精排最终进行精排序。近年来，随着我们在model serving，deep learning infra上面投入的精力越来越多，深度学习模型也可以用在粗排上，甚至可以和精排模型合并。这也代表了Ad Ranking相关技术的下一步发展趋势，几乎所有一线公司关注的方向都是类似COLD的Algorithm-System Codesign的方式。**在有限的资源下寻求“成本-效果”的综合优化，远比让模型成为吞金巨兽来的实在一些。

2. 联邦学习 - 隐私合规时代的新宠

近几年在广告模型领域异军突起的一个方向是联邦学习。它的基本概念不难理解，就是把原来集中式的模型学习过程分布到不同的数据拥有方的计算节点上，不同的计算节点像“联邦”一样互相配合完成一个模型的学习。联邦学习的流行主要是由于大家越来越重视数据的作用和对用户隐私的保护，特别是不同的数据巨头合作的时候，互相不愿意分享原数据，又希望发挥数据的作用来提升广告效果，这就给了联邦学习生长的土壤。联邦学习的基本原理可以用一个“加密”版的分布式parameter server来解释。传统的parameter server是在同一个数据中心的很多计算节点上并行进行模型训练，每个节点训练一部分数据，然后把模型参数或者梯度上传至parameter server。如果把计算节点替换成不同的数据主体，再把参数传递的过程进行加密，就成为了联邦学习的一般方案。如下图所示，计算节点变成了手机，平板，PC，数据中心等等，这些都可以成为能够独立保证数据隐私的数据主体。在完成本地数据的训练之后，模型的参数或者梯度等可以通过差分隐私或者各种加密算法进行传输，保证接收方无法解密出受保护的数据信息，同时能够完成模型的更新。

这几年来联邦学习方案在广告和金融领域应用越来越广，主要是这两个领域特别依赖用户的隐私数据，但又对隐私数据有很强的保护需求。比较典型的案例有微众银行在风控上的联邦学习应用：

https://aisp-1251170195.cos.ap-hongkong.myqcloud.com/wp-content/uploads/pdf/%E8%81%94%E9%82%A6%E5%AD%A6%E4%B9%A0%E7%99%BD%E7%9A%AE%E4%B9%A6_v2.0.pdf

京东腾讯广告平台对联邦学习上的合作等等。近年来，各大巨头也陆续推出了自己的联邦学习框架，比如：

阿里的FederatedScope： https://federatedscope.io/

微众银行的FATE： https://fate.fedai.org/

但联邦学习也有它的弊端，主要是对参与方的技术门槛要求比较高。如果是小的合作方、广告主，没有技术能力，其实很难玩的转联邦学习。所以目前来说，联邦学习的方案还主要是大厂之间的游戏。如何提高它的易用性，让小的合作方能够无门槛进入是当前的痛点。

3. Pacing - 广告系统的隐藏核心

这一小节我们来介绍Pacing这个模块，Pace的意思是步伐，调节步伐或者速度的意思。顾名思义Pacing就是指广告中调节广告投放速度的模块。其实广告系统的业界和学术界的同行们大多数的关注点都在CTR，CVR预估这类“大模型”上，Pacing这种非常偏实践，偏工程模块的曝光度就比较低。但事实上，Pacing在广告系统中的重要程度丝毫不亚于CTR，CVR预估，甚至可以称为广告系统的“隐藏核心”。因为Pacing做不好，你的系统一分钟内把人家一天的预算都投完了，怎么会有广告主敢在你的平台上投放呢，更谈不上去观察投放效果了。这也是广告系统独有的魅力，就是有很多工程问题是要切实的，深入问题核心去解决的，任何实验环境，或者模拟环境都无法真正积累起最宝贵的广告系统工程经验。而对于一位广告系统工程师来说，这样的经验才是你最深的技术护城河。那么如何做好Pacing模块，其实是有经典答案的，这里推荐三篇Pacing的经典论文：

(1)雅虎:

https://arxiv.org/pdf/1506.05851.pdf

(2)Turn:

https://arxiv.org/pdf/1305.3011.pdf

(3)Linkedin:

http://wnzhang.net/share/rtb-papers/linkedin-pacing.pdf

要设计一个好的Pacing模块一定要解决两个核心问题：① 一个广告计划应该以什么样的预算分配曲线投出去？② 预算曲线设定好了之后，广告引擎应该如何投放广告让消耗符合预算曲线的趋势？

对于问题①，广告预算的分配一般有下面几种情况。比如图a，还没到全天结束就把预算花完了，后面几个小时的流量没有利用上，这显然浪费了流量。图b的预算像过山车，让广告主投放的心惊胆战，显然也不是好的分配方式。图c平均分配了预算，虽然平滑但不高效。图d和图e分别按照流量波动和广告计划的效果波动来分配预算，是两种经典的预算分配方式。

按照效果分配预算的方式其实比较好理解，就是看广告计划的历史投放效果，晚上的转化效果好就晚上多分配一些，周末效果好就周末多分配一些。按照流量分配预算的方式是现在流量分配的主流方式。要做好按照流量分配，也分为两步，一步是做好符合该广告计划的流量预估，第二步是做流量和广告预算的配对分配。

流量预估是一个特别偏实践的话题。大家也不用看什么太深奥的paper，业界主流的做法就是用一些时序预估预估的方法：

https://souhaib-bentaieb.com/papers/2014_phd.pdf

比如ARIMA去预估总流量的趋势。用一些机器学习模型去预估细粒度上的流量分布偏移量。比如影响流量的典型特征有，是否节假日，ios/android，是否周末，男性/女性等。用xgboost，NN等比较通用，拟合能力也比较强的模型进行学习即可。

有了一个靠谱的流量预估模型，那么剩下的就是做广告预算的分配，能在全局上更好的把预算分配给对应的流量。简单的做法当然就是预估一条计划可投的流量趋势之后，预算也按照这样的趋势分配就可以了。但这样的方式没有考虑全局条件下不同计划竞争的问题，在流量比较稀缺的场景下，如果要考虑全局分配的话，这个问题就会变成一个经典的二部图匹配的问题。

如何解这个问题，其实是一个比较复杂的数学问题，这里就不展开了，推荐两篇老东家hulu的同事们写的经典blog，分别用Dual，High Water Mark，SHALE三种方法解决这个问题。

https://mp.weixin.qq.com/s/JbPgHJaGKttEbtGeXgRiFghttps://mp.weixin.qq.com/s/I-xvNFl4A30LGfyD9zb9ww

当然，对于大多数广告系统，能够做到比较准确的流量预估，并按照流量去分配预算，就已经是非常优秀的实现方案了。

讨论进行到这，其实刚完成了预算分配这第一步；下一步我们要讲解Pacing模块如何设计才能让cost按照预算曲线投放。我们其实可以把Pacing模块当作一个水龙头，我们通过调大和调小这个水流大小来达到控制投放的目的。如下图所示，这个水龙头控制的经典变量有两个，一个是概率控制，一个是出价控制。前者是指通过控制随机drop广告流量的概率来控制广告投放的速度，后者是指控制广告出价的高低来控制竞胜率，来控制广告投放的速度。虽然两者的控制对象不一样，但控制方法是相似的。大白话就是，当实际消耗大于预算的时候，拧紧一些这个水龙头，反之，放松一些这个水龙头。形式化的来说，主要是下面这个公式：

其中pi,t-1是t-1时间片上的“水龙头概率”，rt是一个调节参数，si,t是t时刻的实际消耗，ai,t是t时刻的预算。所以公式中rt的决定就至关重要了，对于一个控制问题，我们当然要搬出控制论中最经典的PID控制，事实上用它解决pacing的问题也完全够用了。当然有不熟悉PID控制的同行们不难通过网上的资料熟悉它。至此，我们介绍完了Pacing模块的经典方法，几乎也是业界的统一解法。这也是一个可以不断打磨的模块，比如启动期和结束期的平稳控制，与出价、预估模块的复杂配合，都考验着相关工程师的全面性和对细节的把控能力。4. 竞价 - 博弈的艺术

下面要介绍的是计算广告系统中的另一个很有意思的模块，就是竞价模块。竞价模块要解决的问题是用什么价格去购买外部的流量才是合适的。比如我是一家DSP，流量全部来自于购买Ad Exchange的流量。那么如何用便宜的价格买到优质的流量就是非常重要的事情。否则，你的整个生意就是赔钱的买卖。在竞价策略方向上，我比较推荐大家参考上海交大的张伟楠副教授和任侃博士的研究。

https://arxiv.org/pdf/1803.02194.pdf

https://arxiv.org/pdf/1701.02490.pdf https://www.saying.ren/thesis/phd_thesis_Kan_Ren.pdf

竞价策略的好玩之处在于它是一个与对手博弈的艺术。某种意义上来说，广告交易所跟股票交易所是很接近的，只不过它们一个交易的是广告流量，一个交易的是股票，实时竞价广告中竞价策略的开发与股票交易所中的高频交易策略也是很相似的。

如果我们不以“博弈”的思路来优化竞价策略，而是以流量采买的思路来定义竞价策略，会发生什么事情呢？我们就以系统算出的这条流量的ecpm来去竞价，竞得到，我们会以≤ecpm的价格拿到这部分流量，竞不到，我们也不亏，总体上来说，我们是有利可图的。但是“有利可图”并不代表着“利益最大化”。比如我们系统判断这条流量值1块钱，但其实其他竞价方最高只出到1毛钱，在越来越多的ad exchange改成1价计费的前提下，我们其实亏了9毛钱。我们只考虑自己，不考虑竞争对手，这种竞价方式往往会让我们只能取得微薄的利润。但其实四五年前，大部分的竞价方确实是这样做的。如果希望用更“贪心”的博弈策略来竞价，就必须首先做到“知己知彼”，而要“知彼”，就要构建好你的竞争对手对某类流量的出价分布，这就是所谓的bid landscape。下图就是针对某个广告位的整体出价分布，和基于这个出价分布的竞胜率曲线。利用统计方法的bid landscape预估其实是实用的，但却没有办法把更多流量特征放进来，进行更为个性化的精准预估。如何融合更多的特征做准确的bid landscape预估呢？下面就介绍一种把深度学习应用于竞价模型思路——DLF（Deep Landscape Forecasting）。DLF本质上是一个序列模型，RNN，LSTM，GRU等都可以作为其模型结构。这里以RNN为例解释其原理。如下图所示，搞清楚原理的关键是明白每个神经元的输入输出都是什么。以红框里的神经元Z为例，它预估的是流量特征x下，在价格区间z内竞得这条流量的概率hz，并向右传递给下一个神经元一个状态隐向量rz。

有了这样一个神经网络。我们就可以知道，流量特征x条件下，如果出价是b，那么它竞价失败的意思就是在小于b的价格区间上全部无法竞胜，也就是所有区间失败概率的乘积：

反过来说，出价b的竞胜率就是：在这套框架下，我们就可以用深度模型解决bid landscape预估的问题，从而大大提高原来统计方法对特征利用不足的问题。

那么得到了bid landscape的预估曲线，如何去制定竞价策略去参竞其实是一个更全局的问题。这里面就必须要考虑广告主侧的利益。如下图所示，竞价模块最核心的部分是图中红绿蓝的三块。其中user response prediction其实就是我们常说的CTR，CVR预估，通过它得到系统对这条流量广告主获得价值的预估，而bid strategy部分负责综合广告主的价值预估和这条流量的成本预估，做出一个决定，到底参与不参与这条流量的竞价，到底以多高的价格去竞价。

我们其实可以用一个非常朴素的，但直击问题本质的模型来解决这个问题。基本的原则是：我们应该竞得那些成本低，但广告主价值高的流量，这中间的差值越大，我们越应该竞得它。所以竞价策略要解决的其实是在预算限制下去最优化广告主价值的利润：

max∑((advertiservalue - winprice)*winrate)

但由于winrate和bidprice之间有关系，winprice又受bidprice影响，所以让这个问题变成了一个比较复杂的全局优化问题，传统的方法是用贪心的策略去解决，虽然做不到全局最优，但起码能做到出价合理。要彻底解决这个最优化问题依赖非常复杂的数学理论，我甚至认为在复杂多变的实际竞价环境下，即使数学上设计的够严谨，也无法做到最优的解决这个问题。所以实际竞价环境中我们更希望用比较实用的贪心策略或者控制策略来解决利润最大化的问题。

5. Calibration

我之前写过一篇介绍推荐模型和广告模型区别的文章：

https://zhuanlan.zhihu.com/p/430431149

提到推荐模型的首要任务是要把排序做的更好，而广告模型则要把CTR，CVR估的更准。因为计算广告的ECPM出价公式中，是一定要把CTR，CVR预估的准确，才能出好价，才能不浪费钱。因此，在广告系统中，有一个独特的模块叫做Calibration，就是要在训练出的CTR，CVR模型预估的不太准确的时候，用一个附加模块，把预估值强制地纠偏到后验结果上去。

就比如说，我们把N个样本按照预估CTR值从左到右排列，分100个桶，每个桶N/100个，再根据样本上的label算出后验的CTR，下图中，我们假设灰色的线就是后验CTR，彩色的线是桶内的模型预估值CTR均值，那么显然，左边的黄色预估CVR曲线是不准确的，因为在模型后段明显高估了。而绿色的线显然更为准确，把黄色的线纠正成绿色线的过程就叫做Calibration。比较经典的Calibration方法是保序回归。就是说我们不改变按预估值排序的样本的顺序，就通过改变预估值来让模型的输出更接近后验分布。事实上，上图中把黄线纠正成绿线的过程就是保序回归的过程。我们并没有让黄线的趋势逆转，只是把它“捋直了”，让他更接近后验了。具体的保序归回方法是非常经典的统计方法，大家可以很容易查到具体的资料。由于现在主流的CTR，CVR预估模型都是深度学习模型，所以针对深度学习模型本身的Calibration方法也是层出不穷，比如做model ensemble，模型中加一些bias，模型里建一个专门用来calibration的tower等等。这里介绍一个Instacart工程师，提出来的方法，比较简单易用，也可以一试。

https://tech.instacart.com/calibrating-ctr-prediction-with-transfer-learning-in-instacart-ads-3ec88fa97525

他采用的方法是在广告请求中随机选出一部分流量作为无偏的随机流量，当然它们产生的训练样本就是无偏的训练样本。当你用全量数据集训练好模型之后，锁定模型较低层的参数，再用这个无偏的小数据集训练最上面的1-2层，把模型输出纠正为无偏输出。这个方法说好听点叫transfer learning，说的直白点其实就是一个巧妙的纠偏技巧。这个方法的实用之处在于我们的数据本身大多数情况下都是有偏的，因为我们经历了流量筛选，模型排序等步骤，投出去的样本大概率是被自己系统带偏的，这时候保留无偏数据集做calibration就是非常重要的把模型带出“坑”的一步。否则整个广告系统有可能像一个不稳定正反馈系统一样，越走越偏。6. 转化样本延迟问题最后我想谈一谈的是困扰了效果广告系统好多年的一个问题，就是转化样本回传的延迟问题。我6年前做DSP的时候就被这个问题折磨的不行，没想到这两年回到广告方向，这个问题还是那么痛。我们看看这几年广告行业的工程师们有哪些奇思妙想来解决这个问题的：部分内容引用自：https://zhuanlan.zhihu.com/p/506476146转化延迟问题这么痛的原因是它让模型很难处理那些转化延迟很长的样本，把它们当作正样本也不是，负样本也不是，如果一开始当作负样本训练，未来转化回传回来，样本翻正了之后也很难处理。2014年Criteo有一篇影响力很大的文章提出了一个经典的解法，就是在CVR模型训练过程中加入一个预估转化延迟的模型DFM（Delayed Feedback Model）。这个DFM模型主要用来预测转化延迟在训练窗口外到来的概率p(d＞w0|y=1)。于是CVR模型的loss function就可以改写成如下的形式。

那么这个DFM模型如何训练呢？是和CVR模型进行利用EM方法联合训练的，先固定CVR模型，训练DFM模型，再固定DFM模型，训练CVR模型直到二者收敛。DFM的方法虽然听上去很合理，但真要去实现的话可能算法工程师们都会望而却步，因为这种联合训练的方法不是标准的建模方法，而且需要进行多轮的EM迭代，费时又费力。比较实用的方法是通过延迟下发正样本+Calibration的方案来解决。就是模型在收到点击样本的时候就当作负样本去训练，在收到延迟转化样本的时候直接当作一个正样本去训练。那这样的话模型肯定是有偏啊，那就在模型之后依赖Calibration模型去纠偏，因为Calibration模块会考虑较长时间稳定的后验CVR，因此可以把模型纠正到正确的后验上来。除此之外，今年阿里在WWW上发表的一篇论文也挺有意思：

https://arxiv.org/pdf/2202.06472.pdf

简单来说，阿里提出了一种叫做Bi-DEFUSE的模型结构，在shared base上分出两个头，分别预估转化窗口内的CVR，和转化窗口外的CVR。然后在预估最终CVR的时候，再把二者加起来。

这样的模型有什么好处呢？站在一个工程师的角度就是模型的稳定性和准确性都能够得到保证。因为左边塔代表的窗口内CVR头完全不受转化延迟的影响，可以认为预估值是准确的，这个头保证了模型的稳定性。而右边的头则可以用一系列的纠偏方法专注于预估转化窗口外的延迟转化。比如原文中采用了一种叫DEFUSE的纠偏方法，实际操作中，我们也可以采用不同方法来实现这部分的设计，甚至可以为这部分独立建模，然后再跟窗口内CVR模型做bagging。独立建模之后，我们可以彻底忽略转化延迟对左侧模型的扰动，让转化回传的影响完全可控。

04 对广告领域算法工程师未来发展的思考

洋洋洒洒写了这么多，说是“深度”学习计算广告，其实也只是过了一遍当前广告系统面临的主要问题和相应的解决方法。之前写过一篇文章，叫算法工程师的天地之间：

https://zhuanlan.zhihu.com/p/495479206

说到系统架构是天，数据和技术细节是地，我们算法工程师们只有了解“天”才能不出方向性的错误，而只有踏踏实实的踩在“地”上，去分析数据的细节，了解技术的具体实现，才能真正做出实际的效果，这一点在广告系统这种工程实践属性非常强的领域尤甚。这篇文章，顶多让你了解一下广告系统的天，而实际的工作都是基于对琐碎数据的观察，工程和算法的联合优化带来的。实际工作中最欠缺的人才，应该是广告系统体系烂熟于胸，但却能躬亲入局，查看算法和数据细节的人。工作中也无时无刻不在出现新的问题，不可能是paper中包括的，因此灵活地，针对性地解决这些问题，才是真正优秀的算法工程师。计算广告发展到今天，已经度过了粗放型生长的阶段。业界大的红利也早已经被拿走。但相比推荐系统日益追求精深的推荐模型来说，广告系统的各大模块极度依赖工作经验。没做过就是没做过，做过了就是有不一样的思考和深度。当深度学习模型技能已经变成算法基本功的当下，去踏踏实实地在一个领域做精做深，学会主动思考，主动去解决问题，反而有可能成为业界不可多得的人才。大家在进入一个行业之前，好多人咨询过我，这个方向好不好，那个方向火不火，甚至几位应届生都咨询到是做召回还是做精排更有利于未来发展的程度。我想说的是大家大可不必为这样细节的选择焦虑，任何一个方向都能锻炼人的主动思考能力，在算法工程师的面试流程、面试内容都快成为明牌的现在，如果你能对一个问题有自己合理且独到的见解，我想所有的面试官都会眼前一亮，“贪婪”的想从你身上得到点什么吧。。这些寻求一点点“不一样”的思考能力，正是我对算法工程师未来发展的思考。

后台回复关键词【入群】

加入卖萌屋NLP、CV、搜推广与求职讨论群

‍‍

你可能感兴趣的:(王喆：计算广告技术综述与思考)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag