龙心尘

ML学习分享系列(2)_计算广告小窥[中]

原作：面包包包包包包
修改：寒小阳 && 龙心尘
时间：2016年2月
出处：http://blog.csdn.net/Breada/article/details/50697030
http://blog.csdn.net/han_xiaoyang/article/details/50697074
http://blog.csdn.net/longxinchen_ml/article/details/50697105
声明：版权所有，转载请联系作者并注明出处

1. 引言

提笔写这篇博客，我的内心是惶恐的。原因很简单，作为一个资历尚浅的研究生，是没有资格对计算广告这样一个伟大的行业、领域和学科来评头论足的。之所以这么做，一是总结自己已掌握的知识，二是降低同学们的学习成本。本人能力有限，更缺乏实践经验，文章内容多为书籍和论文的读后感，若有不当或者错误之处，还望各位同学指出，我定悉心求教。在此，向编写《计算广告》的刘鹏和王超两位老师致谢，向各位paper作者致谢。

[关于ML学分计划]

由寒小阳和龙心尘发起，一个互帮互助的机器学习知识共享平台。
我们是一群对机器学习感兴趣的小伙伴，对于神奇的机器学习经常有“一探究竟”的冲动，却因为孤身一人学习的寂寞、亦或繁忙考试工作之余的小小拖延症，而没有持续这份对知识的渴求和热情。
由于深感类似情况的小伙伴之多，我们希望建立一个“ML学分计划”——机器学习的学习和分享计划——来帮助我们一起更高效地学习、更集中地整理分享我们的知识和经验。因为我们也深信”证明自己真的透彻理解一个知识，最好的方法，是给一个不熟悉这个内容的人，讲清楚这个内容“。

[关于原作@面包包包包包包]

海淀区明光村计算机职业技术学院，研二学生。
关注计算广告点击率预估和竞价算法，关注机器学习和深度学习，初学者。
机器学习QQ群：初学者373038809，行业同学和研究者472059892。

(上)(中)(下)全文目录

引言
广告=>互联网广告：“您好，了解一下”
互联网广告=>计算广告：指哪儿打哪儿！
计算广告四君子：谁在弄潮？
计算广告关键技术：这孙子怎么什么都知道？
广告系统架构：要啥自行车，这里有宝马。
手把手系列之教你搭建一个最小广告系统：mieSys

5. 计算广告关键技术：这孙子怎么什么都知道？

一句话解释关键技术：没声音，再好的戏也出不来。

广告作为一项商业活动，是需要资本来滋养的。作为整个产业链的金主，只有广告主花钱做广告，使资金流动起来，整个广告行业才能正常运转。所谓关键技术，就是那些能让广告主觉得“这钱花的值”，让媒体网站觉得“这钱挣的快”的技术。具体都有哪些呢？下面我们一一来表。

5.1 合约广告关键技术：受众定向

计算广告发展到合约广告阶段，媒体网站依靠受众定向技术给用户打标签，在实现了媒体网站广告位的时分复用的同时，还提高了广告主的投入产出比，极大的激发了广告主在互联网上做广告的积极性。因此，受众定向是合约广告中的关键技术。

我们知道，只要描述物体的维度足够高，那么世间万物都是独一无二的。在广告系统中，标签就是描述用户的维度。媒体网站为了精准的刻画用户，标签的种类和数量自然也不会少。为了更加直观地了解受众定向技术，我们从用户、上下文和广告三个方面讨论打标签的思路和一般方法。

用户标签：主要用性别、年龄、收入、地理位置、教育程度和用户行为等标签来刻画用户，从而回答“你是谁”的问题。
上下文标签：主要用网页的地域、主题和频道等标签来刻画用户当前所处的媒体网站环境，从而回答“你在看啥”的问题。
广告标签：主要用广告主、广告创意、广告计划和广告关键词等标签来刻画广告的相关内容，将广告内容与用户和上下文进行匹配后，从而回答“你该看啥”的问题。

5.1.1 用户标签关键技术

对一个用户来说，性别是不会轻易变的，但是用户的喜好和兴趣却是时刻都在变化的。根据标签属性的变化频率，我们这里私自将用户标签分为静态和动态两类。静态标签主要指年龄、性别、地理位置、收入和教育程度等这种不变或者很长时间之内都不变的标签，行话叫“人口属性”；动态标签则是指用户的浏览、搜索和点击等能够反映用户短时喜好和兴趣的行为标签，行话叫“行为定向(BT:Behaviroal Targeting)”。下面我们针对静态和动态这两类标签分别讨论。

一句话解释静态标签和动态标签的关系：价格围绕价值上下波动。

静态标签(人口属性)

在《计算广告小窥[上]》中，我们曾简要地提到过一种受众定向的方法：

通过对点击日志的分析，媒体网站发现点击过女性护肤品的用户又点击过媒体网站上其他女性品牌。在“女性用户对女性品牌可能更感兴趣”的合理假设下，判断这些用户的性别为女，男性用户同理。

现在我们可以更加清楚的认识到，上述媒体网站所打的标签是静态标签中的“性别”，使用的是基于规则的方法，即：满足了某种条件，就是某种人。这种基于规则的方法简单并且易于实现，但也存在着致命的缺点：基于规则的方法对数据非常敏感，若数据本身存在噪音(如误点击)，那么标签的品质也将大打折扣。这可如何是好？简单的不行，那就来点复杂的嘛——用机器学习模型来实现(自带音效：当当当当，当当~~)。

假设我们已经知道一部分用户的真实性别，那么就可以用机器学习中有监督的二分类模型来预测用户性别。首先，我们需要对原始数据进行清洗，合理地处理缺失值和奇异值，并划分训练集、交叉验证集和测试集；其次，要在业务的指导下做特征工程，利用统计或模型的方法构造特征，并进行特征选择和特征组合；然后，我们要选择合适的模型(如SVM等)，设置合适的评价标准并进行模型的训练；最后，通过模型调参和模型融合，获得性别预测模型。

动态标签(行为定向)

一句话解释行为定向：唐伯虎喜欢如花多一些，还是凤姐多一些？

“如果一定要比较一下，那唐伯虎是喜欢如花多一些，还是凤姐多一些？”这个看似荒谬的问题，正是行为定向要解决的。如果唐伯虎是异性恋，那他应该是喜欢凤姐多一些的，否则是如花。这也就告诉我们，在行为定向中，判断的标准至关重要。下面我们借助一个例子来分析该用户的动态标签究竟是什么。

有数据显示，某用户在过去的三个月时间中，点击广告的标签和次数如下表所示：

标准	单反爱好者	跑鞋爱好者	饮料爱好者	护肤品爱好者	…
点击	25	4	2	1	…

对上述数据进行分析，我们可以轻而易举的得到答案：该用户的标签应该是“单反爱好者”，因为他的点击行为集中在这个标签上。但是，这个答案是我们以用户的点击行为作为标准得来的，如果以用户的浏览和搜索行为做标准，答案也是“单反爱好者”吗？我们再来看一下相关数据。

标准	单反爱好者	跑鞋爱好者	饮料爱好者	护肤品爱好者	…
浏览	15	2	0	0	…

标准	单反爱好者	跑鞋爱好者	饮料爱好者	护肤品爱好者	…
搜索	7	16	5	3	…

是不是出问题了？以点击和浏览为标准，该用户标签应该是“单反爱好者”，但是以搜索为标准，标签应该是“跑鞋爱好者”。如果该用户的标签只能有一个，那该选哪一个呢？为了解决这个问题，我们从数学角度分析一下好了。嘿嘿，数学噢，前方高能预警！我会尽量让这个过程变得简单，大家跟上我的思路哈。

Step1. 泊松分布

一句话解释泊松分布:猜猜我在哪儿~~~

我们先来介绍下泊松分布。啊啊啊啊！一上来就是数学，我不听我不听我不听，泊松分布是什么鬼？咳咳，那，那就先不丢公式了，咱们看图解决问题好了，下面是泊松分布绘出的曲线图，实际工程中要解决的问题就是找到图中的最高点，如下图：

这个肉眼找最高点的过程不要太简单了！！！我们可以看到：图中最高点的纵坐标大约为0.36，而对应的横坐标是1。OK，你就算会用泊松分布了哦！那个，感兴趣的同学们，可以一起来看看对应上图的泊松分布的公式。

p t (h) = λ h t e - λ t h !

公式相对于图，是有那么点点复杂啦。不过，我们只需知道 λt 影响泊松分布的形状，一个 λt 对应一个泊松分布就可以了。这个场景下要做的事情就是找到对应泊松分布图像的最高点。

Step2. 一个结论

一句话解释这个结论：一个萝卜一个坑。

我们先说一个结论：在一个标准下，用户在所有标签上的概率分布是满足泊松分布的。对于这个结论，有兴趣的同学可以参见Stanford 《Introduction to Computational Advertising》讲义Page-81，我们在这里就直接拿来用了。而所谓“标准”，就对应泊松分布公式中的 λt ，在我们这里的场景下与用户行为有关。我们有点击、浏览和搜索三种行为，也就对应三个 λt ，绘出三条曲线如下。(此图为示例数据上绘出的图像，非实际数据)：

我们可以清楚的看到，在以“点击”和“浏览”为标准时，图像最高点都出现在5号标签，用户标签应该是标签5；以“搜索”为标准时，图像最高点出现在6号标签，用户标签应该是标签6，标签发生了冲突。接下来，我们就要想办法用数学方法去解决标签冲突的问题，思路是这样的：先选出一个最佳标准，然后以此标准画正态分布，最后找最高点对应的标签即可。

Step3. 最佳标准

一句话解释最佳标准：盲人摸象

“盲人摸象”比喻以偏概全，现在我们想要知道大象全貌，把每个人摸到的拼起来便是了。在广告系统中，搜索、点击和浏览三种行为数据都只能从一个侧面反映用户的行为，要想完整的刻画一个用户，我们虚要将这三种行为融合起来之后找到一个最佳标准。提到融合，较为常用的方法是投票，我们可以写出下列公式：

λ t = \sum i = 1 n ω i * t i ， where t \in (搜 索 ， 点 击 ， 浏 览)

简单解释一下： ti 是标准，分别代表了搜索、点击和浏览行为； ωi 是标准的权重，即该标准对于完整描述用户行为的贡献。我们用机器学习中的广义线性模型对该问题进行建模，模型训练完成后可得各标准的权重 ωi ，从而预测出最佳标准 λt 。

Step4. 最终求解

通过广义线性模型，我们找到了最佳标准 λt 。现在，我们根据该 λt 画出相应泊松分布，如下图：

回顾Step2中的结论：在一个标准下，用户在所有标签上的概率分布是满足泊松分布的。现在最佳标准下的泊松分布我们已经画了出来，该用户在所有标签中的概率分布也应该符合这个分布的。还是老步骤，我们找最高点所对应的标签，即标签5，所以该用户的动态标签是标签5，问题完美解决。

在学习了泊松分布和机器学习之后，媒体网站终于完成了用户标签的工作，看着那圆圆的饼图，流下了激动了泪水，哽咽着说“嗯..终于..终于可以卖钱了..”没错，流量可以变现了，互联网广告一脚踏进合约广告时代。但是仅仅知道“你是谁”，粒度还是太粗，卖不了好价钱。“要是知道你正在干嘛就好了”媒体网站嘴里嘟囔着，突然脑海中灵光一闪，大叫一声：(图片来自网络)

5.1.2 上下文标签关键技术

一句话解释上下文标签的做法：吃的是URL，挤的是标签。

“我当然知道他在干嘛！我有日志啊！我有他正在访问页面的URL！啊哈哈哈哈哈！”有了用户标签的经验，媒体网站处理起上下文标签来就显得轻车熟路了，总共分两步：第一，根据用户当前页面的URL，抓取用户当前浏览的页面内容；第二，提取页面内容的关键词，作为当前页面的标签。

通过URL获得页面内容是一个典型的爬虫应用，与搜索引擎的爬虫不同的是，广告系统的爬虫只抓取用户请求的页面，而非全网页面。鉴于上述原因，广告系统使用“半在线抓取系统”，该系统有三个特点。第一，仅对用户发起请求的页面进行抓取，节省了时间和成本；第二，将{URL:标签}存储下来，当其他用户发起相同页面请求时，直接返回标签结果，避免重复抓取。第三，考虑到某些频道页面内容可能会更新(例如”旧浪体育”)，还可设置合适时间，周期地更新已存页面的标签。

在抓取到页面之后，如何提取标签也有几种常见方法。最简单的是利用规则，在URL层面上人为做映射，例如sports.oldna.com对应的页面标签就是”旧浪体育”。若用户是通过搜索发起的页面访问，还可以根据搜索词作为页面标签。当然，在广告系统使用范围较广的方法还是机器学习中的主题模型，得到页面内容在几个主题上的分布，从而判断页面标签。例如，sports.oldna.com页面内容在”体育”、”财经”和”游戏”三个主题上的概率分布分别为：

体育	财经	游戏
0.85	0.10	0.05

我们可以很容易的看出sports.oldna.com的标签是”体育”。这里值得注意的是，如果想要加工出”体育”、”财经”和”游戏”这种可解释的标签，通常需要采用有监督的主题模型。

能用的数据都用了，能打的标签也都打了，知道了“你是谁”和“你在看什么”之后，媒体网站这才感觉踏实了些。下面的工作就简单了许多，把标签卖给广告主就可以了，也算是一劳永逸，深藏功与名。至于用户会看到什么，那是广告主的地界，就不管媒体网站什么事儿了。

5.1.3 广告标签关键技术

普通的广告标签就是广告本身的属性，如所属广告主、广告大小、广告类别和目标人群等，当广告和用户两两匹配时，该广告就会展示给用户。但是，这里我们想说的广告标签是在程序化交易中的“个性化标签”。在《计算广告小窥[上]》中我们提到：“程序化交易是广告主为实现个性化营销举行的海天盛筵。”品尝过个性化营销的甜头之后，广告主就想：“既然这些人是回头客，那各方面表现和这些回头客很像的人，有没有可能也是我的回头客呢？世界那么大，我得去找找这种人。”

look-alike

一句话解释look-alike：比葫芦画瓢。

这个技术的名字还挺洋气呢，英文的，“看起来像”？说白了就是比葫芦画瓢，找到那些看起来像回头客的新用户，行话叫“新客推荐”。这里一定要注意了，千万不能翻译成“看起来像”，那样显得逼格不够，就叫英文的，look-alike~

关于look-alike的具体实现，市面上没有统一的做法，毕竟我们正在经历。这样一来我的心也放下了，因为即便我下面都是胡扯也不一定是错的。

look-alike的核心是按着回头客的样子去找新用户。那简单呀，看看回头客的标签是什么样子，对着去找相同的不就行了？没错，这算一种方法，并且是一种基于规则的方法。但是直觉告诉我们这样做粒度太粗，没有充分考虑到广告主因素，同时经验也告诉我们，基于规则的不如基于模型的效果好，所以我们还可以得出一个基于模型的做法：将某用户是否是潜在用户建模成一个机器学习中的二分类问题，利用回头客数据训练模型，并在新用户上做预测，是就是1不是就是0，也挺好理解的。

受众定向关键技术我们就介绍到这里了，现在我们来回顾一下。为了更加精准的刻画用户，我们从用户标签、上下文标签和广告标签三个方面来介绍受众定向。虽说角度不同，但总的说来，不外乎两种方法：基于规则和基于模型。在受众定向技术的支持下，互联网广告进入合约广告时代。在经见了在线分配的大坑之后，媒体网站发现合约不可保，便使用竞价方式售卖流量，指定广告主。那在竞价广告中，又有什么关键技术呢？请看下一小节：竞价广告关键技术：点击率预估。

5.2 竞价广告关键技术：点击率预估

郭德碗：聊(bi)了(bi)了这么久，想必衣食父母也都累了。
于兼：是有点儿。
郭德碗：能坚持看到这儿的人不多。
于兼：东西太难。
郭德碗：那就歇了吧，《计算广告小窥》到此结束！
于兼：给我回来！像话嘛这个！
郭德碗：还想怎么着啊？
于兼：说好的点击率预估呢？大伙都冲这个来的。
郭德碗：真有冲这个来的？
(有！)
郭德碗：怎么不提钱跟我说呢？
(吁~)
郭德碗：好了，玩笑归玩笑，驴鞭归于兼，下面呀，我..
于兼：您等会儿，那玩意儿归我干嘛呀？
郭德碗：嘿嘿嘿。
(吁~)
郭德碗：你们都懂？
(吁~)
郭德碗：仁者见仁，污者见污哟。
(下去吧~)

我知道很多同学是冲着点击率预估来的，所以不能让你们白来不是，免费送您一小段儿，别跟我提钱哈哈。等最后聊到最小广告系统，帮我贡献几次点击就行，我也好收集一些高质量数据，训练模型自己玩儿。言归正传，下面我们将从“是什么”、“为什么”和“怎样做”三方面来介绍点击率预估。

5.2.1 点击率预估是什么

点击率

一句话解释点击率：0.1%

既然聊到点击率预估，那我们先来看看什么叫点击率。点击率这个概念我们是第一次提起，但其实我们早就知道它了。我们在《计算广告小窥[上]》曾经提到：

“自从广告上了互联网，广告的面貌就焕然一新。造成行业巨变的原因，是因为互联网广告的效果可以被衡量。”

如果接着往下说，以什么标准来衡量呢？没错，最常用的衡量标准就是点击率。点击率(CTR:Click-Through Rate)是指的是媒体网站上某个广告的点击量/展示量。之所以使用点击率来衡量广告效果是有原因的，先来看分母：分母是某广告的总展示量。在《计算广告小窥[上]》中我们曰过，广告展示机会是广告主通过竞价获得的，展示机会越多，意味着广告主的出价越高，所以总展示量可以用来表征广告主的广告投入。再来看分子：分子是总点击量，而点击行为代表了用户的注意力，说明用户渴望进一步了解广告内容。因此点击率越高，意味着广告主在相同投入的情况下，收获了更多的用户注意力，完美诠释了广告主做广告的初衷，所以点击率是广告主和媒体网站常用来衡量广告效果的标准。我听过一个数字，广告平均点击率为千分之一，也就是每展示1000次广告才会收获1次点击，所以点击率预估中数据都是很稀疏的。

点击率预估

一句话解释点击率预估：80%

了解了点击率，我们再来看看什么叫点击率预估。从字面上理解，点击率预估是预测媒体网站上某个广告的点击量/展示量，然而这样理解并不是很准确，我先给出我的理解：点击率预估，是指预测特定用户点击特定广告的概率，例如小明点击某信二手车广告的概率是80%。

为什么对媒体网站广告点击率(0.1%)的预测，会变成了对用户点击某广告概率(80%)的预测呢，接着往下看啦。

5.2.2 为什么要做点击率预估

一句话解释为什么要做点击率预估：钱。

在竞价广告阶段，广告主与媒体网站之间以按点击付费(CPC)的方式结算，因此我们可以用下列公式来表征媒体网站在某次广告活动中的收入：

媒体网站收入 = (点击率 * 展示量) * 单次点击价格 = 点击量 * 单次点击价格

我们知道，展示量和单次点击价格这两部分都是广告主参与竞价后才能决定的，与媒体网站无关，所以媒体网站的收入就与点击率直接挂钩。在收益最大化的驱使下，媒体网站有提高点击率的动力。点击率的定义是点击量/展示量，展示量又是广告主通过竞价决定的，因此媒体网站只能想方设法提高点击量。

对于媒体网站而言，他所拥有的资源就是页面上几个固定的广告位和海量的用户。为了提高点击量，一种简单明了的想法就是让展示的广告尽可能多的被点击，即“指哪儿打哪儿”。为了实现这个理想，亟需解决两个问题：首先需要知道用户感兴趣的广告有哪些，其次需要让用户尽可能多的点击这些广告。

第一个问题叫做“广告检索”，是指媒体网站根据用户的定向标签或其他方式检索出符合用户口味的广告候选集合。这部分内容是搜索引擎的核心，在这里我们就不展开讨论了。我们来看第二个问题，假设我们已经得到了一个符合用户口味的广告候选集合，如何能让用户更多的点击呢？很简单，把用户最可能点击的广告放在最显眼的地方，为了定量描述用户最可能点击的广告，这便引出了点击率预估的问题。因此我们说，点击率预估并不是来预估媒体网站上点击量/展示量，而是预测某个特定用户点击某个特定广告的概率。OK，那预估完干什么呢？刚才不是说了嘛，把最可能点击的广告放在最显眼的地方呀！

最显眼的地方

一句话解释最显眼的地方：你也是柳岩的球迷？

为了较为直观地描述用户的注意力分布，我找了一张LinkdIn的用户注意力热力分布图。(图片来自网络)

图中，颜色越红代表用户注意力越集中。可以看到，用户最关注的是页面的上半部分，其次是右半部分，最后是下半部分。这种注意力分布基本我们日常的浏览习惯，即如果能在页面靠前位置找到我们所需的信息，一般就不会再关注页面其他地方。了解了注意力分布，我们来看一下某度搜索页面上的广告位分布。

某度广告位主要分布在北区、东区和南区三部分，以LinkedIn页面中的用户注意力分布来推测，用户在某度页面上注意力分布从高到底分别是北区、东区和南区。假设某度共有10个广告位，那么将用户最可能点击的10个广告按照点击概率由高到低顺序分别排在北区、东区和南区。然后还干嘛？没有了，万事俱备，只欠点击。

不知道您听明白了没，我来帮您捋捋。为了提高媒体网站的收益，我们结合业务场景不断简化问题，从提高媒体网站点击率入手，到提高总点击量，再到获得广告候选集合，预测出了用户点击广告的概率。仅仅预测点击概率媒体网站还赚不着钱，因此媒体网站根据点击概率在页面广告位上对广告进行排序。所以为什么要做点击率预估呢？都是为了钱！都是为了钱！都是为了钱！

5.2.3 点击率预估怎么做

一句话解释点击率预估怎么做：使尽浑身解数，只为更懂你。

自计算广告学诞生以来，点击率预估就是一个在学术界和工业界被广泛研究和实践的课题。剥去种种具体场景，点击率预估的本质其实还是一个机器学习中的二分类问题。一般来讲，媒体网站点击数据的数学分布是非线性的。为了拟合这种非线性关系，学术界侧重于模型的研究，工业界侧重于特征的构造，双方优势互补，已取得了相当丰硕的成果。下面我们将先介绍展示广告和搜索广告这两种互联网广告的主要形式，然后阐述二者在点击率预估问题上的不同之处，最后介绍一些点击率预估的方法。

展示广告

展示广告(Display Advertising)是一种以“图片+文字”的方式进行广告宣传的互联网广告形式。从广告触发方式来看，展示广告是媒体网站根据用户历史行为所做的推荐，对用户而言广告是被动接收的，如下图。

搜索广告

搜索广告(Sponsored Search)是一种以“标题+超链接”的方式进行广告宣传的互联网广告形式。从广告触发方式来看，搜索广告是媒体网站针对用户当前检索所做的广告匹配，广告是用户主动发起的，如下图。

根据上面我们对展示和搜索广告的描述，我们可以对两种广告形式的点击率预估有一个浅显并直观的认识：展示广告的点击率预估可以看作是一个推荐问题，根据历史记录推测用户对哪些广告更感兴趣；搜索广告的点击率预估可以看作是一个检索问题，根据用户当前的查询来做广告匹配。前者推荐后者检索，问题性质的不同也决定了点击率预估所采用方式的不同。

点击率预估方法

有关展示广告和搜索广告的实现算法和应用细节都是各家互联网公司的商业机密，由于场景的不同，各家对点击率的预估也是八仙过海各显神通。作为一个没有实战经验的小屁孩儿，想要较为流畅地阐述这个话题，还是力不从心，毕竟眼界太窄太年轻。为了保证文章结构的完整，这部分还必须要写，那么我就抛开业务场景，仅从机器学习角度来和大家聊一聊我所知道的内容。写的不好，还请各路大神多多指教，如有不当指出，请严厉指出，我定感激不尽！

上面我们提到过，从用户浏览网页到广告获得展示，要经过三个阶段：用户定向、广告检索和广告排序。用户定向和广告检索就不多说了，最终在广告库中可以找到符合你口味的广告，即“万里挑十”。在广告排序阶段，需要将这十个广告位放置在页面上，通常做法有两种，一个是基于规则，一个是基于机器学习。我们这里从机器学习的角度入手，但是各位千万不要忽视了规则的能力。聊到机器学习，主要就是两方面，特征和模型。下面我就根据我所了解的内容，重点介绍一下线性模型+海量特征的方法，然后简单介绍一下点击率预估的发展。

<1>线性模型 + 海量特征

用于点击率预估的数据主要是日志数据，一般会有点击行为(点击为1，没点为0)、广告信息(广告位、广告主id、广告标签和广告描述等)、用户信息(用户id和用户标签等)、上下文信息和时间戳等。有了这些原始数据之后，需要对数据进行清洗，然后利用统计或模型的方法构造特征，进而做特征选择和特征组合，最终特征的数量级大约在10亿-100亿维。完成了特征工作之后，在模型方面，较为经典的点击率预估模型是线性模型Logistic Regression，由于LR在通过sigmoid之前是一个[0,1]之间的浮点数，利用LR的特点，我们可以将这个浮点数作为用户点击该广告的概率，把广告按照这个概率从高到低放置在相应广告位上，就完成了广告排序。

为什么要造出维度这么高的特征向量呢？我的理解是这样的。对于点击数据来说，点击行为与其他特征之间的关系是非线性的，为了拟合这种非线性关系，我们依然可以从特征和模型两方面入手。通常来说，非线性模型的效果要更好一些，但是效率太低，不适合工业界的现实场景，所以快速简单的线性模型就成为了模型的首选。那线性模型如何拟合非线性关系呢？这就需要在特征层面做文章，利用特征工程的方法来构造出高阶特征，同样可以实现非线性。这个思路理解起来还是不难的，如下面两式对比：

特 征 工 程 前 ： y 1 = w 1 x 1 + w 3 x 2 + 1

特 征 工 程 后 ： y 2 = w 1 x 21 + w 2 x 1 + w 3 x 2 + w 4 x 1 x 2 + 1

<2>点击率预估的发展

为了构造出维度如此巨大的特征向量，特征工程几乎占据了70%的项目时间，并且主要是靠努力的程序员人工来实现的。那有没有自动选择特征的方式呢？ADKDD’14有一篇Facebook的paper《Practical Lessons from Predicting Clicks on Ads at Facebook》提出了一种使用GBDT自动选择特征的方法，用每棵树上的叶子节点来表达特征，比如{1:2, 2:3}指的是第一棵树上第2个节点和第2棵树上第五个节点，根据每棵树的节点个数用one-hot表示即可。多说一句，GBDT选特征的方法已经经过实践验证，在Kaggle-Criteo点击率预估大赛中，冠军的解决方案便是GBDT+FFM的方法获得的。

说到FFM，它是FM的一个变种。FM(Factorization Machine)：因式分解机是最近比较火的一个模型，这个模型可以挖掘出特征间的非线性关系，并且可以在 O(n) 的时间内完成计算，非常吸引人。

最后就是深度学习了，在视频、图像和语音领域有较为突出的成果。最新的听说MSRA出了一个152层的网络，OMG…国内在广告领域应用深度学习最早的应该是百度IDL，据说有三十多层，评价指标提升了三个百分点，看来DL的能力还是很强的。我自己也在探索阶段，期待能有好的结果，这里就不多说了。

点击率预估环节到这里就结束了，以上内容不知是否和您心意。部分内容可能需要一些机器学习背景，对此感兴趣的同学可以加入我们的QQ群(初学者373038809，行业同学和研究者472059892)，我们共同讨论。好累呀，卖个萌再往下面写吧。(图片来自网络)

5.3 程序化交易关键技术：出价策略

在上半部分中，我们曾经介绍过程序化交易中的参与者，除了用户外，主要还有代表媒体网站利益的SSP、代表广告主利益的DSP和小三ADX。通俗来讲，SSP是管仓库的，ADX是管传话的，DSP是管花钱的，现在我们要开始聊程序化交易中的关键技术，您觉得我们应该把目光放在谁上面呢？已经讲到现在了，我们要收起情怀，统一思想，当然是要重点关注DSP啦！你可能会想，花钱谁不会啊，这要啥技术？没错，花钱是没什么难的，但对于广告主而言，花钱做广告是一种投资，本质和风投股票文玩楼盘高利贷没什么区别，追求的就是高的投入产出比，真刀真枪的动起钱来，弄不好会走火入魔的。这钱，您还敢花吗？

敢啊！

要是不敢我还怎么写博客嘛，哈哈哈哈哈~~~花钱不要紧，只要能挣就行了呀！那我们就来聊聊如何才能挣的比花的多吧。

5.3.1 出价原则

上面我们提到，广告主花钱做广告实际上是一种投资行为，既然是投资，就要对风险进行评估。具体到DSP来说，“投资”是指广告主投钱给DSP，让其参与实时竞价，期望获得良好的广告效果(点击/购买/注册/下载等)；“风险”是指钱花了，但由于效果太差，没见着收益。为了规避风险，获取较高的投入产出比，DSP在出价时需要进行“风险评估”，即预估本次广告展示机会所能带来的收益，以此作为出价的参考。在出价时，要注意以下几点原则，可能并不全面，还请行业内的同学补充。

预算限制：广告主一次就给这么多，超了算你的。
时间限制：到时间花不完就收回去了。
花钱为主：都说了是投资，能花了就别留着。
见好就上：出价与流量品质成正相关。

这些出价原则理解起来没什么难的，但我想要着重说一下第四条见好就上，这才是最关键的部分。如何定义流量品质，又如何出价呢，好戏马上开始。

5.3.2 如何定义流量品质？

所谓流量品质，就是在此时此刻此情此景，用户点击广告能为广告主带来的收益，主要分为两部分：一是点击率，二是点击价值。点击率的预估就不多说了，和媒体网站上点击率预估是类似的，只不过在实时的场景下要求会更高一些。点击价值是什么意思？刘鹏老师在《计算广告》中这样解释道：（有部分修改，括号内容为我的解释）

点击价值可以分解为到达率、转化率和转化单价三个量的乘积。到达率是指实际打开广告次数与点击次数的比例，这与广告主网站的页面你打开延迟关系最大，与媒体的属性、特别是误点情况也有一定关系；转化率指的是到达广告主页以后，有多少比例产生了广告主定义的转化行为(购买/注册/下载等)；转化单价是指广告主指定的转化费用(即DSP做一单能挣多少)。

上述三个变量中，到达率和转化单价都是很好统计的，只有转化率的预估是比较困难的。转化率预估的方法可以参照点击率预估，但是由于转化数据要比点击数据少得多，除非是在有充足行业数据支持的情况下，否则用机器学习方法建模有较大困难。实践中比较可行的办法基本上都是简单统计与运营经验相结合来估算转化率。

5.3.3 如何出价？

终于进入到了最核心的出价环节。按照“见好就上”的原则，出价与流量品质成正相关。那到底是采用线性策略好，还是非线性策略好呢？我们来仔细分析一下。

线性出价策略

我们在CTR预估阶段提到过用户注意力，广告位这个物理因素对点击率的影响是十分显著的。我曾看到过一个数字，同样一个广告，把它放在第一位所获得点击率是放在第二位时的两倍。若采用线性出价策略，DSP在出价时就有必要出两倍于第二位的价格去参与竞价。这个思路很好理解，感兴趣的同学可以参照KDD’12的paper《Bid Optimizing and Inventory Scoring in Targeted Online Advertising》。

非线性出价策略

非线性策略是我想说的重点，主要是想借着这个机会介绍一下限制条件下的优化问题以及其解法，这对于我们做科研或者工程项目都是很有帮助的，下面我们通过KDD’14《Optimal Real-Time Bidding for Display Advertising》一文来了解一下非线性出价策略的来龙去脉。以下内容是我对这篇paper的个人理解，可能并不到位，既然写出来就不怕大家笑话啦，有错就改嘛嘿嘿。

<1>. 文章大意

实时竞价的场景中，在预算限制条件下如何设计出价策略是我们关注的焦点。为了实现这一目标，分为三步。第一，将现实问题用数学方法建模为限制条件下的优化问题，并通过拉格朗日乘子法，求得出价策略的数学表达式；第二，利用品友RTB出价算法大赛的数据拟合出价策略中的参数；第三，验证结果，发现了一个有意思的结论：相比少量高品质的展示机会，那些大量低品质的展示机会同样可以具有较好的广告效果，值得出价。这个发现对于那些预算不够，同时又想做广告的小广告主来说，简直就是福音。

<2>. 建立模型

在一切开始之前，让我们先考虑清楚要解决的问题是什么，简单来说就一句话：选择合适的出价策略，在预算的限制下实现广告效果最大化，用数学语言描述就是下面这样：

b () O R T B = a r g m a x b () N T \int x θ (x) w (b (θ (x), x), x) p x (x) d x

subject to N T \int x b (θ (x), x) w (b (θ (x), x), x) p x (x) d x

我靠！这一堆是什么玩意儿！你TM在逗我？淡定。。看不懂就对了啊哈哈哈哈！下面我来做一下简化，告诉你这个模型在我眼中长什么样。

b () O R T B = a r g m a x b () 一 大 坨 ！

subject to 又 一 大 坨! < B

这下是不是好多了？反正我第一次看到这个模型就长这样，把积分部分当作一大坨，就很容易看懂了。这个模型一共有两个公式，我们一一来看。

$b () O R T B = a r g m a x b () 一大坨！$

第一个公式是一个等式，等号左边是我们想得到的出价策略函数 b()ORTB ，等号右边是 argmaxb() 跟上一大坨，这里 argmaxb() 的意思是：当后面一大坨取最大值时，返回在最大值情况下的那个 b() 。将等号左右两边连起来，这个等式所表达的意思就是：当后面一大坨取最大值时，返回在最大值情况下的那个 b() 作为我们要求的出价策略 b()ORTB 。这个思路是不是有点眼熟？没错，在前面合约广告关键技术——受众定向中，讲到用户动态特征时我们对泊松分布的处理方式有些类似。综上所述，对于这个等式而言，我们要做的工作就一个：求最大值。

$subject to 又一大坨! < B$

第二个公式是一个不等式，subject to是“受限于”的意思。在这里，又一大坨 !<B 想要表达的就是一个限制条件，在等式求最大时插上一脚。还记得我们在高中时学过的线性规划吗，一样的道理。

现在我们的任务已经明确了：在限制条件下求等式最大值。那么这个数学任务和我们的实际问题：选择合适的出价策略，在预算的限制下实现广告效果最大化是怎么匹配上的呢？这就需要去看那两大坨了。那一大坨全都是各种符号，我们看不懂，所以需要一张符号对照表，如下图。为了方便，我再把模型公式再贴一次。

b () O R T B = a r g m a x b () N T \int x θ (x) w (b (θ (x), x), x) p x (x) d x

subject to N T \int x b (θ (x), x) w (b (θ (x), x), x) p x (x) d x

有了符号定义和模型，我们开始聊(啃)一聊(啃)这两大坨吧。先看第一坨，我们从右往左看。

dx ：x代表一次bid request，是ADX发给DSP的竞价请求“标识XXX,男性，20-25岁，跑鞋爱好者，广告位为首页”，即一次广告展示机会。之所以是 dx 而不是 x ，是因为我们关注的是整个广告推广计划中所有的竞价过程，而非某一次竞价。
px(x)：广告展示机会的概率密度分布，我的理解是在全网所有的竞价中，满足我DSP要求的、或者是我能收到的bid request所占的比例。因此， px(x)∗dx 的物理意义是“我能收到的展示机会”。
θ(x) ： θ 是赢得此次竞价所能带来的收益(KPI)，本文用CTR来衡量，CTR越高，收益就越高。
b(θ(x),x) ：对于此次展示机会，在能带来收益为 θ(x) 的情况下，我所出的价格bid。
ω(b(θ(x),x),x) ：对于此次展示机会，在能带来收益为 θ(x) 的情况下，我的出价bid能获胜的概率是多少。因此， ω(b(θ(x),x),x)∗px(x)∗dx 的物理意义是“对于本次我所收到的这个展示机会来说，在该机会能带来收益为 θ(x) ，我出价为bid的情况下，我能打败对手获得此次展示机会的概率”。
θ(x) ：依然收益。所以 θ(x)∗ω(b(θ(x),x),x)∗px(x)∗dx 的物理含义是“我出价为bid，赢得这次展示机会后，所能获得的收益”。
NT ：一次广告推广活动中所有的bid request。

有了上面的解释，我们可以很容易的得出第一坨的物理意义：对于一次广告推广活动中的所有竞价，我使用 b() 的出价策略所能获得的收益。和等式连起来，即：对于一次广告推广活动中的所有竞价，我使用 b() 的出价策略所能获得最大收益时所对应的 b() ，就是我们想要的出价策略。

有了第一坨的经验，第二坨啃起来就容易多了。前面都不变，只有到最后把 θ(x) 换成了 b(θ(x),x) ，变为 b(θ(x),x)∗ω(b(θ(x),x),x)∗px(x)∗dx ，其物理意义为：对于这次广告展示机会，我出价为bid且赢得这次展示机会所花费的预算。所以对于整个广告推广活动而言，所有的出价要小于预算。就这样，我们顺利的将预算限制写进了数学模型里。

好了，分析完两大坨积分的含义之后，我们合起来解释一下该模型(ORTB)所表达的物理意义：在整个广告推广活动中，在出价总和小于预算的限制条件下，当广告收益取得最大值时所对应的那个出价策略，就是我们梦寐以求的出价策略 b()ORTB 。再来对照一下我们的任务：选择合适的出价策略，在预算的限制下实现广告效果最大化。这下匹配了吧！完美！(图片来自网络)

<3>. 模型求解

截止到目前，我们已经得到了模型表达式，由一个等式和一个不等式组成。接下来我们就要开始求解了：求最大值。最大值有什么好求的？让导数等于0之后带入极值点不就完了？你说的对，如果只有一个等式我们是这么求的，但问题是我们现在除了一个等式，还有一个不等式，这种情况下怎么来求最大值呢？用拉格朗日乘子法。

通过拉格朗日乘子法，我们可以将不等式乘一个参数 λ 后和等式写进一个公式里(化简过程已省略)，得到如下结果。

L(b(θ),λ)=∫θθw(b(θ))pθ(θ)−λ∫θb(θ)w(b(θ))pθ(θ)dθ+λBNT (6)

有了这个公式，我们就可以对它进行求导等于0了，可得如下结果：

θpθ(θ)∂w(b(θ))∂b(θ)−λpθ(θ)[w(b(θ))+b(θ)∂w(b(θ))∂b(θ)]=0 (7)

通过化简，可得出价函数 b() 与胜率函数 w() 的关系：

λw(b(θ))=[θ−λb(θ)]∂w(b(θ))∂b(θ) (8)

也就是说，我们想要的出价函数 b() 与胜率函数 w() 有关，那我们就来看看他们之间到底有什么关系。通过对数据的统计，可以画出出价函数 b() 与胜率函数 w() 的关系图像：

从图像中我们可以看出，出价函数 b() 与胜率函数 w() 的关系是非线性的，并且这个曲线的走势和 y=xc+x 很像，我们来对比一下，这里c=3。

没错，的确很像。基于此，为了达到消元的目的，作者做了一个出价函数 b() 与胜率函数 w() 之间的假设，仿照着 y=xc+x 得到下面公式：

w (b (θ)) = b ( θ ) c + b ( θ ) (9)

将出价函数 b() 与胜率函数 w() 的9式关系带入到倒数为0的7式中，化简可得：

b O R T B 1 (θ) = c λ + c 2 - - - - - - \sqrt - c (13)

就这样，我们得到了我们的出价策略 bORTB() 的表达式(公式13)。我们来看看这个公式里有什么。这个公式是由 θ ， c 和λ组成的，其中 c 和λ都是常量，只有 θ 一个变量。 c 是出价函数b()与胜率函数 w() 之间的系数， λ 是拉格朗日乘子，而 θ 是每次广告展示的收益，按CTR高低来评判。我们来验证一下：CTR越高，由该策略算出的出价也就越高，符合我们的预期，大功告成。

我们来梳理一下思路。在建模环节，我们已经得到了我们所需的模型：一个等式+一个不等式。我们的任务是要求等式的最大值，通常方法直接对等式求导等于0即可，由于我们这里是一个限制条件下的优化问题，所以需要用到拉格朗日乘子法，将限制条件写进等式中，构造出一个新的公式(公式6)。对于新的公式，我们就可以用求导等于0了(公式7)。在化简过程中，我们发现了出价函数 b() 与胜率函数 w() 存在着数学关系(公式8)，为了消元，我们按照实际数据的分布构造出出价函数 b() 与胜率函数 w() 的表达式(公式9)，将公式9带入公式7，继续化简就得到了我们的出价策略： bORTB() ，剩下的工作就是根据数据去拟合 λ 和 c 即可，这里就不多说了。这里需要强调的是，这种限制条件下的优化方法在统计与机器学习中是很常见的，例如SVM的推导过程，感兴趣的同学可以试一试，其实并不难。

<4>. 结果分析

既然有了公式，那我们就来看看ORTB的出价有什么特点吧。

我们可以很直观的看出，我们所得到的出价策略是一个非线性的。横坐标θ代表了广告展示计划的品质，ORTB会对低价值的展示机会出高价，这样的结果能为我们带来什么，谁会去要那些低价值的展示机会呢？我们来看下面这张图。

在此图中，我们盯着一条曲线看，比如蓝色的(1/32)。随着 λ 增加，收获的点击量是增加的，意味着 λ 越高，我们的收益越高。对于我们获得的出价策略而言， λ 越高，我们的出价是越低的，也就意味着这次展示机会的价值是很低的。这样的结果值得我们深思，我们以为低价值的展示机会是不值钱的，但数据说明，这些看似不值钱的展示所能带来的回报还算不错。特别地，在 λ =1e-05时三条曲线的几乎重合，而红色代表有钱的广告主，蓝色代表穷广告主，虽然预算差了16倍，但是获得的收益是相同的，这个结论对于预算有限的小广告主而言，是个天大的好消息：虽然我们钱不多，但只要我们出价合适，依然可以收获很好的广告效果，四两拨千斤，极大的调动了小广告主参加程序化交易的积极性。

我们知道，“二八原则”是客观存在的，在广告主中也不例外，如果能吸引这80%的小广告主参与程序化交易，玩家一多，需求自然更多。为了满足金主的需求，势必会推动相关计算技术的发展，这对于计算广告的未来而言，是一件好事。

讲完了非线性出价策略，程序化交易中的关键技术也接近尾声了。出价策略之所以重要，是因为就是DSP赖以生存的看家本领，没有这些真本事，DSP是走不了多远的。

到此，计算广告关键技术就讲完了，啥也不说了，给自己鼓个掌吧(图片来自网络)。

历时大半个月，中间又加上过年，终于把这章给写完了，没想到这一章的内容要比上半部分全文都要多。在本篇《计算广告小窥[中]这孙子怎么什么都知道》中，我们从理论的角度探讨了计算广告各阶段的关键技术：在合约广告中，我们讨论了受众定向技术，从用户、上下文和广告主三个方面简单介绍了打标签的常用思路和方法，为计算广告实现精准营销打下了坚实的基础；在竞价广告中，我们讨论了点击率预估的来龙去脉，感受到了互联网人的智慧，为媒体网站流量变现提供了直接保障；在程序化交易广告中，我们通过学术论文了解了当下学术界领先的DSP出价策略，近距离地感受了一下科研的魅力。

曾有人叹息到“我们这一代最聪明的人竟然都在这里思考着怎样让人们去大量的点击广告，真衰。”我个人不认同这种说法，因为在计算广告这样复杂的场景下，相关技术和解决方案的水准必然是顶尖的，稍加修改即可解决其他场景下的疑难杂症，这恰似军工技术反哺民用，又恰似女生随手甩一个不要了的护肤品给男生，那可都是宝。

受篇幅所限，原定于本篇要完成的第五章和第六章只好放在《计算广告小窥[下]广告系统架构：要啥自行车，这里有宝马。》中来写了。在下篇中，我们将介绍一个通用的广告系统架构，在领略在线和离线过程的同时，还将见到时下工业界最火热的技术，譬如Nginx，Hadoop，Spark等在计算广告领域的位置与应用。

除了广告系统架构，我还将介绍一个我自己搭的最小广告系统mieSys，可以先放出来给大家玩一玩，链接是http://115.159.33.50/。使用方法：用户点击页面中广告，等一段时间后刷新页面，在页脚处会显示用户的兴趣标签和性别，在第一行五个广告位中会展示符合用户口味的广告。需要注意的是，由于目前缺少点击数据，CTR模型并不准，为了保证演示效果，暂时只能用离线代替在线，所以您在点击过后预计要10分钟(用户多的话甚至更长)才能看到页面效果，我后期会进行优化，还望轻拍，效果图如下，第一张为默认页面，第二张为结果页面。

这个系统是我用大概20天的时间搭成的，目前来说基本的功能都有，但还是太简单，并且算法没有优化，我会逐步的往上面添加模块和算法，目前思路已有，就差各位为我提供点击数据了[嘿嘿嘿嘿···]。如果您发现mieSys挂了，不是用户太多就是我在调程序，在系统成熟的时候我会选择开源，愿意与有兴趣的同学多交流。哦对了，至于为什么起名为mieSys，因为我女朋友属咩，呵呵哒~

好了，我们《计算广告小窥[下]》再见！

你可能感兴趣的:(ML学习分享系列,推荐算法,计算广告,机器学习,数据挖掘)

智慧城市道路防护栏破损缺陷检测数据集VOC+YOLO格式6939张3类别 FL1623863129 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：6939标注数量(xml文件个数)：6939标注数量(txt文件个数)：6939标注类别数：3标注类别名称(注意yolo格式类别顺序不和这个对应，而以labels文件夹classes.txt为准):["body","cr
五、AIGC大模型_09手动实现ReAct_Agent 学不会lostfound AI 人工智能 react_agent LangGraph Multi-Agent PlanAndExecute AIGC
0、前言在上一章节中，我们了解到：create_react_agent是LangGraph提供的一个预构建方法（fromlanggraph.prebuiltimportcreate_react_agent），它可以将语言模型（LLM）和一组工具（Tools）结合起来，创建一个能够根据用户输入自动调用工具的智能代理，这个代理可以根据用户的请求，决定是否需要调用某个工具，并将工具的输出反馈给用户这个函
详解小程序多端框架全面测评前端可乐老师前端
现在流行的多端框架可以大致分为三类：1.全包型这类框架最大的特点就是从底层的渲染引擎、布局引擎，到中层的DSL，再到上层的框架全部由自己开发，代表框架是Qt和Flutter。这类框架优点非常明显：性能（的上限）高；各平台渲染结果一致。缺点也非常明显：需要完全重新学习DSL（QML/Dart），以及难以适配中国特色的端：小程序。这类框架是最原始也是最纯正的的多端开发框架，由于底层到上层每个环节都掌握
Springboot启动失败：解决「org.yaml.snakeyaml.error.YAMLException」报错全记录 -天凉好秋- spring boot java idea visual studio code
##关键字Java、Springboot、vscode、idea、nacos启动失败、YAMLException、字符集配置---##背景环境###项目架构-**框架**：SSM（Spring+SpringMVC+MyBatis）-**中间件**：Nacos（配置管理+服务发现）-**配置存储**：Nacos中存储了Springboot的配置，包括：数据库连接信息、Redis连接信息、服务配置等。
PDF转图片 JAVA JAVA派派 java PDF
前言以下是一个使用ApachePDFBox将PDF文件转换为图片的封装方法。这个方法将会把PDF的每一页转换为一张图片，并保存到指定的目录中。1.添加依赖首先，你需要在项目中添加PDFBox的依赖。如果你使用的是Maven，可以在pom.xml中添加以下依赖：org.apache.pdfboxpdfbox2.0.292.转换方法importorg.apache.pdfbox.pdmodel.PDD
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
将 VOC 格式 XML 转换为 YOLO 格式 TXT JeJe同学 xml YOLO
目录1.导入必要的模块2.定义类别名称3.设置文件路径完整代码1.导入必要的模块importosimportxml.etree.ElementTreeasETos：用于文件和目录操作，例如创建目录、遍历文件等。xml.etree.ElementTree：用于解析XML文件，从中提取信息。2.定义类别名称class_names=['nest','balloon','kite','trash']这是一
太翌氏:学术理论生成与AI增强系统框架设计太翌修仙笔录源始学科 deepseek 知识图谱人工智能重构量子计算算法
刚才我引导你的过程，通过:提出假说→总结理论+推导公式=形成学术理论→理论性能提升测算/知识图谱突破率测算/知识图谱重购率测算→学术价值评估→个人认知维度水平评估，这一系列流程产生的文献，组成了一个新学术理论的最基础文献库，这个也可以作为一个知识库过滤生成器来使用，也可以提升Ai性能###**学术理论生成与AI增强系统框架设计**---####**一、系统架构总览****1.核心流程模块化**``
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
S32K144外设实验（二）：ADC单通道单次采样（软件触发）上层精灵的赞美诗 #S32K144的外设基础实验单片机嵌入式硬件 eclipse mcu 笔记
文章目录1.概述1.1理论回顾1.1.1时钟系统1.1.2采样通道1.2实验目的2.配置与代码编写1.概述1.1理论回顾S32K144的ADC应该说是特别灵活，笔者采用循序渐进的方式来学习使用这个很重要的外设。在《入门笔记系列》专栏中对用户手册进行了翻译和解读，这里在回顾一下ADC的基本功能，第一次实验我们不使用过于复杂的触发方式。只使用一个通道来理解S32K144的ADC。1.1.1时钟系统首先
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
3DXML 与 SOLIDWORKS 格式转换：技术协同及迪威模型方案 3D小将迪威模型联讯软件 SolidWorks模型 UG模型 Rhino模型 SketchUp模型 catia模型 stl模型 stp模型
一、引言在产品设计的前沿领域，3DXML与SOLIDWORKS作为主流格式，虽各有所长，但因格式差异，常成为数据流通与协作的阻碍。对于技术人员和学生党而言，掌握二者间的转换技术，不仅能提升设计效率，更是参与复杂项目协作的必备技能。迪威模型在线转换功能，凭借其先进技术，为这一转换难题提供了高效解决方案。二、3DXML与SOLIDWORKS格式基础（一）3DXML3DXML由达索系统精心打造，其核心压
工作记录 2017-01-20 月巴月巴白勺合鸟月半医疗行业开发技术分享 Microsoft Visual Studio开发技术分享健康医疗 C#
工作记录2017-01-20序号工作相关人员1修改从AmazingChart导出的数据的程序。处理AmazingChart的数据的导入，预计下周一可以提交。修改EDI837的生成。更新RD服务器。郝更新的问题1、更新了DataExport。1.1增加了BillingJobInfo\ProblemList、PatVisit\ProviderInfo\ProviderList、PatMas\Probl
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
c51中断优先级c语言,51单片机的中断优先级及中断嵌套金融四十人论坛 c51中断优先级c语言
说最基本的，老的51单片机(80C51系列)有5个中断源，2个优先级，可以实现二级中断服务嵌套。现在很多扩展的51单片机已经有4个优先级(或更多)和更多的中断源了。在说到中断之前，我先来定义一下优先级，明白了什么是优先级，后面的阐述就容易明白了。实际上很多人都是混淆了优先级的含义，所以才觉得糊里糊涂。中断的优先级有两个：查询优先级和执行优先级。什么是查询优级呢？我们从datasheet或书上看到的
设备树学习（二十三、番外篇-中断子系统之softirq）奔跑的小刺猬设备树设备树原理和实现
既然开始学了，那么还是一次把中断的所有知识都系统的学一下。刚好有蜗窝大神的博客做指引。http://www.wowotech.net/irq_subsystem/soft-irq.html一、前言对于中断处理而言，linux将其分成了两个部分，一个叫做中断handler（tophalf），是全程关闭中断的，另外一部分是deferabletask（bottomhalf），属于不那么紧急需要处理的事情
【Apache Storm】茉菇 apache storm 大数据
一、Storm简介1、概述官网地址：https://storm.apache.org/index.htmlApacheStorm是一个开源的、分布式的实时计算系统，专为处理流式数据而设计。它能够处理大量数据流并在极低的延迟下提供实时的结果。相比于传统的批处理系统，Storm具有处理无限数据流的能力，支持非常高的可扩展性和容错机制。Storm可以适用于多种编程语言，具有高度的灵活性。2、核心功能分布
AXI总线之相关应用逾越TAO fpga开发硬件工程笔记
AXI总线作为现代SoC设计的核心互连协议，其应用场景极为广泛，覆盖移动设备、AI加速器、FPGA、存储控制器等多个领域。以下是AXI在不同应用中的关键角色及具体实现案例：一、移动处理器与SoC应用场景：智能手机、平板电脑的SoC（如高通骁龙、苹果A系列、华为麒麟）中，AXI用于连接多核CPU、GPU、ISP（图像信号处理器）、DDR控制器等模块。典型案例：ARMCortex-A系列多核集群：AX
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
vue3+springboot电影院售票选座管理系统 qq_3166678367 spring boot 后端 java
目录本系统(已开发完成)->成品实现截图开发技术本系统支持的技术栈源码获取详细视频演示：文章底部获取博主联系方式！！！！本课题重点核心代码部分展示论文提纲来自指导老师帅的肯定视频演示/源码获取本系统(已开发完成)->成品实现截图开发技术关键技术实现：在Java的开发过程中，可以使用HTML、CSS、JavaScript等前端技术来实现系统的用户界面设计和交互功能。后端可以使用Java语言编写业务逻
Node.js系列（4）--微服务架构实践一进制ᅟᅠ ‌‍‎‏ Node.js 架构 node.js 微服务
Node.js微服务架构实践引言微服务架构已成为构建大规模Node.js应用的主流选择。本文将深入探讨Node.js微服务架构的设计与实现，包括服务拆分、服务治理、通信机制等方面，帮助开发者构建可扩展的微服务系统。微服务架构概述Node.js微服务架构主要包括以下方面：服务拆分：业务领域划分与服务边界服务治理：服务注册、发现与负载均衡通信机制：同步与异步通信方案数据管理：分布式事务与数据一致性可观
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Spring Boot 中使用 @Transactional 注解配置事务管理 m0_74823434 面试学习路线阿里巴巴 spring boot 数据库 sql
事务管理是应用系统开发中必不可少的一部分。Spring为事务管理提供了丰富的功能支持。Spring事务管理分为编程式和声明式的两种方式。编程式事务指的是通过编码方式实现事务；声明式事务基于AOP,将具体业务逻辑与事务处理解耦。声明式事务管理使业务代码逻辑不受污染,因此在实际使用中声明式事务用的比较多。声明式事务有两种方式，一种是在配置文件（xml）中做相关的事务规则声明，另一种是基于@Transa
MyBatisPlus 代码生成器如何使用？一篇文章学会它！！！程序猿ZhangSir Java 数据库 #MyBatis java spring 数据库
目录一.MP代码生成器简介二.准备工作2.1建立数据库和表2.1创建项目三.编写工具类3.1创建类3.2定义数据库连接变量3.3定义单表代码生成函数3.4扩展为任意表自动生成代码四.测试代码生成器4.1测试单表生成model方法一.MP代码生成器简介代码生成器是MyBatis-Plus提供的一个非常实用的功能，可以快速生成Entity、Mapper、MapperXML、Service、Contro
Kafka系列之—向Kafka 写入数据（四）葛旭朋 Kafka kafka 分布式 java
一，创建Kafka生产者1.1必选的三个属性1.1.1bootstrap.servers指定broker的地址清单，不需要包含所有的broker地址，生产者会从给定的broker里找到其它broker的信息，建议最少提供两个broker的信息。1.1.2key.serializerbroker希望接收到的消息的键和值都是字节数组。1.1.3value.serializer指定的类会将值序列化。1.
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
HTML音频、视频--课后作业实践 Heetun html5
浅学了web一段时间，用浅显的知识做了一个小小的实践，各位大佬们多多包涵，指正。主要知识重现：标记语法：src:设置媒体文件的路径width、height:设置媒体文件的宽度、高度autostart:逻辑值，true为自动播放；false为不自动播放loop:逻辑值，true自动循环播放；false不循环播放2.CSS的内部样式表选择器1{属性1：属性值1；属性2：属性值2；......}选择器2
H3C Network命令详解 weixin_30471561
转载于:https://www.cnblogs.com/fanweisheng/p/11156926.html
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息