longxinchen_ml

ML学习分享系列(2)_计算广告小窥[中]

原作：面包包包包包包
修改：寒小阳 && 龙心尘
时间：2016年2月
出处：http://blog.csdn.net/Breada/article/details/50697030
http://blog.csdn.net/han_xiaoyang/article/details/50697074
http://blog.csdn.net/longxinchen_ml/article/details/50697105
声明：版权所有，转载请联系作者并注明出处

1. 引言

提笔写这篇博客，我的内心是惶恐的。原因很简单，作为一个资历尚浅的研究生，是没有资格对计算广告这样一个伟大的行业、领域和学科来评头论足的。之所以这么做，一是总结自己已掌握的知识，二是降低同学们的学习成本。本人能力有限，更缺乏实践经验，文章内容多为书籍和论文的读后感，若有不当或者错误之处，还望各位同学指出，我定悉心求教。在此，向编写《计算广告》的刘鹏和王超两位老师致谢，向各位paper作者致谢。

[关于ML学分计划]

由寒小阳和龙心尘发起，一个互帮互助的机器学习知识共享平台。
我们是一群对机器学习感兴趣的小伙伴，对于神奇的机器学习经常有“一探究竟”的冲动，却因为孤身一人学习的寂寞、亦或繁忙考试工作之余的小小拖延症，而没有持续这份对知识的渴求和热情。
由于深感类似情况的小伙伴之多，我们希望建立一个“ML学分计划”——机器学习的学习和分享计划——来帮助我们一起更高效地学习、更集中地整理分享我们的知识和经验。因为我们也深信”证明自己真的透彻理解一个知识，最好的方法，是给一个不熟悉这个内容的人，讲清楚这个内容“。

[关于原作@面包包包包包包]

海淀区明光村计算机职业技术学院，研二学生。
关注计算广告点击率预估和竞价算法，关注机器学习和深度学习，初学者。
机器学习QQ群：初学者373038809，行业同学和研究者472059892。

(上)(中)(下)全文目录

引言
广告=>互联网广告：“您好，了解一下”
互联网广告=>计算广告：指哪儿打哪儿！
计算广告四君子：谁在弄潮？
计算广告关键技术：这孙子怎么什么都知道？
广告系统架构：要啥自行车，这里有宝马。
手把手系列之教你搭建一个最小广告系统：mieSys

5. 计算广告关键技术：这孙子怎么什么都知道？

一句话解释关键技术：没声音，再好的戏也出不来。

广告作为一项商业活动，是需要资本来滋养的。作为整个产业链的金主，只有广告主花钱做广告，使资金流动起来，整个广告行业才能正常运转。所谓关键技术，就是那些能让广告主觉得“这钱花的值”，让媒体网站觉得“这钱挣的快”的技术。具体都有哪些呢？下面我们一一来表。

5.1 合约广告关键技术：受众定向

计算广告发展到合约广告阶段，媒体网站依靠受众定向技术给用户打标签，在实现了媒体网站广告位的时分复用的同时，还提高了广告主的投入产出比，极大的激发了广告主在互联网上做广告的积极性。因此，受众定向是合约广告中的关键技术。

我们知道，只要描述物体的维度足够高，那么世间万物都是独一无二的。在广告系统中，标签就是描述用户的维度。媒体网站为了精准的刻画用户，标签的种类和数量自然也不会少。为了更加直观地了解受众定向技术，我们从用户、上下文和广告三个方面讨论打标签的思路和一般方法。

用户标签：主要用性别、年龄、收入、地理位置、教育程度和用户行为等标签来刻画用户，从而回答“你是谁”的问题。
上下文标签：主要用网页的地域、主题和频道等标签来刻画用户当前所处的媒体网站环境，从而回答“你在看啥”的问题。
广告标签：主要用广告主、广告创意、广告计划和广告关键词等标签来刻画广告的相关内容，将广告内容与用户和上下文进行匹配后，从而回答“你该看啥”的问题。

5.1.1 用户标签关键技术

对一个用户来说，性别是不会轻易变的，但是用户的喜好和兴趣却是时刻都在变化的。根据标签属性的变化频率，我们这里私自将用户标签分为静态和动态两类。静态标签主要指年龄、性别、地理位置、收入和教育程度等这种不变或者很长时间之内都不变的标签，行话叫“人口属性”；动态标签则是指用户的浏览、搜索和点击等能够反映用户短时喜好和兴趣的行为标签，行话叫“行为定向(BT:Behaviroal Targeting)”。下面我们针对静态和动态这两类标签分别讨论。

一句话解释静态标签和动态标签的关系：价格围绕价值上下波动。

静态标签(人口属性)

在《计算广告小窥[上]》中，我们曾简要地提到过一种受众定向的方法：

通过对点击日志的分析，媒体网站发现点击过女性护肤品的用户又点击过媒体网站上其他女性品牌。在“女性用户对女性品牌可能更感兴趣”的合理假设下，判断这些用户的性别为女，男性用户同理。

现在我们可以更加清楚的认识到，上述媒体网站所打的标签是静态标签中的“性别”，使用的是基于规则的方法，即：满足了某种条件，就是某种人。这种基于规则的方法简单并且易于实现，但也存在着致命的缺点：基于规则的方法对数据非常敏感，若数据本身存在噪音(如误点击)，那么标签的品质也将大打折扣。这可如何是好？简单的不行，那就来点复杂的嘛——用机器学习模型来实现(自带音效：当当当当，当当~~)。

假设我们已经知道一部分用户的真实性别，那么就可以用机器学习中有监督的二分类模型来预测用户性别。首先，我们需要对原始数据进行清洗，合理地处理缺失值和奇异值，并划分训练集、交叉验证集和测试集；其次，要在业务的指导下做特征工程，利用统计或模型的方法构造特征，并进行特征选择和特征组合；然后，我们要选择合适的模型(如SVM等)，设置合适的评价标准并进行模型的训练；最后，通过模型调参和模型融合，获得性别预测模型。

动态标签(行为定向)

一句话解释行为定向：唐伯虎喜欢如花多一些，还是凤姐多一些？

“如果一定要比较一下，那唐伯虎是喜欢如花多一些，还是凤姐多一些？”这个看似荒谬的问题，正是行为定向要解决的。如果唐伯虎是异性恋，那他应该是喜欢凤姐多一些的，否则是如花。这也就告诉我们，在行为定向中，判断的标准至关重要。下面我们借助一个例子来分析该用户的动态标签究竟是什么。

有数据显示，某用户在过去的三个月时间中，点击广告的标签和次数如下表所示：

标准	单反爱好者	跑鞋爱好者	饮料爱好者	护肤品爱好者	…
点击	25	4	2	1	…

对上述数据进行分析，我们可以轻而易举的得到答案：该用户的标签应该是“单反爱好者”，因为他的点击行为集中在这个标签上。但是，这个答案是我们以用户的点击行为作为标准得来的，如果以用户的浏览和搜索行为做标准，答案也是“单反爱好者”吗？我们再来看一下相关数据。

标准	单反爱好者	跑鞋爱好者	饮料爱好者	护肤品爱好者	…
浏览	15	2	0	0	…

标准	单反爱好者	跑鞋爱好者	饮料爱好者	护肤品爱好者	…
搜索	7	16	5	3	…

是不是出问题了？以点击和浏览为标准，该用户标签应该是“单反爱好者”，但是以搜索为标准，标签应该是“跑鞋爱好者”。如果该用户的标签只能有一个，那该选哪一个呢？为了解决这个问题，我们从数学角度分析一下好了。嘿嘿，数学噢，前方高能预警！我会尽量让这个过程变得简单，大家跟上我的思路哈。

Step1. 泊松分布

一句话解释泊松分布:猜猜我在哪儿~~~

我们先来介绍下泊松分布。啊啊啊啊！一上来就是数学，我不听我不听我不听，泊松分布是什么鬼？咳咳，那，那就先不丢公式了，咱们看图解决问题好了，下面是泊松分布绘出的曲线图，实际工程中要解决的问题就是找到图中的最高点，如下图：

这个肉眼找最高点的过程不要太简单了！！！我们可以看到：图中最高点的纵坐标大约为0.36，而对应的横坐标是1。OK，你就算会用泊松分布了哦！那个，感兴趣的同学们，可以一起来看看对应上图的泊松分布的公式。

p t (h) = λ h t e - λ t h !

公式相对于图，是有那么点点复杂啦。不过，我们只需知道 λt 影响泊松分布的形状，一个 λt 对应一个泊松分布就可以了。这个场景下要做的事情就是找到对应泊松分布图像的最高点。

Step2. 一个结论

一句话解释这个结论：一个萝卜一个坑。

我们先说一个结论：在一个标准下，用户在所有标签上的概率分布是满足泊松分布的。对于这个结论，有兴趣的同学可以参见Stanford 《Introduction to Computational Advertising》讲义Page-81，我们在这里就直接拿来用了。而所谓“标准”，就对应泊松分布公式中的 λt ，在我们这里的场景下与用户行为有关。我们有点击、浏览和搜索三种行为，也就对应三个 λt ，绘出三条曲线如下。(此图为示例数据上绘出的图像，非实际数据)：

我们可以清楚的看到，在以“点击”和“浏览”为标准时，图像最高点都出现在5号标签，用户标签应该是标签5；以“搜索”为标准时，图像最高点出现在6号标签，用户标签应该是标签6，标签发生了冲突。接下来，我们就要想办法用数学方法去解决标签冲突的问题，思路是这样的：先选出一个最佳标准，然后以此标准画正态分布，最后找最高点对应的标签即可。

Step3. 最佳标准

一句话解释最佳标准：盲人摸象

“盲人摸象”比喻以偏概全，现在我们想要知道大象全貌，把每个人摸到的拼起来便是了。在广告系统中，搜索、点击和浏览三种行为数据都只能从一个侧面反映用户的行为，要想完整的刻画一个用户，我们虚要将这三种行为融合起来之后找到一个最佳标准。提到融合，较为常用的方法是投票，我们可以写出下列公式：

λ t = \sum i = 1 n ω i * t i ， where t \in (搜 索 ， 点 击 ， 浏 览)

简单解释一下： ti 是标准，分别代表了搜索、点击和浏览行为； ωi 是标准的权重，即该标准对于完整描述用户行为的贡献。我们用机器学习中的广义线性模型对该问题进行建模，模型训练完成后可得各标准的权重 ωi ，从而预测出最佳标准 λt 。

Step4. 最终求解

通过广义线性模型，我们找到了最佳标准 λt 。现在，我们根据该 λt 画出相应泊松分布，如下图：

回顾Step2中的结论：在一个标准下，用户在所有标签上的概率分布是满足泊松分布的。现在最佳标准下的泊松分布我们已经画了出来，该用户在所有标签中的概率分布也应该符合这个分布的。还是老步骤，我们找最高点所对应的标签，即标签5，所以该用户的动态标签是标签5，问题完美解决。

在学习了泊松分布和机器学习之后，媒体网站终于完成了用户标签的工作，看着那圆圆的饼图，流下了激动了泪水，哽咽着说“嗯..终于..终于可以卖钱了..”没错，流量可以变现了，互联网广告一脚踏进合约广告时代。但是仅仅知道“你是谁”，粒度还是太粗，卖不了好价钱。“要是知道你正在干嘛就好了”媒体网站嘴里嘟囔着，突然脑海中灵光一闪，大叫一声：(图片来自网络)

5.1.2 上下文标签关键技术

一句话解释上下文标签的做法：吃的是URL，挤的是标签。

“我当然知道他在干嘛！我有日志啊！我有他正在访问页面的URL！啊哈哈哈哈哈！”有了用户标签的经验，媒体网站处理起上下文标签来就显得轻车熟路了，总共分两步：第一，根据用户当前页面的URL，抓取用户当前浏览的页面内容；第二，提取页面内容的关键词，作为当前页面的标签。

通过URL获得页面内容是一个典型的爬虫应用，与搜索引擎的爬虫不同的是，广告系统的爬虫只抓取用户请求的页面，而非全网页面。鉴于上述原因，广告系统使用“半在线抓取系统”，该系统有三个特点。第一，仅对用户发起请求的页面进行抓取，节省了时间和成本；第二，将{URL:标签}存储下来，当其他用户发起相同页面请求时，直接返回标签结果，避免重复抓取。第三，考虑到某些频道页面内容可能会更新(例如”旧浪体育”)，还可设置合适时间，周期地更新已存页面的标签。

在抓取到页面之后，如何提取标签也有几种常见方法。最简单的是利用规则，在URL层面上人为做映射，例如sports.oldna.com对应的页面标签就是”旧浪体育”。若用户是通过搜索发起的页面访问，还可以根据搜索词作为页面标签。当然，在广告系统使用范围较广的方法还是机器学习中的主题模型，得到页面内容在几个主题上的分布，从而判断页面标签。例如，sports.oldna.com页面内容在”体育”、”财经”和”游戏”三个主题上的概率分布分别为：

体育	财经	游戏
0.85	0.10	0.05

我们可以很容易的看出sports.oldna.com的标签是”体育”。这里值得注意的是，如果想要加工出”体育”、”财经”和”游戏”这种可解释的标签，通常需要采用有监督的主题模型。

能用的数据都用了，能打的标签也都打了，知道了“你是谁”和“你在看什么”之后，媒体网站这才感觉踏实了些。下面的工作就简单了许多，把标签卖给广告主就可以了，也算是一劳永逸，深藏功与名。至于用户会看到什么，那是广告主的地界，就不管媒体网站什么事儿了。

5.1.3 广告标签关键技术

普通的广告标签就是广告本身的属性，如所属广告主、广告大小、广告类别和目标人群等，当广告和用户两两匹配时，该广告就会展示给用户。但是，这里我们想说的广告标签是在程序化交易中的“个性化标签”。在《计算广告小窥[上]》中我们提到：“程序化交易是广告主为实现个性化营销举行的海天盛筵。”品尝过个性化营销的甜头之后，广告主就想：“既然这些人是回头客，那各方面表现和这些回头客很像的人，有没有可能也是我的回头客呢？世界那么大，我得去找找这种人。”

look-alike

一句话解释look-alike：比葫芦画瓢。

这个技术的名字还挺洋气呢，英文的，“看起来像”？说白了就是比葫芦画瓢，找到那些看起来像回头客的新用户，行话叫“新客推荐”。这里一定要注意了，千万不能翻译成“看起来像”，那样显得逼格不够，就叫英文的，look-alike~

关于look-alike的具体实现，市面上没有统一的做法，毕竟我们正在经历。这样一来我的心也放下了，因为即便我下面都是胡扯也不一定是错的。

look-alike的核心是按着回头客的样子去找新用户。那简单呀，看看回头客的标签是什么样子，对着去找相同的不就行了？没错，这算一种方法，并且是一种基于规则的方法。但是直觉告诉我们这样做粒度太粗，没有充分考虑到广告主因素，同时经验也告诉我们，基于规则的不如基于模型的效果好，所以我们还可以得出一个基于模型的做法：将某用户是否是潜在用户建模成一个机器学习中的二分类问题，利用回头客数据训练模型，并在新用户上做预测，是就是1不是就是0，也挺好理解的。

受众定向关键技术我们就介绍到这里了，现在我们来回顾一下。为了更加精准的刻画用户，我们从用户标签、上下文标签和广告标签三个方面来介绍受众定向。虽说角度不同，但总的说来，不外乎两种方法：基于规则和基于模型。在受众定向技术的支持下，互联网广告进入合约广告时代。在经见了在线分配的大坑之后，媒体网站发现合约不可保，便使用竞价方式售卖流量，指定广告主。那在竞价广告中，又有什么关键技术呢？请看下一小节：竞价广告关键技术：点击率预估。

5.2 竞价广告关键技术：点击率预估

郭德碗：聊(bi)了(bi)了这么久，想必衣食父母也都累了。
于兼：是有点儿。
郭德碗：能坚持看到这儿的人不多。
于兼：东西太难。
郭德碗：那就歇了吧，《计算广告小窥》到此结束！
于兼：给我回来！像话嘛这个！
郭德碗：还想怎么着啊？
于兼：说好的点击率预估呢？大伙都冲这个来的。
郭德碗：真有冲这个来的？
(有！)
郭德碗：怎么不提钱跟我说呢？
(吁~)
郭德碗：好了，玩笑归玩笑，驴鞭归于兼，下面呀，我..
于兼：您等会儿，那玩意儿归我干嘛呀？
郭德碗：嘿嘿嘿。
(吁~)
郭德碗：你们都懂？
(吁~)
郭德碗：仁者见仁，污者见污哟。
(下去吧~)

我知道很多同学是冲着点击率预估来的，所以不能让你们白来不是，免费送您一小段儿，别跟我提钱哈哈。等最后聊到最小广告系统，帮我贡献几次点击就行，我也好收集一些高质量数据，训练模型自己玩儿。言归正传，下面我们将从“是什么”、“为什么”和“怎样做”三方面来介绍点击率预估。

5.2.1 点击率预估是什么

点击率

一句话解释点击率：0.1%

既然聊到点击率预估，那我们先来看看什么叫点击率。点击率这个概念我们是第一次提起，但其实我们早就知道它了。我们在《计算广告小窥[上]》曾经提到：

“自从广告上了互联网，广告的面貌就焕然一新。造成行业巨变的原因，是因为互联网广告的效果可以被衡量。”

如果接着往下说，以什么标准来衡量呢？没错，最常用的衡量标准就是点击率。点击率(CTR:Click-Through Rate)是指的是媒体网站上某个广告的点击量/展示量。之所以使用点击率来衡量广告效果是有原因的，先来看分母：分母是某广告的总展示量。在《计算广告小窥[上]》中我们曰过，广告展示机会是广告主通过竞价获得的，展示机会越多，意味着广告主的出价越高，所以总展示量可以用来表征广告主的广告投入。再来看分子：分子是总点击量，而点击行为代表了用户的注意力，说明用户渴望进一步了解广告内容。因此点击率越高，意味着广告主在相同投入的情况下，收获了更多的用户注意力，完美诠释了广告主做广告的初衷，所以点击率是广告主和媒体网站常用来衡量广告效果的标准。我听过一个数字，广告平均点击率为千分之一，也就是每展示1000次广告才会收获1次点击，所以点击率预估中数据都是很稀疏的。

点击率预估

一句话解释点击率预估：80%

了解了点击率，我们再来看看什么叫点击率预估。从字面上理解，点击率预估是预测媒体网站上某个广告的点击量/展示量，然而这样理解并不是很准确，我先给出我的理解：点击率预估，是指预测特定用户点击特定广告的概率，例如小明点击某信二手车广告的概率是80%。

为什么对媒体网站广告点击率(0.1%)的预测，会变成了对用户点击某广告概率(80%)的预测呢，接着往下看啦。

5.2.2 为什么要做点击率预估

一句话解释为什么要做点击率预估：钱。

在竞价广告阶段，广告主与媒体网站之间以按点击付费(CPC)的方式结算，因此我们可以用下列公式来表征媒体网站在某次广告活动中的收入：

媒体网站收入 = (点击率 * 展示量) * 单次点击价格 = 点击量 * 单次点击价格

我们知道，展示量和单次点击价格这两部分都是广告主参与竞价后才能决定的，与媒体网站无关，所以媒体网站的收入就与点击率直接挂钩。在收益最大化的驱使下，媒体网站有提高点击率的动力。点击率的定义是点击量/展示量，展示量又是广告主通过竞价决定的，因此媒体网站只能想方设法提高点击量。

对于媒体网站而言，他所拥有的资源就是页面上几个固定的广告位和海量的用户。为了提高点击量，一种简单明了的想法就是让展示的广告尽可能多的被点击，即“指哪儿打哪儿”。为了实现这个理想，亟需解决两个问题：首先需要知道用户感兴趣的广告有哪些，其次需要让用户尽可能多的点击这些广告。

第一个问题叫做“广告检索”，是指媒体网站根据用户的定向标签或其他方式检索出符合用户口味的广告候选集合。这部分内容是搜索引擎的核心，在这里我们就不展开讨论了。我们来看第二个问题，假设我们已经得到了一个符合用户口味的广告候选集合，如何能让用户更多的点击呢？很简单，把用户最可能点击的广告放在最显眼的地方，为了定量描述用户最可能点击的广告，这便引出了点击率预估的问题。因此我们说，点击率预估并不是来预估媒体网站上点击量/展示量，而是预测某个特定用户点击某个特定广告的概率。OK，那预估完干什么呢？刚才不是说了嘛，把最可能点击的广告放在最显眼的地方呀！

最显眼的地方

一句话解释最显眼的地方：你也是柳岩的球迷？

为了较为直观地描述用户的注意力分布，我找了一张LinkdIn的用户注意力热力分布图。(图片来自网络)

图中，颜色越红代表用户注意力越集中。可以看到，用户最关注的是页面的上半部分，其次是右半部分，最后是下半部分。这种注意力分布基本我们日常的浏览习惯，即如果能在页面靠前位置找到我们所需的信息，一般就不会再关注页面其他地方。了解了注意力分布，我们来看一下某度搜索页面上的广告位分布。

某度广告位主要分布在北区、东区和南区三部分，以LinkedIn页面中的用户注意力分布来推测，用户在某度页面上注意力分布从高到底分别是北区、东区和南区。假设某度共有10个广告位，那么将用户最可能点击的10个广告按照点击概率由高到低顺序分别排在北区、东区和南区。然后还干嘛？没有了，万事俱备，只欠点击。

不知道您听明白了没，我来帮您捋捋。为了提高媒体网站的收益，我们结合业务场景不断简化问题，从提高媒体网站点击率入手，到提高总点击量，再到获得广告候选集合，预测出了用户点击广告的概率。仅仅预测点击概率媒体网站还赚不着钱，因此媒体网站根据点击概率在页面广告位上对广告进行排序。所以为什么要做点击率预估呢？都是为了钱！都是为了钱！都是为了钱！

5.2.3 点击率预估怎么做

一句话解释点击率预估怎么做：使尽浑身解数，只为更懂你。

自计算广告学诞生以来，点击率预估就是一个在学术界和工业界被广泛研究和实践的课题。剥去种种具体场景，点击率预估的本质其实还是一个机器学习中的二分类问题。一般来讲，媒体网站点击数据的数学分布是非线性的。为了拟合这种非线性关系，学术界侧重于模型的研究，工业界侧重于特征的构造，双方优势互补，已取得了相当丰硕的成果。下面我们将先介绍展示广告和搜索广告这两种互联网广告的主要形式，然后阐述二者在点击率预估问题上的不同之处，最后介绍一些点击率预估的方法。

展示广告

展示广告(Display Advertising)是一种以“图片+文字”的方式进行广告宣传的互联网广告形式。从广告触发方式来看，展示广告是媒体网站根据用户历史行为所做的推荐，对用户而言广告是被动接收的，如下图。

搜索广告

搜索广告(Sponsored Search)是一种以“标题+超链接”的方式进行广告宣传的互联网广告形式。从广告触发方式来看，搜索广告是媒体网站针对用户当前检索所做的广告匹配，广告是用户主动发起的，如下图。

根据上面我们对展示和搜索广告的描述，我们可以对两种广告形式的点击率预估有一个浅显并直观的认识：展示广告的点击率预估可以看作是一个推荐问题，根据历史记录推测用户对哪些广告更感兴趣；搜索广告的点击率预估可以看作是一个检索问题，根据用户当前的查询来做广告匹配。前者推荐后者检索，问题性质的不同也决定了点击率预估所采用方式的不同。

点击率预估方法

有关展示广告和搜索广告的实现算法和应用细节都是各家互联网公司的商业机密，由于场景的不同，各家对点击率的预估也是八仙过海各显神通。作为一个没有实战经验的小屁孩儿，想要较为流畅地阐述这个话题，还是力不从心，毕竟眼界太窄太年轻。为了保证文章结构的完整，这部分还必须要写，那么我就抛开业务场景，仅从机器学习角度来和大家聊一聊我所知道的内容。写的不好，还请各路大神多多指教，如有不当指出，请严厉指出，我定感激不尽！

上面我们提到过，从用户浏览网页到广告获得展示，要经过三个阶段：用户定向、广告检索和广告排序。用户定向和广告检索就不多说了，最终在广告库中可以找到符合你口味的广告，即“万里挑十”。在广告排序阶段，需要将这十个广告位放置在页面上，通常做法有两种，一个是基于规则，一个是基于机器学习。我们这里从机器学习的角度入手，但是各位千万不要忽视了规则的能力。聊到机器学习，主要就是两方面，特征和模型。下面我就根据我所了解的内容，重点介绍一下线性模型+海量特征的方法，然后简单介绍一下点击率预估的发展。

<1>线性模型 + 海量特征

用于点击率预估的数据主要是日志数据，一般会有点击行为(点击为1，没点为0)、广告信息(广告位、广告主id、广告标签和广告描述等)、用户信息(用户id和用户标签等)、上下文信息和时间戳等。有了这些原始数据之后，需要对数据进行清洗，然后利用统计或模型的方法构造特征，进而做特征选择和特征组合，最终特征的数量级大约在10亿-100亿维。完成了特征工作之后，在模型方面，较为经典的点击率预估模型是线性模型Logistic Regression，由于LR在通过sigmoid之前是一个[0,1]之间的浮点数，利用LR的特点，我们可以将这个浮点数作为用户点击该广告的概率，把广告按照这个概率从高到低放置在相应广告位上，就完成了广告排序。

为什么要造出维度这么高的特征向量呢？我的理解是这样的。对于点击数据来说，点击行为与其他特征之间的关系是非线性的，为了拟合这种非线性关系，我们依然可以从特征和模型两方面入手。通常来说，非线性模型的效果要更好一些，但是效率太低，不适合工业界的现实场景，所以快速简单的线性模型就成为了模型的首选。那线性模型如何拟合非线性关系呢？这就需要在特征层面做文章，利用特征工程的方法来构造出高阶特征，同样可以实现非线性。这个思路理解起来还是不难的，如下面两式对比：

特 征 工 程 前 ： y 1 = w 1 x 1 + w 3 x 2 + 1

特 征 工 程 后 ： y 2 = w 1 x 21 + w 2 x 1 + w 3 x 2 + w 4 x 1 x 2 + 1

<2>点击率预估的发展

为了构造出维度如此巨大的特征向量，特征工程几乎占据了70%的项目时间，并且主要是靠努力的程序员人工来实现的。那有没有自动选择特征的方式呢？ADKDD’14有一篇Facebook的paper《Practical Lessons from Predicting Clicks on Ads at Facebook》提出了一种使用GBDT自动选择特征的方法，用每棵树上的叶子节点来表达特征，比如{1:2, 2:3}指的是第一棵树上第2个节点和第2棵树上第五个节点，根据每棵树的节点个数用one-hot表示即可。多说一句，GBDT选特征的方法已经经过实践验证，在Kaggle-Criteo点击率预估大赛中，冠军的解决方案便是GBDT+FFM的方法获得的。

说到FFM，它是FM的一个变种。FM(Factorization Machine)：因式分解机是最近比较火的一个模型，这个模型可以挖掘出特征间的非线性关系，并且可以在 O(n) 的时间内完成计算，非常吸引人。

最后就是深度学习了，在视频、图像和语音领域有较为突出的成果。最新的听说MSRA出了一个152层的网络，OMG…国内在广告领域应用深度学习最早的应该是百度IDL，据说有三十多层，评价指标提升了三个百分点，看来DL的能力还是很强的。我自己也在探索阶段，期待能有好的结果，这里就不多说了。

点击率预估环节到这里就结束了，以上内容不知是否和您心意。部分内容可能需要一些机器学习背景，对此感兴趣的同学可以加入我们的QQ群(初学者373038809，行业同学和研究者472059892)，我们共同讨论。好累呀，卖个萌再往下面写吧。(图片来自网络)

5.3 程序化交易关键技术：出价策略

在上半部分中，我们曾经介绍过程序化交易中的参与者，除了用户外，主要还有代表媒体网站利益的SSP、代表广告主利益的DSP和小三ADX。通俗来讲，SSP是管仓库的，ADX是管传话的，DSP是管花钱的，现在我们要开始聊程序化交易中的关键技术，您觉得我们应该把目光放在谁上面呢？已经讲到现在了，我们要收起情怀，统一思想，当然是要重点关注DSP啦！你可能会想，花钱谁不会啊，这要啥技术？没错，花钱是没什么难的，但对于广告主而言，花钱做广告是一种投资，本质和风投股票文玩楼盘高利贷没什么区别，追求的就是高的投入产出比，真刀真枪的动起钱来，弄不好会走火入魔的。这钱，您还敢花吗？

敢啊！

要是不敢我还怎么写博客嘛，哈哈哈哈哈~~~花钱不要紧，只要能挣就行了呀！那我们就来聊聊如何才能挣的比花的多吧。

5.3.1 出价原则

上面我们提到，广告主花钱做广告实际上是一种投资行为，既然是投资，就要对风险进行评估。具体到DSP来说，“投资”是指广告主投钱给DSP，让其参与实时竞价，期望获得良好的广告效果(点击/购买/注册/下载等)；“风险”是指钱花了，但由于效果太差，没见着收益。为了规避风险，获取较高的投入产出比，DSP在出价时需要进行“风险评估”，即预估本次广告展示机会所能带来的收益，以此作为出价的参考。在出价时，要注意以下几点原则，可能并不全面，还请行业内的同学补充。

预算限制：广告主一次就给这么多，超了算你的。
时间限制：到时间花不完就收回去了。
花钱为主：都说了是投资，能花了就别留着。
见好就上：出价与流量品质成正相关。

这些出价原则理解起来没什么难的，但我想要着重说一下第四条见好就上，这才是最关键的部分。如何定义流量品质，又如何出价呢，好戏马上开始。

5.3.2 如何定义流量品质？

所谓流量品质，就是在此时此刻此情此景，用户点击广告能为广告主带来的收益，主要分为两部分：一是点击率，二是点击价值。点击率的预估就不多说了，和媒体网站上点击率预估是类似的，只不过在实时的场景下要求会更高一些。点击价值是什么意思？刘鹏老师在《计算广告》中这样解释道：（有部分修改，括号内容为我的解释）

点击价值可以分解为到达率、转化率和转化单价三个量的乘积。到达率是指实际打开广告次数与点击次数的比例，这与广告主网站的页面你打开延迟关系最大，与媒体的属性、特别是误点情况也有一定关系；转化率指的是到达广告主页以后，有多少比例产生了广告主定义的转化行为(购买/注册/下载等)；转化单价是指广告主指定的转化费用(即DSP做一单能挣多少)。

上述三个变量中，到达率和转化单价都是很好统计的，只有转化率的预估是比较困难的。转化率预估的方法可以参照点击率预估，但是由于转化数据要比点击数据少得多，除非是在有充足行业数据支持的情况下，否则用机器学习方法建模有较大困难。实践中比较可行的办法基本上都是简单统计与运营经验相结合来估算转化率。

5.3.3 如何出价？

终于进入到了最核心的出价环节。按照“见好就上”的原则，出价与流量品质成正相关。那到底是采用线性策略好，还是非线性策略好呢？我们来仔细分析一下。

线性出价策略

我们在CTR预估阶段提到过用户注意力，广告位这个物理因素对点击率的影响是十分显著的。我曾看到过一个数字，同样一个广告，把它放在第一位所获得点击率是放在第二位时的两倍。若采用线性出价策略，DSP在出价时就有必要出两倍于第二位的价格去参与竞价。这个思路很好理解，感兴趣的同学可以参照KDD’12的paper《Bid Optimizing and Inventory Scoring in Targeted Online Advertising》。

非线性出价策略

非线性策略是我想说的重点，主要是想借着这个机会介绍一下限制条件下的优化问题以及其解法，这对于我们做科研或者工程项目都是很有帮助的，下面我们通过KDD’14《Optimal Real-Time Bidding for Display Advertising》一文来了解一下非线性出价策略的来龙去脉。以下内容是我对这篇paper的个人理解，可能并不到位，既然写出来就不怕大家笑话啦，有错就改嘛嘿嘿。

<1>. 文章大意

实时竞价的场景中，在预算限制条件下如何设计出价策略是我们关注的焦点。为了实现这一目标，分为三步。第一，将现实问题用数学方法建模为限制条件下的优化问题，并通过拉格朗日乘子法，求得出价策略的数学表达式；第二，利用品友RTB出价算法大赛的数据拟合出价策略中的参数；第三，验证结果，发现了一个有意思的结论：相比少量高品质的展示机会，那些大量低品质的展示机会同样可以具有较好的广告效果，值得出价。这个发现对于那些预算不够，同时又想做广告的小广告主来说，简直就是福音。

<2>. 建立模型

在一切开始之前，让我们先考虑清楚要解决的问题是什么，简单来说就一句话：选择合适的出价策略，在预算的限制下实现广告效果最大化，用数学语言描述就是下面这样：

b () O R T B = a r g m a x b () N T \int x θ (x) w (b (θ (x), x), x) p x (x) d x

subject to N T \int x b (θ (x), x) w (b (θ (x), x), x) p x (x) d x

我靠！这一堆是什么玩意儿！你TM在逗我？淡定。。看不懂就对了啊哈哈哈哈！下面我来做一下简化，告诉你这个模型在我眼中长什么样。

b () O R T B = a r g m a x b () 一 大 坨 ！

subject to 又 一 大 坨! < B

这下是不是好多了？反正我第一次看到这个模型就长这样，把积分部分当作一大坨，就很容易看懂了。这个模型一共有两个公式，我们一一来看。

$b () O R T B = a r g m a x b () 一大坨！$

第一个公式是一个等式，等号左边是我们想得到的出价策略函数 b()ORTB ，等号右边是 argmaxb() 跟上一大坨，这里 argmaxb() 的意思是：当后面一大坨取最大值时，返回在最大值情况下的那个 b() 。将等号左右两边连起来，这个等式所表达的意思就是：当后面一大坨取最大值时，返回在最大值情况下的那个 b() 作为我们要求的出价策略 b()ORTB 。这个思路是不是有点眼熟？没错，在前面合约广告关键技术——受众定向中，讲到用户动态特征时我们对泊松分布的处理方式有些类似。综上所述，对于这个等式而言，我们要做的工作就一个：求最大值。

$subject to 又一大坨! < B$

第二个公式是一个不等式，subject to是“受限于”的意思。在这里，又一大坨 !<B 想要表达的就是一个限制条件，在等式求最大时插上一脚。还记得我们在高中时学过的线性规划吗，一样的道理。

现在我们的任务已经明确了：在限制条件下求等式最大值。那么这个数学任务和我们的实际问题：选择合适的出价策略，在预算的限制下实现广告效果最大化是怎么匹配上的呢？这就需要去看那两大坨了。那一大坨全都是各种符号，我们看不懂，所以需要一张符号对照表，如下图。为了方便，我再把模型公式再贴一次。

b () O R T B = a r g m a x b () N T \int x θ (x) w (b (θ (x), x), x) p x (x) d x

subject to N T \int x b (θ (x), x) w (b (θ (x), x), x) p x (x) d x

有了符号定义和模型，我们开始聊(啃)一聊(啃)这两大坨吧。先看第一坨，我们从右往左看。

dx ：x代表一次bid request，是ADX发给DSP的竞价请求“标识XXX,男性，20-25岁，跑鞋爱好者，广告位为首页”，即一次广告展示机会。之所以是 dx 而不是 x ，是因为我们关注的是整个广告推广计划中所有的竞价过程，而非某一次竞价。
px(x) ：广告展示机会的概率密度分布，我的理解是在全网所有的竞价中，满足我DSP要求的、或者是我能收到的bid request所占的比例。因此， px(x)∗dx 的物理意义是“我能收到的展示机会”。
θ(x) ： θ 是赢得此次竞价所能带来的收益(KPI)，本文用CTR来衡量，CTR越高，收益就越高。
b(θ(x),x) ：对于此次展示机会，在能带来收益为 θ(x) 的情况下，我所出的价格bid。
ω(b(θ(x),x),x) ：对于此次展示机会，在能带来收益为 θ(x) 的情况下，我的出价bid能获胜的概率是多少。因此， ω(b(θ(x),x),x)∗px(x)∗dx 的物理意义是“对于本次我所收到的这个展示机会来说，在该机会能带来收益为 θ(x) ，我出价为bid的情况下，我能打败对手获得此次展示机会的概率”。
θ(x) ：依然收益。所以 θ(x)∗ω(b(θ(x),x),x)∗px(x)∗dx 的物理含义是“我出价为bid，赢得这次展示机会后，所能获得的收益”。
NT ：一次广告推广活动中所有的bid request。

有了上面的解释，我们可以很容易的得出第一坨的物理意义：对于一次广告推广活动中的所有竞价，我使用 b() 的出价策略所能获得的收益。和等式连起来，即：对于一次广告推广活动中的所有竞价，我使用 b() 的出价策略所能获得最大收益时所对应的 b() ，就是我们想要的出价策略。

有了第一坨的经验，第二坨啃起来就容易多了。前面都不变，只有到最后把 θ(x) 换成了 b(θ(x),x) ，变为 b(θ(x),x)∗ω(b(θ(x),x),x)∗px(x)∗dx ，其物理意义为：对于这次广告展示机会，我出价为bid且赢得这次展示机会所花费的预算。所以对于整个广告推广活动而言，所有的出价要小于预算。就这样，我们顺利的将预算限制写进了数学模型里。

好了，分析完两大坨积分的含义之后，我们合起来解释一下该模型(ORTB)所表达的物理意义：在整个广告推广活动中，在出价总和小于预算的限制条件下，当广告收益取得最大值时所对应的那个出价策略，就是我们梦寐以求的出价策略 b()ORTB 。再来对照一下我们的任务：选择合适的出价策略，在预算的限制下实现广告效果最大化。这下匹配了吧！完美！(图片来自网络)

<3>. 模型求解

截止到目前，我们已经得到了模型表达式，由一个等式和一个不等式组成。接下来我们就要开始求解了：求最大值。最大值有什么好求的？让导数等于0之后带入极值点不就完了？你说的对，如果只有一个等式我们是这么求的，但问题是我们现在除了一个等式，还有一个不等式，这种情况下怎么来求最大值呢？用拉格朗日乘子法。

通过拉格朗日乘子法，我们可以将不等式乘一个参数 λ 后和等式写进一个公式里(化简过程已省略)，得到如下结果。

L(b(θ),λ)=∫θθw(b(θ))pθ(θ)−λ∫θb(θ)w(b(θ))pθ(θ)dθ+λBNT (6)

有了这个公式，我们就可以对它进行求导等于0了，可得如下结果：

θpθ(θ)∂w(b(θ))∂b(θ)−λpθ(θ)[w(b(θ))+b(θ)∂w(b(θ))∂b(θ)]=0 (7)

通过化简，可得出价函数 b() 与胜率函数 w() 的关系：

λw(b(θ))=[θ−λb(θ)]∂w(b(θ))∂b(θ) (8)

也就是说，我们想要的出价函数 b() 与胜率函数 w() 有关，那我们就来看看他们之间到底有什么关系。通过对数据的统计，可以画出出价函数 b() 与胜率函数 w() 的关系图像：

从图像中我们可以看出，出价函数 b() 与胜率函数 w() 的关系是非线性的，并且这个曲线的走势和 y=xc+x 很像，我们来对比一下，这里c=3。

没错，的确很像。基于此，为了达到消元的目的，作者做了一个出价函数 b() 与胜率函数 w() 之间的假设，仿照着 y=xc+x 得到下面公式：

w (b (θ)) = b ( θ ) c + b ( θ ) (9)

将出价函数 b() 与胜率函数 w() 的9式关系带入到倒数为0的7式中，化简可得：

b O R T B 1 (θ) = c λ + c 2 - - - - - - \sqrt - c (13)

就这样，我们得到了我们的出价策略 bORTB() 的表达式(公式13)。我们来看看这个公式里有什么。这个公式是由 θ ， c 和 λ 组成的，其中 c 和 λ 都是常量，只有 θ 一个变量。 c 是出价函数 b() 与胜率函数 w() 之间的系数， λ 是拉格朗日乘子，而 θ 是每次广告展示的收益，按CTR高低来评判。我们来验证一下：CTR越高，由该策略算出的出价也就越高，符合我们的预期，大功告成。

我们来梳理一下思路。在建模环节，我们已经得到了我们所需的模型：一个等式+一个不等式。我们的任务是要求等式的最大值，通常方法直接对等式求导等于0即可，由于我们这里是一个限制条件下的优化问题，所以需要用到拉格朗日乘子法，将限制条件写进等式中，构造出一个新的公式(公式6)。对于新的公式，我们就可以用求导等于0了(公式7)。在化简过程中，我们发现了出价函数 b() 与胜率函数 w() 存在着数学关系(公式8)，为了消元，我们按照实际数据的分布构造出出价函数 b() 与胜率函数 w() 的表达式(公式9)，将公式9带入公式7，继续化简就得到了我们的出价策略： bORTB() ，剩下的工作就是根据数据去拟合 λ 和 c 即可，这里就不多说了。这里需要强调的是，这种限制条件下的优化方法在统计与机器学习中是很常见的，例如SVM的推导过程，感兴趣的同学可以试一试，其实并不难。

<4>. 结果分析

既然有了公式，那我们就来看看ORTB的出价有什么特点吧。

我们可以很直观的看出，我们所得到的出价策略是一个非线性的。横坐标 θ 代表了广告展示计划的品质，ORTB会对低价值的展示机会出高价，这样的结果能为我们带来什么，谁会去要那些低价值的展示机会呢？我们来看下面这张图。

在此图中，我们盯着一条曲线看，比如蓝色的(1/32)。随着 λ 增加，收获的点击量是增加的，意味着 λ 越高，我们的收益越高。对于我们获得的出价策略而言， λ 越高，我们的出价是越低的，也就意味着这次展示机会的价值是很低的。这样的结果值得我们深思，我们以为低价值的展示机会是不值钱的，但数据说明，这些看似不值钱的展示所能带来的回报还算不错。特别地，在 λ =1e-05时三条曲线的几乎重合，而红色代表有钱的广告主，蓝色代表穷广告主，虽然预算差了16倍，但是获得的收益是相同的，这个结论对于预算有限的小广告主而言，是个天大的好消息：虽然我们钱不多，但只要我们出价合适，依然可以收获很好的广告效果，四两拨千斤，极大的调动了小广告主参加程序化交易的积极性。

我们知道，“二八原则”是客观存在的，在广告主中也不例外，如果能吸引这80%的小广告主参与程序化交易，玩家一多，需求自然更多。为了满足金主的需求，势必会推动相关计算技术的发展，这对于计算广告的未来而言，是一件好事。

讲完了非线性出价策略，程序化交易中的关键技术也接近尾声了。出价策略之所以重要，是因为就是DSP赖以生存的看家本领，没有这些真本事，DSP是走不了多远的。

到此，计算广告关键技术就讲完了，啥也不说了，给自己鼓个掌吧(图片来自网络)。

历时大半个月，中间又加上过年，终于把这章给写完了，没想到这一章的内容要比上半部分全文都要多。在本篇《计算广告小窥[中]这孙子怎么什么都知道》中，我们从理论的角度探讨了计算广告各阶段的关键技术：在合约广告中，我们讨论了受众定向技术，从用户、上下文和广告主三个方面简单介绍了打标签的常用思路和方法，为计算广告实现精准营销打下了坚实的基础；在竞价广告中，我们讨论了点击率预估的来龙去脉，感受到了互联网人的智慧，为媒体网站流量变现提供了直接保障；在程序化交易广告中，我们通过学术论文了解了当下学术界领先的DSP出价策略，近距离地感受了一下科研的魅力。

曾有人叹息到“我们这一代最聪明的人竟然都在这里思考着怎样让人们去大量的点击广告，真衰。”我个人不认同这种说法，因为在计算广告这样复杂的场景下，相关技术和解决方案的水准必然是顶尖的，稍加修改即可解决其他场景下的疑难杂症，这恰似军工技术反哺民用，又恰似女生随手甩一个不要了的护肤品给男生，那可都是宝。

受篇幅所限，原定于本篇要完成的第五章和第六章只好放在《计算广告小窥[下]广告系统架构：要啥自行车，这里有宝马。》中来写了。在下篇中，我们将介绍一个通用的广告系统架构，在领略在线和离线过程的同时，还将见到时下工业界最火热的技术，譬如Nginx，Hadoop，Spark等在计算广告领域的位置与应用。

除了广告系统架构，我还将介绍一个我自己搭的最小广告系统mieSys，可以先放出来给大家玩一玩，链接是http://115.159.33.50/。使用方法：用户点击页面中广告，等一段时间后刷新页面，在页脚处会显示用户的兴趣标签和性别，在第一行五个广告位中会展示符合用户口味的广告。需要注意的是，由于目前缺少点击数据，CTR模型并不准，为了保证演示效果，暂时只能用离线代替在线，所以您在点击过后预计要10分钟(用户多的话甚至更长)才能看到页面效果，我后期会进行优化，还望轻拍，效果图如下，第一张为默认页面，第二张为结果页面。

这个系统是我用大概20天的时间搭成的，目前来说基本的功能都有，但还是太简单，并且算法没有优化，我会逐步的往上面添加模块和算法，目前思路已有，就差各位为我提供点击数据了[嘿嘿嘿嘿···]。如果您发现mieSys挂了，不是用户太多就是我在调程序，在系统成熟的时候我会选择开源，愿意与有兴趣的同学多交流。哦对了，至于为什么起名为mieSys，因为我女朋友属咩，呵呵哒~

好了，我们《计算广告小窥[下]》再见！

你可能感兴趣的:(数据挖掘,机器学习,推荐算法,计算广告)

基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
文本生成新纪元：解锁大模型的企业级应用密码
数字化浪潮席卷各行业的当下，文本生成技术正经历着翻天覆地的变革，这场变革的幕后功臣正是大模型。今天，咱们就来深入探讨大模型在文本生成领域的奥秘，看看它如何赋能企业，又该怎样规避风险，实现价值最大化。技术跃迁：从笨拙规则到智能生成回首往昔，文本生成依靠规则模板与关键字替换，虽能实现基础自动化，却如机械舞者，动作生硬、缺乏灵动。业务稍有变动，规则需全面重构，耗时费力。随着N-gram等统计机器学习方法
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
Python爬虫实战：研究MarkupSafe库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 MarkupSafe
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，网页内容自动提取与分析技术在信息检索、舆情监控、数据挖掘等领域的需求日益凸显。网络爬虫作为获取网页内容的核心工具，能够自动化采集互联网信息。然而，直接渲染爬取的网页内容存在安全隐患，特别是跨站脚本攻击（XSS）风险。攻击者可能通过注入恶意脚本窃取用户信息或破坏网站功能。MarkupSafe作为Python的安全字符串处理库，能够有效处理不可
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
面向隐私保护的机器学习：联邦学习技术解析与应用 Blossom.118 机器学习与人工智能机器学习人工智能深度学习 tensorflow python 神经网络 cnn
在当今数字化时代，数据隐私和安全问题日益受到关注。随着《数据安全法》《个人信息保护法》等法律法规的实施，企业和机构在数据处理和分析过程中面临着越来越严格的合规要求。然而，机器学习模型的训练和优化往往需要大量的数据支持，这就产生了一个矛盾：如何在保护数据隐私的前提下，充分利用数据的价值进行机器学习模型的训练和优化？联邦学习（FederatedLearning）作为一种新兴的隐私保护技术，为解决这一问
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
如何看待机器学习方法在超分子化学领域的日渐流行？ cda2024 机器学习人工智能
大家好，今天咱们来聊聊一个既时髦又接地气的话题：如何看待机器学习方法在超分子化学领域的日渐流行？想象一下，你是一位超分子化学家，正忙于设计一种新型的分子结构，这个结构需要具备特定的功能。传统的方法是通过反复实验和理论计算来优化这个结构，但过程可能非常耗时且复杂。而现在，借助机器学习，你可以更快、更准确地找到最优解。这就是为什么机器学习在超分子化学领域变得越来越受欢迎的原因之一。一、超分子化学是什么
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
算法大厨日记：猫猫狐狐带你用代码做一锅香喷喷的“预测汤” Gyoku Mint AI修炼日记猫猫狐狐的小世界人工智能人工智能机器学习 python 算法 database 深度学习数据挖掘
️【开场·今天的料理名叫“预测炖汤”】猫猫：“咱今天突发奇想，决定用机器学习代码给你炖一锅‘预测汤’喵！这不是教你代码，是要告诉你怎么把‘算法’吃进肚子里~”狐狐：“别急，她又在打比方了。这锅汤从数据准备到调参优化，就跟你平常做饭的过程没两样，只不过食材都被咱们用代码换了一遍。”【第一步·数据准备，就是挑菜啦】猫猫：“首先是挑菜（数据预处理），不能什么菜都扔进去锅里吧？要洗干净去皮（数据清洗），再
推荐算法特征工程实战：用户与物料动态画像构建指南 Jay Kay 推荐算法推荐算法算法机器学习
在推荐系统的特征工程中，动态画像是提升推荐精准性的核心武器。通过捕捉用户行为偏好和物料热度变化，算法能实现千人千面的精准推荐。本文结合两张关键图表，深入解析动态画像的构建方法与工程实践。一、用户动态画像：六大维度精准刻画兴趣偏好用户动态画像基于六个关键维度构建（如表2-1所示），形成"6W"行为模型：用户粒度物料属性时间粒度动作类型统计对象统计方法1.核心维度解析（附典型场景）维度可选值应用场景用
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
python ks值计算_风控模型中的K-S理解以及python实现 weixin_39747293 python ks值计算
笔者在工作中计算单变量的ks值时，发现几个分布不同的变量好y计算的ks值相同，凭借统计直觉，发现一定存在问题，笔者从数据和计算ks代码两个方向进行排除。最后定位到计算使用stats.ks_2samp()函数计算ks值时，如果变量存在缺失值，计算得到ks值有误，下面笔者就来好好梳理一下ks值的前世今生。ks检验介绍笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器 IT古董人工智能课程机器学习算法神经网络
第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
RDKit：药物化学和分子数据处理的强大工具库碳酸的唐机器学习人工智能
引言在药物研发、化学信息学和分子设计领域，高效处理和分析分子数据是至关重要的。RDKit作为一个开源的化学信息学和机器学习工具包，为研究人员和数据科学家提供了丰富的功能，包括分子操作、描述符计算、指纹生成、相似性比较、子结构搜索和分子可视化等。本文将详细介绍RDKit的主要功能、应用场景以及实际操作示例，展示这一强大工具在分子数据处理中的核心价值。RDKit简介RDKit是一个由C++和Pytho
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文