数据虫巢

数据与广告系列十三：广告中的异常预测问题(PU学习&CostSensitiveClassification)

作者|黄崇远（题图：ssyer.com，CCO协议）公号，数据虫巢(ID: blogchong)

“ 这篇偏理论，请做好查资料准备。”

所谓异常检测，即在正常的流程中，你需要识别出来潜在的异常，而一般情况下，异常则意味着风险，所以，在实际的场景中，这类诉求是非常常见的。

—

实际生活中的异常检测场景

我们的大主题是广告，所以还是先以广告为例，在实际的广告投放中，什么场景下会有类似的异常检测的诉求呢？

广告投放的核心目标是给流量投放广告，然后最终期望用户点击广告带来转化，这种所谓的转化有可能是直接的点击（常规CPC广告），也有可能是APP的下载（常规的APP应用下载投放），还有可能是咨询沟通（在线咨询），也有可能是表单收集（常见的H5类型投放，表单收集）。

每产生一个Click，每产生一个下载，每产生一次表单提交，这都意味着需要扣广告主的钱，如果说点击/下载/表单填写都是假的呢？这个职责谁来承担，反正广告主钱是已经扣了。

以表单提交为例，H5的投放，大部分对于广告主来说还有后续的一些其他操作，诸如拿着表单信息进行离线的电话沟通等，一方面推广费用已经扣除，另一方面收集过来很大一部分是无效表单，联系不上，恶意辱骂，信息错位等等，其离线的进一步营销也是需要成本的。这就造成了无效成本的进一步增大。

那么，会有这么多错误点击和错乱表单的存在吗？真的是有的，有一些习惯性无聊的，看到广告就瞎点；有一些是竞品玩家，纯粹故意恶心你来的；还有一些人性本恶的，估计进来骂人以及找骂的；还有一些机器人等等。

针对这些人这些情况，我们如果能提前一步识别出来，避免将广告投放给他，如果能够控制召回和准确率，岂不妙哉；退一步讲，就算提前预测不出来，点击之后，产生表单之后再进行识别，这样也可以避免给广告主造成经济损失，也是可以的。

但是，这毕竟少数人，如果是大规模的情况，那意味着你大广告投放环境实在太糟糕了，建议不要做广告了。

这种抓“坏人”的情况除了广告领域，其他领域也大有存在，比如网站或者平台上的恶意流量识别，电商里找撸羊毛的羊毛党，贷款领域里的潜在贷款风险人的识别等。

各行各业，都有类似的诉求，是的，找“坏人”。

—

异常检测与分类

可以看到，我们核心目标就是找“坏人”。这不是典型的分类问题吗？你是好人，或者你是坏人，二选一，没得挑，二值分类问题。

但这真的不是典型的分类问题。

还是以广告为例，一次广告投放以100万的曝光量计算，你觉得会遇到多少“坏人”，会有10万？如果你的平台高达10%的坏人比例，那你的平台估计早得关门大吉了。

所以，这种情况，永远都是小比例事件。100万的曝光，以1%的点击率来算，进来的人1万个，1万个里有近百个捣乱的已经够你喝一壶的了。

所以，实际比例可能是99.99万比100，如果是典型的分类问题，五五分是正常的，三七开也算是过得去，但没怎么见9999比1这么悬殊比例的典型分类问题。

所以，异常检测从来都不是典型的分类问题，是典型的非典型分类问题。他具有以下几个特点：

“ 第一，一定是茫茫人海里找到少数特殊的存在，严格意义上还是分类。”

“ 第二，但对于这些人来说，找到他们非常重要，因为他们的有害性很高，这意味着在某种合适平衡的情况下，我们需要尽可能的提升召回率。”

“第三，在很多情况下，我们并不能很好的找到很多那些有问题的正样本，然后负样本中极有可能会包含正样本，而正负样本量是属于极度失衡的状态。”

这三点应该比较好理解，所以针对几类问题，我们需要找到优化的方法，不能一板一眼的通过常规分类手段实现预测模型的构建。

—

PU-Learning

所谓PU-Learning，即P代表的是Positive，U代表的是Unlabel，就是上述中第三点，负样本实际上是泛样本。我们可以确保异常的正样本中没有“好人”，但不能保证负样本中没有“坏人”。

实际上，很多时候根本就没有啥负样本，就是在大池子捞一批人出来，所以才有Unlabel的说法，因为没法区分，量太大了，能显性找出来的，都已经丢到正样本里头去了。

所以这个时候，实际上这是一个半监督分类的问题。我们首先要解决的问题是，在未标记的样本中找到可靠的负样本。

当然，在通常这种正样本与负样本在实际环境中比例异常悬殊，所以，就算不做额外处理，把unlabel的样本当成负样本使用，然后直接训练一个标准的分类器，然后做预测，也是可以解决的。此处参考文献【01】，虽然直白，但是我们暂时不发散，太简单了，没意思。

为了避免unlabel样本中的潜在正样本带来的分类偏差，我们可以通过类似boostrap的方式来降低潜在正样本带来的分类偏差。

过程可以理解为：

(1) 随机抽取一部分未标记的样本作为负样本，训练分类器

(2) 然后测试部分的数据进行预测，拿到预测概率

(3) 继续重复从全量未标记样本中随机抽取数据，重复一二步骤

(4) 最终我们拿到了N次的预测结果，取平均作为最终的预测概率

这类方式也非常好理解，通过多次随机打乱数据，最终取平均的方式来降低未标记样本中的潜在正样本带来的分类错误。这种方式，详情可以参考文献【02】。

还有第三种方式，更为流行且被认可的方式，即two-stage strategy两步法。我们先用正样本和未标记样本训练一个分类器，然后对未标记样本进行预测，取高概率的部分作为“真·负样本”，然后把这部分“真·负样本”丢回输入数据中，更新分类器，然后再重复迭代，直到认为我们的分类模型可使用为止。两步法的具体论文参考文献【03】。

我们可以发现，其实基本上这类PU Learning的解决方案都是偏工程手法，具体在分类模型的选择上并没有特殊的要求，可以自行选择和调试，但是鉴于大多会遇到重复迭代的问题，所以尽量选择高效的分类模型来做中间分类器的训练，比如XGboot，比如LR等。

—

解决样本不均衡的问题Smote算法

我们暂且抛开所谓“未标记”的问题，正如上一章所说，在实际情况中，未标记样本大概率是负样本，就算不是也有一些方式可以探测出来，尽量的把负样本给摘取出来。

但是，另外一个问题却非常致命，即，往往我们只有100个正样本，但是负样本却有上万个，哪怕随机挑一批也远远多于正样本。

所以，问题很明显，就是典型样本极度不均衡的情况。而我们所说的异常检测问题，就属于这种典型样本不均衡的问题。

针对于样本不均衡的问题，常规解决方式就是，对于量大的样本进行欠采样，即只采一部分当成对应类型样本；对于量小的样本进行过采样，所谓过采样就是想尽一切办法来增加样本。

而我们要聊的Smote算法就是一切办法中的增加样本的一种算法。当然，简单的欠采样，可以直接随机抽取部分比例，而暴力的过采样则可以直接随机选择部分样本进行批量复制。

更科学点的欠采样，可以使用对样本进行举类，然后选取中心点位置，从而达到样本缩小的目的，对于升级版的过采样，Smote算法算是典型的解决方案了。

参考SMOTE的论文文献【04】，其伪代码过程如下：

其论文名称转换成中文就是“合成少数类过采样技术”，伪代码的逻辑是：随机选取一个中心点，然后计算它的近邻，假设中心点是a，选择的近邻是b，则在ab连线上随机选择一个点作为新的样本。

图解如下：

算法原理巨简单，看上面的伪代码或者图解基本上就能理解了，他抛弃了简单的复制过采样的方法，以一种更加合理的方式进行少数样本扩增。

从逻辑上我们发现，其实还是有些问题需要待确认的，比如到底应该选取多少个中心点，然后选择近邻的时候选择多个个数，通过选定的近邻和中心点构造新样本点，是不是一定要在两个点之间随机。

中心点的个数决定了你需要扩增的量级，近邻的范围决定了你的过采样新构造的点是否足够分散，越聚拢则越容易形成过拟合，越分散则模型的泛化能力越好，但过度分散又会导致预测准确率下降等等。

所以如上，基于原有的论文，随机点不单纯可以在ab之间，甚至可以超出ab的直线范围，也可以在ab直线的中心轴上做偏移。

对于算法的实现来说，基于上面的逻辑，其实自己写一个代码出来也非常容易，或者谷歌一下，有无数的开源实现，当然，最好的方式当然是引入学习库了。这里推荐imblearn.over_sampling import SMOTE的实现，具体用法很简单，查看官网CASE即可（文献【05】），且其实现了各种不同的SMOTE变种。

—

CostSensitiveClassification代价敏感分类

Csot Sensitive这个单词组应该认识，不认识查查字典也应该认识，所谓CostSensitiveClassification即代价敏感的分类。

什么叫代价敏感，就是分错了后果很严重。又回到了我们的开头，所有异常检测的业务场景都是“宁可错杀一百，不可放过一个”的例子。

当然，这样说有点严重了，但是基本上只要召回不够高，带来的业务损失是很大的，所以，一般情况下，只要保证一定程度上的precision，是要尽可能地提升recall指标的。

既然对于少数类分错了后果如此严重，我们如何让模型认识到分错了是一件非常严肃的事情呢？

之前我们做过采样，其实无形中也增加了这类样本的特征，也算是解决cost sensitive问题的一种“曲线救国”的方式。还有诸如，直接在模型上加大这类样本的权重，很大一部分模型是支持这类操作的，告诉模型这类样本比较重要（这类方式标准的称呼为rescaling方法）。

还有一种方式，是直接穿透底层的方案，那就是自定义损失函数，从损失函数里体现这类样本的重要性，即一旦分错之后，会带来额外的损失，这就是有偏损失，所以核心评估的是损失量，而非直观误判损失（此类方法称之为reweighted方法）。

针对于Cost Sensitive的更全面性的描述，可以参考论文文献【06】，论文里通过对比常规分类的评估和银行借贷评估以及恶性疾病诊断等案例对比，来阐述Cost Sensitive的需求场景。

在文献【07】论文中，提出了一种基于AdaBoost分类算法改进的Cost Sensitive算法--AdaCost。

AdaBoost的核心思想是通过反复修改数据的权重，从而使一系列的弱分类器集成一个强分类器，具体逻辑如下：

(1) 权值调整，提升被分错误分类的样本权重，降低正确分类的权重。

(2) 基于分类器组合，采用加权多数表决算法，加大分类错误率较小的弱分类器的权重，从而减小误差。

而AdaBoost的弱分类器通常又使用回归树进行构建。AdaCost基于AdaBoost的改进而来，并且也是通过reweighted方式实现的。其过程同样是使用弱分类器集成强分类器，只不过在权值评估的时候，AdaBoost侧重于评估分类的准确性，而AdaCost引入了Cost的元素，即代价损失，且不同类别其误判Cost是不同的，从而在权值划分中引入了Cost的考量。

具体的逻辑以及伪代码如下：

如上逻辑中，重点关注函数β，这是评价分类结果的cost性能引入，从而使得分类符合Cost Sensitive的要求。

具体相关其他代价函数的手工设计等，暂时不在能力范围内，更多是依赖于开源解决方案，来解决实际的应用问题，一个比较有用的开源实现，参考文献【08】，里面集成了众多的Cost Sensitive分类模型。

—

总结

在实际的应用场景中，我们会经常遇到这种少类对多类的场景，且少类恰巧是更为重要的类型，识别错误的代价往往很高。

我们可以通过多种方式来解决这个问题，最简单的无非是平衡样本查，通过欠采样抽样多样本，通过采样进行少类样本扩充，而Smote又是一种典型可行的过采样方式。

我们也可以通过PU学习的解决方案，通过工程探测的一些逻辑，从海量实际数据里捕捉少类样本，加大少类样本的量，以及提升分类模型的准确性。

最后，我们还可以通过Cost Sensitive分类算法解决思路来看待这类问题，通过优化评估函数，或者损失函数，引入Cost的权重重新划分的方式，将少类样本的重要性告诉Model，从而提升模型对于少类样本的分类“谨慎度”。

当然，我们在工业解决上，除非做研究，所以核心还是解决问题为主，哪种方案成本低，且能够满足你的业务模型要求，那就OK。所以，多看看行业的开源解决方案，那是一个快速应用落地的思路。

最后，稍微吐槽一下，这篇文章是少有的陈述理论的文章，查了很多资料，看了很多论文，深有体会。

国内论文很操蛋，下个论文要么要各种分，或者给Money，论文质量又一般般。谷歌学术中检索提供的大部分论文都是可以直接下载PDF的，学术锁在文库里被企业家用来赚钱了，那整体的工业水平又怎么可能升的上去呢？

在下一篇，我看看能不能找到相关的实际公开数据，我们一起撸一遍代码，如果找不到就拉倒了。

—

参考文献

【01】论文：Learning classifiers from only positive and unlabeled data

【02】论文：A bagging SVM to learn from positive and unlabeled examples

【03】An Evaluation of Two-Step Techniques for Positive-Unlabeled Learning in Text Classification

【04】SMOTE-synthetic-minority-over-sampling-technique

【05】

http://imbalanced-learn.org/en/stable/generated/imblearn.over_sampling.SMOTE.html

【06】Cost-Sensitive分类算法-综述和实验

【07】AsymmetricBoosting

【08】

http://albahnsen.github.io/CostSensitiveClassification/

请期待，顺手点个“在看”，置顶一下“数据虫巢”，转发朋友圈，赞赏一杯深夜写文的咖啡，都是给我/给数据虫巢持续写下去的动力（这篇写的太费劲了）。

OTHER相关系列文章

数据与广告系列：

《数据与广告系列一：初识在线计算广告》

《数据与广告系列二：计算广告和推荐系统》

《数据与广告系列三：合约与第三方广告的监控》

《数据与广告系列四：搜索广告和竞价策略》

《数据与广告系列五：广告系统生态平衡与人群定向》

《数据与广告系列六：一图读懂广告生态产品之间的关系》

《数据与广告系列七：推荐系统和在线广告技术架构》

《数据与广告系列八：广告与二类电商》

《数据与广告系列九：有意思的本地化广告》

《数据与广告系列十：开启机器学习之路》

《数据与广告系列十一：从性别预测的CASE开始手撕机器学习代码》

《数据与广告系列十二：接上一篇，见习算法工程师教程》

推荐系统系列：

《推01，是不是都觉得自己少了个推荐系统？》

《推02，非技术人员也有必要了解的推荐常识》

《推03，最最最简单的推荐系统是什么样的》

《推04，融合了用户兴趣推荐系统才更具个性》

《推05，论推荐系统之经典，还得数协同》

《推06，从策略算法到系统到架构到产品设计》

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

数据与广告系列十三：广告中的异常预测问题(PU学习&CostSensitiveClassification)

你可能感兴趣的:(数据与广告系列十三：广告中的异常预测问题(PU学习&CostSensitiveClassification))