Biglethz

IJCAI-18阿里妈妈搜索广告转化预测参赛总结

1.概述

花了两个月时间参加了IJCAI-18 阿里妈妈搜索广告转化预测比赛，对于一个刚接触ML的小白，第一次参加天池的比赛，十分有幸的在初赛进入前500名，复赛进入前300名。
主要工作包括：特征工程与特征选择、多模型选择、调参等。

2.特征工程与特征选择

2.1 基础特征

Id类、Level类：对item_id、 shop_id 、item_brand_id等特征，对数值区间进行了处理之后直接使用；使用LR模型时进行了one-hot处理。
Score类：未处理
其他：item_property_list提取了出现次数最多的n种属性，然后对样本进行one-hot, 对item_predict_catogery字段提取了前3个预测catogery；对catogery提取了类别属性，其中一级类别都一样。

2.2 交叉特征

对基础特征进行交叉，可以描述更加复杂更有效的特征。比如对收藏次数等级特征item_collect_level，直观理解收藏次数越多说明受到越多的关注，广告更容易得到转化；但是考虑展示1000次被收藏10次、展示100次被收藏9次两种情况，显然从“回头率”角度来看，后者更有吸引力；因此结合展示次数等级特征item_pv_level，可以提取出比较有效的展示收藏率特征，而且两个特征的取值数目都较少，交叉之后不会出现数据稀疏的问题。
在比赛中，提取交叉特征一方面依靠对特征的理解，另一方面借助了大佬开源的代码，包括特征工程代码（bangdasun/tianchi 等）和特征选择代码（duxuhao/Feature-Selection）。在特征选择代码中，采用+、-、*、/等运算进行特征交叉，可以交叉出意想不到的特征，并且可以在线上和线下同时提高成绩，比如user_star_level乘以item_city_id、user_age_level除以item_sales_level。

2.3 统计特征

针对不同的类别以及类别组合,通过mean()，size(), count(), cumcount(), unique()等方法可以提取具有明显物理意思的特征，比如店铺的平均价格等级、店铺顾客平均年龄、user的查询次数，各种特征按时间的统计值等。

2.4 历史点击率特征

1) 基础特征的历史点击率
对id类和level类的基础特征，提取历史点击率是比较有效的特征。物理意义明显：某些人的购买能力和消费欲望更强、某些商品或店铺的销量更好。
没有采用滑窗构建特征，可能在一定程度上降低了此类特征的有效性。
为了避免评估和时间穿越（浅谈机器学习评估中的穿越问题）问题，将训练集的最后一天作为验证集，并在划分训练、验证集之后，再对训练集提取历史点击率特征，并将特征merge到验证集和测试集中去。
Merge特征时，对未出现的id取均值。需要注意的是，对shop_id、item_id、user_id等特征，验证、测试集中可能出现较多训练集中未出现的样本，这种情况提取历史点击率没有意义，甚至大幅度提高loss。比如本次比赛round2中的user_id, 在验证集中出现了530596个训练集中未出现的样本，占验证集总数1077175的一半，将该特征的历史点击率加入模型训练之后，验证集最佳loss由0.1805上升至0.1822左右，影响很大。
数据集的大小影响了特征的效果：round1中提取此类特征表现出了明显的过拟合，而round2中比较非常有效
2) 组合特征的历史点击率
组合特征对样本进行了进一步的细分，比如对样本按shop_id、user_age_level进行group_by操作，得到组合后的细分类别，并提取每一个细分类别的历史点击率，可以表达不同的shop对不同年龄段客户的吸引力。
在本次比赛中，对item、shop、brand分别提取不同age、occupation、gender细分的历史点击率。然后，效果并不好，出现了较为严重的过拟合。
基础特征、组合特征的历史点击率分别在round1和round2中出现较为严重的过拟合现象，可能原因为细分类别太多，导致每种类别对应的训练样本太少；当数据集增大，基础特征的点击率在round2中有效；当数据集进一步增大，却不明显增加各种id类特征的数量，组合特征的点击率特征应该会有较好的效果。

2.5 特征选择

特征选择主要从两个角度出发：一是从特征自身的分布特点，二是从模型性能。
从特征自身判断：①提取特征之后，确认特征在训练集、验证集、测试集中的分布接近一致，判断手段包括均值、方差等统计值；②通过corr等方法分析特征与label的相关性，作为判断一个特征有效性的参考。
从模型性能判断：①选择不同的特征集合然后训练，从训练结果判断集合的有效性，实现过程中采用前向和后向搜索两种贪心的选择方式；②从模型提供的特征重要性角度选择，值得注意的是，模型复杂度对特征重要性有较大的影响，当模型较为简单时，较多特征的重要性为零，而当模型较为复杂时，则几乎所有特征的重要性都大于零。

3. 模型

Round1: 使用了多种模型，都没有调参，LightGBM(线下0.0809)、LR(线下0.0813)、GBDT+LR(线下0.0813)、DNN模型（线下0.0819），LightGBM的效果较好。
Round2: 数据量太大，仅使用了两种模型，LightGBM的分类和回归模型(线下皆为0.1801)、XGBoost模型(线下0.1803)。
1) GBMs
Lgb的训练速度很快，有利于特征选择与快速的调参，是比赛主力；xgb的速度较慢，结果与lgb相当。针对二分类模型，回归和分类的模型都可以使用，模型融合成绩大概提升万分之五。
2) LR
需要做较多、较细致的数据预处理，one-hot之后数据量太大，且速度相对较慢，在复赛没有尝试
3) GBDT+LR
GBDT使用了SK中的GBDTClassifier、lgb和xgb，GBDTClassifier的性能最差而且很慢，lgb+LR最好，但是比不上lgb单模型。个人觉得可能是因为GBDT虽然能自动提取一些组合特征，但是一些重要的特征还是需要进行手动的特征工程。
4) DNN模型
简单看了一下论文和kaggle上相关比赛的模型实现，尝试了PNN和DeepFM等模型，但是由于不太熟悉这部分内容，效果一般。

4. 调参

主要针对lgb和xgb进行了调参，由于数据量特别大，又担心subsample影响样本的分布，尤其是较多item_id，user_id仅在训练集中出现，所以硬着头皮在所有训练集上进行调参。简单粗暴调参：固定较大的学习率，选取一个简单的模型作为baseline，对单参数逐个进行精调和粗调。
调参主要是针对过拟合和不平衡样本，具体参数参考lgb和xgb的帮助文档即可。其实两个模型除了max_depth和num_leaves两个参数有细微的差别之外，大部分参数的物理意义都非常相似；另外lgb的分类和回归模型的参数仅调一个即可。
对于正负样本极不平衡的数据集，scale_pos_weight参数非常重要，调参后成绩提升约千分之一；其次是max_depth、num_leaves； colsample_bytree、learning_rate影响也较为明显；其他L1、L2等正则化参数调参有一定的提升。

5. 其他

除了上述操作之外，还试了几个不靠谱的操作，都没有什么提升。
1）对预测结果进行修正：对预测值进行排序，按一定比例将预测值较大的结果加上一个常数；对预测值较小的值减去一个常数。这么做的原因是：将预测值较大的结果全部判定为正例，将预测值较小的结果判定为负例，这样的正确率是远高于随机猜测的，根据log_loss的公式可以知道，这样的修正是能降低loss的。结果验证集loss降低万分之四左右，测试集loss几乎没有变化。可能原因是两个数据集的分布不一致，而且没有看到修正预测的均值逼近真实平均值的骚操作（https://github.com/infinitezxc/kaggle-avazu）。
2）伪标签：在kaggle比赛Toxic Comment Classification Challenge的冠军分享中提到了这个思路，利用test集的预测结果，将test集加入训练集，对结果有一定的提升。进行了一定的尝试，效果一般。可能原因是：TCCC比赛的样本不平衡程度相对较小，训练结果的召回率和准确率都较高，可以使用分类结果而非分类概率作为伪标签，伪标签与真实标签的分布相差较小；而此次比赛数据集的数据非常不均衡，大部分预测结果都小于0.2，导致以概率作为伪标签之后，相对真实标签的分布相差太大，以至于效果非常不好，线下loss为0.194。
3）在DNN模型中尝试了BiLSTM+ATTETION方案：主要考虑这样一个想法，每一个样本其实都可以描述为一句话：某个user在某个context环境下看到了某个item，该item具有某个属性blabla。这就可以借鉴文本分类的思路进行建模，BiLSTM+ATTETION或者BiGRU+ATTETION可以说是文本分类比较简单粗暴且有效的思路了，结果在round1中线下0.0823左右，效果一般；在round2中训练速度太慢，放弃之。

6. 总结

收获：

1）从业务层面：在面向科学上网与帮助文档的基础上，磕磕绊绊独立完成了定义任务、从原始数据提取特征、特征选择、模型选择与调参的完整技术流程；了解了CTR任务的特点与常用模型；
2）从技能树层面：以项目驱动方式熟悉了LightGBM、GBDT+LR、相关DNN模型，Pandas、SK等python包；同时也暴露出算法层面和工具层面的不足。

不足：

1）模型层面：缺少对模型的深刻理解，对于模型选择没有充足的理论和经验支撑，停留在调包调参，单纯从模型性能选择模型的阶段
2）特征工程层面：一方面缺少对实际业务背景的理解，另一方面没有形成特征提取、评估的一般性方法与流程。
3）在编程基本功层面：程序和数据的复用程度较低，没有实现从数据→特征→特征评估→模型训练的模块化框架，做了大量重复的工作；没有充分了解python及相关包的语言特性、数据结构特性，在内存控制、算法复杂度等方面存在较多的不足。
总的来说，个人目前处于将长期处于看山是山、看水是水的社会主义初级阶段，对于业务、算法、工具甚至一些trick在直觉上有一定的认识，并且可以在借助一定辅助手段情况下完成从任务到结果的整个流程，但是从经验和理论层面都缺乏对各个环节的有效性能把控能力，像一张白纸，从项目实践中大量的、无论好坏的吸取经验。

你可能感兴趣的:(CTR)

VSCode - VSCode 快速跳转标签页
VSCode快速跳转标签页1、标签页列表快速跳转通过快捷键Ctrl+Tab即可快速跳转标签页#操作方式先按住Ctrl键，再按Tab键，此时，即可打开标签页列表（保持Ctrl键一直按住）然后，再按Tab键，即可快速切换标签页，每按一次Tab键，即可切换到下一个标签页最后，松开Ctrl键，即可快速跳转标签页2、标签页前后快速跳转通过快捷键Ctrl+PgUp即可快速跳转前一个标签页#操作方式先按住Ctr
vscode工具使用技巧 Victor Zhong Tool vscode用法
vscode使用快捷键使用快捷键C+KC+0:代码区快折叠C+KC+J：代码区块展开ctr+/:行注释，再按反注释shift+alt+A:块注释
图片上传预处理（剪裁压缩）
基于bootstrap的fileinput.js上传图片插件，在上传前进行图片的剪裁压缩，对图片大小及宽高不做限制，方便用户上传图片。写入代码前需要引入jquery.js及fileinput.js//初始化fileinput控件（第一次初始化）functioninitFileInput(ctrlName,uploadUrl,initImage,picId){varcontrol=$('#'+ctr
数字营销中衡量广告效果的核心指标走过冬季学习笔记数据仓库数据分析
数字营销中衡量广告效果的核心指标可按目标层级分为以下几类，结合最新行业趋势与标准整理如下：一、曝光与互动指标CTR（点击率）定义：广告被点击次数占展示次数的比例，反映广告吸引力。公式：CTR=点击次数÷展示次数×100%应用：CTR＜1%需优化文案或受众定位；社媒广告CTR高于搜索广告。VTR（视频观看完成率）定义：用户完整观看视频广告的比例，评估内容质量。公式：VTR=完整观看次数÷展示次数×1
ElasticCTR：一键部署的分布式CTR预估解决方案萧桔格Wilbur
ElasticCTR：一键部署的分布式CTR预估解决方案ElasticCTRElasticCTR，即飞桨弹性计算推荐系统，是基于Kubernetes的企业级推荐系统开源解决方案。该方案融合了百度业务场景下持续打磨的高精度CTR模型、飞桨开源框架的大规模分布式训练能力、工业级稀疏参数弹性调度服务，帮助用户在Kubernetes环境中一键完成推荐系统部署，具备高性能、工业级部署、端到端体验的特点，并且
pycharm for windows 常用快捷键
pycharmforwindows快捷键编辑类：Ctrl+D复制选定的区域或行Ctrl+Y删除选定的行Ctrl+W选中光标所在代码Ctrl+Alt+L代码格式化Ctrl+Alt+O优化导入（去掉用不到的包导入）Ctrl+鼠标简介/进入代码定义Ctrl+/行注释、取消注释Ctrl+左方括号快速跳到代码开头Ctrl+右方括号快速跳到代码末尾Shift+F10运行Shift+F9调试查找/替换类：Ctr
什么是 A/B 测试？茫茫人海一粒沙人工智能
一，什么是A/B测试？A/B测试的基本思想是：将用户随机分成两组，分别使用不同的版本，观察结果差异是否显著。A组：使用旧版本（或基线方案）B组：使用新版本（或新模型）然后对比它们的表现，例如：点击率（CTR）转化率（ConversionRate）用户停留时长任务完成率微调后模型的自动应答准确率、满意度等二，为什么叫A/B？A代表“控制组”（ControlGroup）：通常是当前线上正在运行的版本B
java h d,Java, {Country} Hướng dẫn du lịch | Những việc nên làm tại Java, {Country} | Jetstar | Jets... openbiox java h d
LàmộttrongnhữngđảonhỏnhấtcủaIndonesianhưngcũngnhưcácnơikháctrênkhắpđấtnước,Javađượcthiênnhiênbantặngcảnhđẹptựnhiênphongphú,từbãibiểnhoangsơnhưKepulauanSeributrênbờbiểnphíabắcJakartađếncôngviênquốcgiaU
Linux中的阻塞信号与信号原理 guygg88 linux apache mysql
在Linux操作系统中，信号（Signal）是进程间通信和进程控制的核心机制之一。信号是一种异步通知机制，可以向进程发送异步事件通知，以便进程能够处理系统级别的事件。本文将详细探讨Linux中的信号原理，重点讲解阻塞信号的机制及其使用。一、Linux信号的基本概念1.什么是信号信号是一种轻量级的异步通知机制，通常用于通知进程发生了某种事件。信号可以由内核、用户或进程本身产生。例如，当用户按下Ctr
【推荐系统】多任务学习之ESMM模型山顶夕景推荐算法深度学习推荐算法深度学习
学习总结ESMM首创了利用用户行为序列数据在完整样本空间建模，并提出利用学习CTR和CTCVR的辅助任务，迂回学习CVR，避免了传统CVR模型经常遭遇的样本选择偏差和训练数据稀疏的问题，取得了显著的效果。ESMM解决了真实场景中CVR中的SSB和DS问题。CVR（Conversionrate）转化率：衡量CPA广告效果的指标，用户点击广告到成为一个有效的激活（如注册额或者成为付费用户）的转化率，所
Kubernetes Kubelete 报错 ctr: failed to create shim task: OCI runtime create failed 地表最强菜鸡 Kubernetes kubernetes 运维数据库
最近在工作中加入Kubernetes新的服务器节点的之后，发现Kubelet报错如下：ctr:failedtocreateshimtask:OCIruntimecreatefailed:unabletoretrieveOCIruntimeerror(open/run/containerd/io.containerd.runtime.v2.task/default/redis/log.json:no
如何用数字人实现品效合一的传播井云智能矩阵系统人工智能
——从量子化建模到联邦学习的技术革命与商业实践一、行业痛点：传统营销的“三重割裂”2025年数据显示，78%的企业因营销效率低下错失市场机遇（快消品牌年损超500万元），核心矛盾聚焦于：品效割裂：品牌广告CTR＜0.5%，效果广告复购率不足30%（MCN机构实测）渠道割裂：跨平台数据孤岛导致用户旅程断裂，转化漏斗流失率＞65%人效割裂：真人主播日播极限4小时，人力成本占比超60%而如今，基于数字人
【IDEA】01 - IDEA快捷键的使用是小崔啊 IDEA的使用 intellij-idea java ide
【IDEA】01-IDEA快捷键的使用文章目录【IDEA】01-IDEA快捷键的使用零：先总结最最重要的一：导航类快捷键(必须掌握)二：文件操作类(懒人必备)三：辅助编码类四：重构相关(通过重构增强可读性)使用IDEA快捷键，要注意快捷键冲突，例如搜狗的扩展快捷键要关闭，网易云，qq等一些热键也会有冲突前面标注的一定要重点掌握零：先总结最最重要的这部分是非常非常常用的，但是不容易记住的，就像ctr
Docker 命令替代（ctr和 crictl）爱尚维 Kubernetes docker 容器运维 ctr crictl
1.ctrctr是containerd的一个客户端工具。$ctr-vctrcontainerd.io1.6.16从输出看到，这是一个containerd管理工具，一般是安装完containerd.io之后就有的命令。现在Containerd也有namespaces的概念，所以很多操作需要加上-n。默认情况下运行在default名称空间下，但是不显示。$ctrhelp$ctrnslsNAMELABE
docker&ctr&crictl常用命令对比 weixin_44246168 docker 运维容器
释义dockerctr（containerd）crictl（kubernetes）查看运行的容器dockerpsctrtaskls/ctrcontainerlscrictlps查看镜像dockerimagesctrimagelscrictlimages查看容器日志dockerlogs无crictllogs查看容器数据信息dockerinspectctrcontainerinfocrictlinsp
Docker、ctr 与 crictl：容器生态工具的深度对比指南刘家豪TOP1 docker 容器运维 kubernetes
文章目录背景与演进技术演进背景企业混合场景的挑战工具的定位与分析定位与场景区别与详解1.功能范围2.与kubernetes关系3.生产环境深度实践语法对比总结背景与演进技术演进背景Docker与Kubernetes的分道扬镳早期Kubernetes依赖Docker座位容器运行时，但是Docker的封闭生态与Kubernetes的开源理念逐渐产生冲突，2016年，Kubernetes退出CRI（Co
docker ctr crictl 常用命令 _c G docker
一、docker和containerd1、docker由docker-client,dockerd,containerd,docker-shim,runc组成，所以containerd是docker的基础组件之一2、从k8s的角度看，可以选择containerd或docker作为运行时组件：其中containerd调用链更短，组件更少，更稳定，占用节点资源更少。所以k8s后来的版本开始默认使用co
ctr、crictl介绍及使用 a475209210 k8s docker 云原生 docker devops kubernetes
一、概述作为接替Docker运行时的Containerd在早在Kubernetes1.7时就能直接与Kubelet集成使用，只是大部分时候我们因熟悉Docker，在部署集群时采用了默认的dockershim。在V1.24起的版本的kubelet就彻底移除了dockershim，改为默认使用Containerd了，当然也使用cri-dockerd适配器来将DockerEngine与Kubernete
多目标建模总结 zhiyong_will 深度学习Deep Learning 算法人工智能
1.概述在推荐系统中，通常有多个业务目标需要同时优化，常见的指标包括点击率CTR、转化率CVR、GMV、浏览深度和品类丰富度等。为了能平衡最终的多个目标，需要对多个目标建模，多目标建模的常用方法主要可以分为：多模型的融合多任务学习底层共享表示的优化任务序列依赖关系建模多模型的融合是根据不同的指标训练不同的模型，最终对多个模型的结果做融合；多任务学习是目前处理多目标建模使用较多的方法，相较于多模型的
Excel快捷键前端sweetGirl Excel活学活用 excel
基础操作Ctrl+C复制选定的单元格Ctrl+X剪切选定的单元格Ctrl+V粘贴复制的单元格Ctr+Z撤销上一次操作Ctrl+O打开一个现有的工作簿Ctrl+P打印当前工作簿Ctrl+K插入超链接Ctrl+;插入当前日期Ctrl+‘’插入当前时间Ctrl+Shift+;插入当前时间Ctrl+Shift++插入新行或列Ctrl+-删除选定的行或列F2编辑当前选中的单元格Alt+=快速求和Ctr+Sh
Linux SSH安全之禁用CBC模式(SSH Server CBC Mode Ciphers) promise524 Linux linux ssh 安全运维服务器 CBC cipher
在Linux系统中，CBC（CipherBlockChaining）模式的加密算法被认为存在安全隐患（例如可能被攻击者利用来进行PaddingOracle攻击）。因此，建议禁用SSH服务中不安全的CBC模式加密算法，并使用更安全的加密算法：CTR（CounterMode）或GCM（Galois/CounterMode）。一.检查当前SSH服务支持的加密算法列出SSH服务支持的加密算法：使用以下命令
解决java内置aes加密出现Given final block not properly padded异常的问题 xyhshen java java
今天使用java的aes解密的时候出现了Givenfinalblocknotproperlypadded的错误，如果你的数据不是用java自带的接口进行加密的密文，解密时可能出现这个问题，这是因为加解密除了算法外还有多种模式，比如ECB,CBC,CTR,CFB,OFB这些，其中最简单的是ecb，也叫做密码本，就是直接用秘钥套入算法，符合我们密码对密文的常规思维，速度快实现也简单，但这种方式密文里留
开发相关术语 xx2406 javascript
业务指标PV-PageView(页面浏览量)UV-UniqueVisitor(独立访客数)DAU-DailyActiveUser(日活跃用户数)MAU-MonthlyActiveUser(月活跃用户数)VV-VisitView(访问量/日活用户)GMV-GrossMerchandiseVolume(商品交易总额)CPM-CostPerMille(千次展示成本)CTR-ClickThroughRat
Linux常用命令介绍-文档编辑后端linux
cat命令-在终端设备上显示文件内容cat命令来自英文词组concatenatefilesandprint的缩写，其功能是在终端设备上显示文件内容。在Linux系统中有很多用于查看文件内容的命令，例如more、tail、head等，每个命令都有各自的特点。cat命令适合查看内容较少的纯文本文件。对于内容较多的文件，使用cat命令查看后会在屏幕上快速滚屏，用户往往看不清所显示的具体内容，只好按Ctr
K8S Gateway AB测试、蓝绿发布、金丝雀(灰度)发布 matrixlzp K8S kubernetes gateway ab测试
假设有如下三个节点的K8S集群：k8s31master是控制节点k8s31node1、k8s31node2是工作节点容器运行时是containerd一、场景分析阅读本文，默认您已经安装了K8SGateway。关于AB测试、金丝雀发布，可以看这篇文章。二、实验准备镜像下载#在各个工作节点下载[root@k8s31node1~]#ctr-n=k8s.ioimagespullswr.cn-north-4
guacamole ssh ubuntu 22.04 连不上 wplian linux
guacamolesshubuntu22.04连不上/etc/sshd/sshd_config最后面加两行PubkeyAcceptedKeyTypes+ssh-rsaHostKeyAlgorithms+ssh-rsa/etc/sshd/ssh_config注释去掉Ciphersaes128-ctr,aes192-ctr,aes256-ctr,aes128-cbc,3des-cbcservicess
Flink + Kafka 构建实时指标体系的实战方法论晴天彩虹雨 Flink +Kafka 实时数仓实战 flink kafka linq 数据仓库大数据
本文聚焦于如何利用Flink与Kafka构建一套灵活、可扩展的实时指标体系，特别适用于用户行为分析、营销漏斗转化、业务实时看板等场景。一、为什么要构建实时指标体系？在数字化运营趋势下，分钟级指标反馈能力变得尤为重要：✅营销投放实时监控CTR/CVR✅业务增长实时观测UV/PV✅运维系统实时计算告警数/成功率传统离线计算（Hive/SparkBatch）难以满足这种实时性需求，Flink+Kafka
SSHv2 密钥交换（Key Exchange）详解漫谈网络 NetDevOps 智联空间 SSHv2 ssh paramiko devops 运维自动化运维
1.算法协商在密钥交换开始前，客户端和服务端会协商确定本次会话使用的算法组合。具体过程如下：交换算法列表客户端和服务端各自发送支持的算法列表，包括：密钥交换算法（如diffie-hellman-group14-sha256）加密算法（如aes256-ctr）MAC算法（如hmac-sha2-256）压缩算法（如none表示不压缩）选择共同支持的算法双方从对方的列表中按优先级选择第一个匹配的算法。例
1.Linux常用指令大全 @电子爱好者 Linux linux 运维服务器
操作指令内容xrandr显示所有的分辨率xrandr-s分辨率设置自己想要的分辨率Ctr+lclear清屏Crtlshift+或者Ctr+放大文字Ctrl-缩小文字pwd显示当前文件路径ls显示当前路径下有哪些文件(不包含隐藏文件)ls-a显示当前路径下有哪些文件(包含隐藏文件)mkdir文件夹名创建文件夹rm-文件夹名删除文件夹cd文件夹名进入文件夹cd..返回上一级目录mv*c新文件夹名把当前
广告中的延迟反馈对出价的影响及解决方案小李飞刀李寻欢 Notebook 出价反馈延迟广告 CPM
哈喽大佬们，上一篇博文介绍了广告中的基本概念，此文就进一步深入，从广告的基本问题展开，做广告算法的一个基本问题就是出价（竞价，bid），如何出价？出价高低直接影响广告量，成本，虽说出价和最终收费还不一样，但却是直接相关。对DSP来说，出价高就直接占据优势地位，bid返回给adx后，直接就会展示（有个疑点困惑，CTR和CVR是adx预估还是DSP预估？还是说adx和DSP是一家？两个兄弟，这个业务是
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他