JayChang27

2019腾讯广告算法大赛参赛总结

写在前面

这是本人第一次参加比赛，最后初赛B榜成绩84.8，排名第232，遗憾未能进入复赛（取前20%，最终785支参赛队伍）。但跟着大佬一起学习讨论，收货颇丰，特此总结以下经验。

赛提描述

腾讯效果广告采用的是GSP（Generalized Second-Price）竞价机制，广告的实际曝光取决于广告的流量覆盖大小和在竞争广告中的相对竞争力水平。其中广告的流量覆盖取决于广告的人群定向（匹配对应特征的用户数量）、广告素材尺寸（匹配的广告位）以及投放时段、预算等设置项。而影响广告竞争力的主要有出价、广告质量等因素（如pctr/pcvr等），以及对用户体验的控制策略。通常来说，基本竞争力可以用ecpm = 1000 * cpc_bid * pctr = 1000 * cpa_bid * pctr * pcvr (cpc, cpa分别代表按点击付费模式和按转化付费模式)。综上，前者决定广告能参与竞争的次数以及竞争对象，后者决定在每次竞争中的胜出概率。二者最终决定广告每天的曝光量。
本次竞赛将提供历史n天的曝光广告的数据（特定流量上采样），包括对应每次曝光的流量特征（用户属性和广告位等时空信息）以及曝光广告的设置和竞争力分数；测试集是新的一批广告设置（有完全新的广告id，也有老的广告id修改了设置），要求预估这批广告的日曝光。（出于业务数据安全保证的考虑，所有数据均为脱敏处理后的数据。）

数据说明

user.zip

同样需要再次解压，解压后的到用户数据文件，该数据记录了全部用户数据文件，包括用户的年龄、性别、爱好、地域等等特征数据，与ad_operation.dat中的定向人群有关系。

imps_log.zip

需要再次解压得到里面的内容，内容为全部的曝光日志，也就是广告被访问的请求日志，一条记录代表依次网络请求，代表一次广告曝光（也就是被用户看到）

ad_operation.dat

广告操作记录数据，该数据记录了广告的所有创建、操作记录，包括广告的状态值，如广告定向人群、投放时间、广告状态、广告出价等。

ad_static_feature.out

广告静态数据，该数据中包含了广告的静态数据，如广告素材尺寸、广告对应的商品类型、广告所在行业id、广告账号id等不会修改的静态内容。

test_sample.dat

测试样本，根据该样本预测N+1日样本广告的曝光量，并在官网提交预测结果获得成绩及排行。

赛题分析

可以看出，本次赛题的目标是通过对广告的历史信息预测未来某一天广告的日曝光量，我们可以将其看作是回归问题，更进一步可以看出时间序列回归问题。
本次比赛最大的特点是需要自己构建输入和标签。

数据清洗

我们需要先将曝光日志文件转为csv格式，因此在转换csv的过程中就可以完成大部分的数据清洗工作。具体操作如下：pandas读取原始 totalExposureLog.out 文件时，是逐行分解出各个字段，然后转为dataframe格式，最终保存为csv格式文件。而我们在逐行分解出各个字段时就可以进行该条记录是否是异常数据的判断了，如果是异常数据则扔掉，反之保存。数据中混杂了很多无效数据，需要对数据进行去重、空值处理、无效值处理等，可以参考官方给出的进行清洗。

构造训练集标签

首先说明一点，经过第一步之后，有三张表清洗过，totalExposureLog、ad_static_feature、ad_operation，意思就是说，凡是出现在totallExposureLog中的记录的广告id，一定必须要同时存在于ad_static_feature、ad_operation。
构建训练集标签思路：
官方数据给了5张表分别为：

totalExposureLog ：总的曝光日志文件（清洗过）
user_data ：用户属性文件
ad_static_feature ：广告静态特征（清洗过）
ad_operation ：广告操作数据（清洗过）
test_sample ：测试样本因此，label的构建实质上就是统计曝光日志文件中同一个广告的出现次数。
先上一张数据图：这是曝光日志文件里的数据：

可以观察到框中的部分，广告id都为61，但是出价大部分都不相同，出价是广告的一种属性，因此当出价不等时是不能看做同一个广告的。但是，我们可以看到图中红色方框框中的部分，他们的出价是一样的，因此可以暂时视这两条记录为同一个广告的曝光次数，暂定label=2。
但是因为官方要求的是预估次日曝光量（这里有两种理解，第一种：次日0点到24点，第二种：创建/修改之后的24小时，先暂时当做第二种处理），所以这时我们需要考虑两种情况：第一种情况：在该广告创建/修改后24小时内是否又发生了修改？如果没有，那好我们只需要判断上述广告id=61的广告请求是否是在24小时内发生的，如果是，Label=2，反之，谁的请求时间没有在24小时内，谁就是无效广告。如果又发生了修改则看第二种情况：我们需要将统计了2次的广告请求时间进行归类，举个例子：假设在2点创建了广告，一条广告请求发生在3点。然后在4点发生了修改，又有一条广告请求发生在5点，那么放在训练集里就表现为两个样本，Label分别为1。

模型选择

作为基础的模型，lightgbm和xgboost都非常合适。为什么选择这两个模型呢，主要因为树模型对特征处理的要求不高而且效果也相当不错，不管是类别特征，连续特征效果都很友好，同时多缺失值也可以训练，不需要填充。（有时缺失值也是有意义的，随意填充可能导致预测结果变差）。
在生成初步的训练集后，内部包含的特征有，广告id，商品id，商品类别，账户id。。。这样的类别特征（离散特征），也有像素材大小这样的连续特征。我在本题中使用的是lightgbm，因为数据量太大，lgb的内存优化，能让我们的服务器能够承受得住。在lgb与xgb相同的参数时，lgb模型40G足够，但是xgb模型64G也不够。同时速度也是一个方面，lgb的话，据说速度比xgb快10倍。至于调参工作，在数据量很大的时候有两个方法，一个是按比例抽样出小的数据集用以调参gradsearchCV是一个选择，git上也有别人写好的调参轮子，但是这个时候有可能会使你调出来的参数离最优参数很远。还有一种方法就是控制变量法，其参数不变，每次只调一个参数，这个方法比较慢，但是能取得比较接近最优参数的结果。

到上述为止，就完成了一个初步的模型，再想继续上分就需要做一些更有意义的操作，对于lgb模型训练，可以加入一些更有意义的特征，比如对于人群定向的统计特征，时间统计特征等，也可以对于统计特征生成一些组合特征，还可以通过目标编码等构建新的特征等。对于规则模型，又可以加入一些更具有业务内涵的规则。

最后在A榜的得分可以达到86.3左右。由于B榜更新了大量的新广告id，选择去掉了广告id这个特征进行训练，以及新加入了部分特征，选择五折交叉验证。但是总体思路和上述相差不大，最后得分84.8，遗憾未能进入复赛。

总结

在看了第一名大佬的分享后，主要的差距在于：

构建训练集本身：大佬选择广告操作表中广告创建时间有出价，定向人群和投放时段的广告id，这是第一部分的广告id，第二部分是三月份出价唯一的广告id，然后将这两部分广告id结合起来作为最终训练集广告id，然后再构造每天的曝光量。最终25w训练样本。
预处理阶段：对异常样本进行排查删除，这里指的是离群点。
特征提取：大佬对于CTR问题的理解比我更为深刻。对于特征的刻画划分了细粒度和粗粒度的特征，对于特征的处理更为细致。细粒度的特征对活跃用户比较好，可以更精细地刻画他的喜好，提供更个性化的商品排序；而粗粒度的特征是为了服务不活跃用户甚至是新用户，用大数据中总结出的一般规律来提供商品的排序。
使用历史平移用过去的历史信息，比如历史曝光量，历史pctr等。这种方法在涉及到时间的时序问题似乎很有效。
使用CountVectorizer进行统计，这个虽然是NLP中的常用方法，但是大佬灵活运用到了这上面。CountVectorizer是一种文本特征提取方法，对于每一个训练文本，它只考虑每种词汇在文本中出现的频率。
大佬采用Lgb与使用NN的队友进行模型融合

这次比赛，自己花了百分之九十左右的时间在数据预处理上，可能还是自己对于真实业务数据不太了解，真实业务数据由于格式，脏数据等问题需要自己一步一步清洗，最后得到干净的训练集。这可能需要花费很多时间与精力。
最后，参加竞赛一定要一心一意扎进去，全心全意投入去做，才会有提升，切忌心浮气躁，最好不要双开，除非你是大牛。希望你永远保持着，大智若愚，求知若饥的心态。

你可能感兴趣的:(2019腾讯广告算法大赛参赛总结)

L8打卡学习笔记无涯学徒1998 学习笔记支持向量机
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊SVM与集成学习SVMSVM线性模型SVM非线性模型SVM常用参数集成学习随机森林导入数据查看数据信息数据分析随机森林模型预测结果结果分析个人总结SVM超平面：SVM在特征空间中寻找一个能够最大化类别间隔的超平面，称为最大间隔超平面。这个超平面就是将数据集分成不同类别的边界。支持向量：支持向量是离分隔超平面最近的样本点，它们决定了超平面的
P5学习笔记无涯学徒1998 python pytorch
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊运动鞋品牌识别设置GPU导入数据构建CNN模型编写训练函数编写测试函数设置动态学习率等间隔动态调整自定义调整多间隔调整余弦退火正式训练结果可视化使用模型进行预测个人总结设置GPUimporttorchimporttorch.nnasnnimporttorchvision.transformsastransformsimporttorchv
【学习笔记】昇思25天学习打卡(D14)CV05-SSD目标检测.ipynb UnseenMe 昇思学习笔记目标检测
SSD目标检测模型简介SSD，全称SingleShotMultiBoxDetector，是WeiLiu在ECCV2016上提出的一种目标检测算法。使用NvidiaTitanX在VOC2007测试集上，SSD对于输入尺寸300x300的网络，达到74.3%mAP(meanAveragePrecision)以及59FPS；对于512x512的网络，达到了76.9%mAP，超越当时最强的FasterRC
华为OD机试E卷 --响应报文时间 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c++c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述IGMP协议中，有一个字段称作最大响应时间(MaxResponseTime),HOST收到查询报文，解折出MaxResponsetime字段后，需要在(0，MaXxResponseTime]时间(s)内选取随机时间回应一个响应报文,如果在随机时间内收到一个新的查询报文，则会根
【后端面试总结】mysql的group by怎么用 ThisIsClark 后端面试总结面试 mysql 职场和发展
GROUPBY是SQL中的一种用于对结果集进行分组的子句，常与聚合函数（如COUNT()、SUM()、AVG()、MAX()和MIN()等）一起使用。GROUPBY的作用是基于一个或多个列对查询结果进行分组，然后可以对每个分组执行聚合操作。以下是GROUPBY的一些关键点和用法示例：基本用法假设有一个名为employees的表，表结构如下：idnamedepartmentsalary1AliceH
【gopher的java学习笔记】一文讲懂controller，service，mapper，entity是什么 ThisIsClark gopher的java学习笔记 java 学习笔记
刚开始上手Java和Spring时，就被controller，service，mapper，entity这几个词搞懵了，搞不懂这些究竟代表什么，感觉使用golang开发的时候也没太接触过这些名词啊~经过两三个月的开发后，逐渐搞懂了这几个词的意义，也对为什么要这么分有了一点见解，总结了一下希望能帮到各位刚刚接触Java和Spring的同学。组件介绍Entity（实体）作用：代表数据库中的表结构，是数
基于STM32的智能饮水机控制系统设计 STM32发烧友 stm32 嵌入式硬件单片机
目录引言系统设计硬件设计软件设计系统功能模块温度控制模块水位监测模块用户交互与显示模块自动清洁与维护模块数据上传与远程管理模块控制算法温控算法水位监测与提醒算法自动清洁调度算法代码实现温控与水位监测代码自动清洁与用户交互代码数据上传与远程管理代码系统调试与优化结论与展望1.引言智能饮水机通过自动化控制和联网功能提升了用户的饮水体验。相比传统饮水机，智能饮水机能够实时监控水温、水位、运行状态，并提供
STM32智能温室控制系统教程 STM32发烧友 stm32 嵌入式硬件单片机
目录引言环境准备智能温室控制系统基础代码实现：实现智能温室控制系统4.1数据采集模块4.2数据处理与控制模块4.3通信与网络系统实现4.4用户界面与数据可视化应用场景：温室管理与优化问题解决方案与优化收尾与总结1.引言智能温室控制系统通过STM32嵌入式系统结合各种传感器、执行器和通信模块，实现对温室环境的实时监控、自动控制和数据传输。本文将详细介绍如何在STM32系统中实现一个智能温室控制系统，
Ajax：万字总结黑马笔记，学懂Ajax看这一篇就够了做一只猫前端 ajax javascript 前端
一、了解AjaxAjax的全称是AsynchronousJavascriptAndXML（异步JavaScript和XML）通俗的理解：在网页中利用XMLHttpRequest对象和服务器进行数据交互的方式，就是Ajax如：用户名检测：注册用户时，通过ajax的形式，动态检测用户名是否被占用搜索提示：当输入搜索关键字时，通过ajax的形式，动态加载搜索提示列表数据分页显示：当点击页码值的时候，通过
Objective-C实现avl 树算法(附完整源码) 源代码大师 objective-c 算法 java
Objective-C实现avl树算法以下是一个Objective-C程序，用于实现AVL树（平衡二叉树）的算法。AVL树是一种自平衡二叉搜索树，保持左右子树的高度差不超过1，以确保树的高度始终保持在对数级别。#import@interfaceAVLNode:NSObject@propertyintdata;@propertyAVLNode*left;
算法学习019 BFS实现迷踪步 c++算法学习中小学算法思维学习比赛算法题解信奥算法解析小兔子编程信奥算法详解算法宽度优先 BFS C++BFS 广度优先算法 c++迷宫步数 c++迷踪步
C++BFS实现迷踪步一、题目要求1、编程实现有一个n行m列的方格迷宫，用0表示可以通过，用1表示不可以通过，每一步可以向上、下、左、右任意方向移动一格，请计算从左上角(1，1)位置移动到右下角(n，m)位置，最少移动多少步？2、输入输出输入描述：第一行输入矩阵大小n和m
Python国内镜像源修改教程网友阿贵 Python python 青少年编程 pycharm 后端
知名国企：豆瓣https://pypi.doubanio.com/simple/网易https://mirrors.163.com/pypi/simple/阿里云https://mirrors.aliyun.com/pypi/simple/腾讯云https://mirrors.cloud.tencent.com/pypi/simple————————————————知名高校：清华大学（推荐）：ht
软件工程案例分析作业 SoftwareTeacher 编程语言人工智能 java python 大数据
现代软件工程构建之法作业https://bbs.csdn.net/forums/SoftwareEngineering?typeId=1723软件工程作业案例分析很多同学有疑惑：软件工程课是否就是枯燥的理论课？或者是几个牛人拼命写代码，其他人抱大腿的课？要不然就是学习一个程序语言，练习某个框架，搞一个职业培训的课？都不对！软件工程有理论，有实践，更重要的是分析，思辨，总结。在课程中，同学们自己组织
数据结构与算法之美：单链表 <但凡. 数据结构与算法之美 c语言数据结构 c++
Hello大家好！很高兴我们又见面啦！给生活添点passion，开始今天的编程之路！我的博客：data=x;returnNode;}其中，x是我们想存入的数据，在初始化节点的时候我们给定节点存储的数据。2.2节点的打印现在假设我们存入了几个节点的数据，我们想要打印一下：voidSListPrint(SListNode*plist){SListNode*pcur=plist;while(pcur->
PySpark之金融数据分析（Spark RDD、SQL练习题）唯余木叶下弦声大数据大数据 spark pyspark python 数据分析 sql
目录一、数据来源二、PySparkRDD编程1、查询特定日期的资金流入和流出情况2、活跃用户分析三、PySparkSQL编程1、按城市统计2014年3月1日的平均余额2、统计每个城市总流量前3高的用户四、总结一、数据来源本文使用的数据来源于天池大赛数据集，由蚂蚁金服提供，包含用户基本信息、申购赎回记录、收益率、银行间拆借利率等多个维度，本文通过PySpark实现对该数据集的简单分析。数据来源：天池
【机器学习】必会降维算法之：多维缩放（MDS） Carl_奕然机器学习算法人工智能
多维缩放（MDS）1、引言2、多维缩放（MDS）2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小鱼：最近小屌丝在休假，难得的清闲，我这也闲言少叙，书归正传，咱就聊一聊降为算法之：多维缩放(MDS)在机器学习和数据科学领域，多维缩放（MultidimensionalScaling，简称MDS）是一种常用的降维技术。它能够在尽可能保留原始数据点间距离的
速算常见规律 yblackd 算法算法
速算一、整除判定二、两个分数的比较**总结****方法1：交叉相乘法（适用于两个分数）****方法2：利用近似比较（适用于特定场景）****方法3：通分法（适用于多个分数排序）****方法4：小数化（适用于近似比较）**一、整除判定整除判定是指判断一个数是否能被另一个数整除的方法和规则。‌‌常见整数的整除判定规则整除2‌：一个数的个位数是0、2、4、6或8，那么这个数能被2整除。整除3‌：一个数的
智能推理的革命：DeepSeek-R1 深度解析其算法与实现步子哥算法人工智能
在人工智能（AI）领域，语言模型（LargeLanguageModels,LLMs）正以惊人的速度发展，变得越来越智能，能够理解和生成复杂的语言内容。然而，尽管现有的模型在许多任务上表现出色，它们在深度推理和逻辑思维方面仍有显著的提升空间。DeepSeek-R1的出现，正是为了解决这一问题，通过强化学习（ReinforcementLearning,RL）赋予语言模型更强大的推理能力，开创了LLMs
《从传统到智能：大模型交换机的变革之路》烁月_o9 数据库服务器运维 web安全安全
大模型交换机是一种专门为大规模人工智能模型提供网络和计算资源调度的硬件设备。以下是关于它的详细介绍：特点高带宽和低延迟：大模型的训练和推理通常需要处理大量的数据，高带宽可以确保数据在各个计算节点之间快速传输，低延迟则能减少数据传输过程中可能出现的瓶颈，提高训练和推理的效率。智能路由与数据调度：基于AI算法的调度机制，能够动态地调整数据传输路径，以应对不同网络条件和负载的变化，避免某些节点的拥塞，确
python之函数的定义徐jiankang python基础日常总结 python 开发语言
博主简介：原互联网大厂tencent员工，网安巨头Venustech员工，阿里云开发社区专家博主，微信公众号java基础笔记优质创作者，csdn优质创作博主，创业者，知识共享者,欢迎关注，点赞，收藏。目录一、背景二、函数的定义三、参考四、总结一、背景实际开发过程中，经常会遇到很多完全相同或者非常相似的操作，这时，可以将实现类似操作的代码封装为函数，然后在需要的地方调用该函数。这样不仅可以实现代
大模型项目落地时，该如何估算模型所需GPU算力资源 kcarly 大模型知识乱炖认识系列 gpu算力深度学习自然语言处理 AIGC
近期公司有大模型项目落地。在前期沟通时，对于算力估算和采购方案许多小伙伴不太了解，在此对相关的算力估算和选择进行一些总结。不喜欢过程的可以直接跳到HF上提供的模型计算器要估算大模型的所需的显卡算力，首先要了解大模型的参数基础知识。大模型的规模、参数的理解模型参数单位我们的项目中客户之前测试过Qwen1.5-110B的模型，效果还比较满意。（Qwen还是国产模型中比较稳定的也是很多项目的首选）模型中
第八届蓝桥杯——正则问题无头怪的小窝蓝桥杯正则表达式 c++
文章目录：一、问题介绍二、问题分析：1.解决疑问2.例题解析三、问题思路四、完整代码总结一、问题介绍正则问题考虑一种简单的正则表达式：只由x()|组成的正则表达式。小明想求出这个正则表达式能接受的最长字符串的长度。例如((xx|xxx)x|(x|xx))xx能接受的最长字符串是：xxxxxx，长度是6。输入————一个由x()|组成的正则表达式。输入长度不超过100，保证合法。输出————这个正则
Oracle备份恢复之闪回技术，熬夜爆肝总结，强烈建议收藏 2401_86401365 oracle 数据库
10ACCOUNTINGNEWYORK20RESEARCHDALLAS30SALESCHICAGO40OPERATIONSBOSTON##利用SCN查询14:35:31SCOTT@PROD>select*fromt_fb_query1asofSCN1070729;DEPTNODNAMELOC10ACCOUNTINGNEWYORK20RESEARCHDALLAS30SALESCHICAGO40OPE
第38周：猫狗识别 (Tensorflow实战第八周) weixin_46620278 tensorflow 人工智能 python
目录前言一、前期工作1.1设置GPU1.2导入数据输出二、数据预处理2.1加载数据2.2再次检查数据2.3配置数据集2.4可视化数据三、构建VGG-16网络3.1VGG-16网络介绍3.2搭建VGG-16模型四、编译五、训练模型六、模型评估七、预测总结前言本文为中的学习记录博客原作者：说在前面1）本周任务：了解model.train_on_batch()并运用；了解tqdm，并使用tqdm实现可视
23种设计模式-桥接(Bridge)设计模式萨达大软考中级-软件设计师设计模式 java C++桥接模式结构型设计模式软考软件设计师
文章目录一.什么是桥接设计模式？二.桥接模式的特点三.桥接模式的结构四.桥接模式的优缺点五.桥接模式的C++实现六.桥接模式的Java实现七.代码解析八.总结类图：桥接设计模式类图一.什么是桥接设计模式？桥接模式（BridgePattern）是一种结构型设计模式，用于将抽象部分与实现部分分离，使它们可以独立地变化。通过桥接模式，抽象层和实现层之间的耦合度被降低，从而使系统具有更好的灵活性和可扩展
JVM基础：什么是STW？我心向阳iu #JVM Java面试知识点精讲 jvm java 面试
今天笔试题，出了个STW，咱是见也没见过，漏了怯了无语，仔细回忆了下，知道Stop-The-World这个词，不知道SWT，无语文章目录STW：Stop-The-WorldSTW概念进入SWT时机STW停顿的原因STW示例代码STW：Stop-The-WorldSTW概念STW(Stop-The-World):是在垃圾回收算法执行过程当中，将JVM内存冻结、应用程序停顿的⼀种状态。一旦Stop-t
洛谷P1106 删数问题 ThE.wHIte. 算法 c++贪心算法
题目描述输入一个高精度的正整数n（长度不大于240位），去掉其中任意s个数字后剩下的数字按原左右次序将组成一个新的正整数，现求一种方案，使得新的正整数数值最小。输入第一行一个整数n。第二行一个正整数s。输出输出一个数表示最小值，输出时忽略数字的前导零。样例输入11795664样例输出115样例输入29030713样例输出21本题很明显应该采用贪心算法解题，问题在于贪心策略的选择。这道题令人迷惑的点
JVM中的STW和CMS Modify_QmQ #JVM jvm stw cms
STWJava中Stop-The-World机制简称STW，是在执行垃圾收集算法时，Java应用程序的其他所有线程都被挂起（除了垃圾收集帮助器之外）。Java中一种全局暂停现象，全局停顿，所有Java代码停止，native代码可以执行，但不能与JVM交互；这些现象多半是由于gc引起。GC时的StoptheWorld(STW)是大家最大的敌人。但可能很多人还不清楚，除了GC，JVM下还会发生停顿现象
深入理解 Vue 的 Diff 算法：从原理到实现的完整剖析 qq_39279448 vue.js 算法前端
Vue的Diff算法如何工作？如何将传统树的比较复杂度从O(n^3)降到O(n)？Vue3的优化策略如何显著提升性能？Vue源码中Diff算法的实现细节是什么？实际开发中Diff算法的使用及优化实践。1.Diff算法的基本原理1.1为什么需要Diff算法？在浏览器中，直接操作真实DOM会导致：性能成本高：DOM是浏览器中的重量级对象，频繁操作会触发页面的回流（reflow）和重绘（repaint）
数据挖掘中的关联规则--面向频繁项集的A-Priori算法绒绒毛毛雨大数据挖掘算法数据挖掘 python
文章目录一、频繁项集与关联规则学习1.实体与关系2.支持度与频繁项集3.关联规则二、寻找频繁项集1.频繁项集发现的挑战三角矩阵项对计数值的三元组存储方法2.频繁项集的单调性3.面向项对的A-Priori算法4.PCY算法哈希表创建第二遍扫描5、多阶段算法6、多哈希算法7、随机化算法8、SON算法9、Toivonen算法三、频繁项集小实践：消费者购买记录模拟数据示例具体问题分析一、频繁项集与关联规则
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他