bxy5511

O2O优惠券使用（转---先记录下来作为参考）

正式开始做是从十月底开始的，我之前参加了新手赛，而这一次正式赛可以说是真正认真做的一次，中间和队友一起学习了很多，也有小小的收获，不管这次成绩如何，以后还有机会。

数据与评价方式

赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为，预测用户在2016年7月领取优惠券后15天以内的使用情况。使用优惠券核销预测的平均AUC（ROC曲线下面积）作为评价标准。即对每个优惠券coupon_id单独计算核销预测的AUC值，再对所有优惠券的AUC值求平均作为最终的评价标准。
当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。因为在实际的数据集中经常会出现类不平衡，所以次点也是AUC指标的优势。

解决方案

提供数据的区间是2016-01-01~2016-06-30，预测七月份用户领券使用情况，即用或者不用，转化为二分类问题，然后通过分类算法预测结果。首先就是特征工程，其中涉及对数据集合的划分，包括提取特征的区间和训练数据区间。接着就是从特征区间中提取特征，包括用户特征、商户特征、优惠券特征、用户商户组合特征、用户优惠券组合特征。后期在测试区间提取了当天的前后7/3/1天的领券信息（这里面后七天的特征其实是不能应用于工业应用的，因为实际预测中你无法知道后7/3/1天的领券信息），提升较大。最后使用GBDT、RandomForest、LR进行基于rank的分类模型融合

数据划分

最初没有使用数据划分，导致特征中产生数据泄露，以至于在训练数据上效果很好，线下测试也还不错，在线上表现确差强人意，后来划分了之后有明显提升。

集合	预测区间	特征区间
预测集	领券:20160701~20160731	领券&消费:20160101~20160630
训练集	领券:20160515~20160615 消费:20160515~20160630	领券:20160101~20160501 消费:20160101~20160515

可以划分多个训练集。

特征工程

主要有五大特征类：用户特征、商户特征、优惠券特征、用户商户组合特征、用户优惠券组合特征，赛题包括online和offline的数据，由于里面只有部分用户重合，商户优惠券等并未有重合，个人臆测线上应该是淘宝天猫的购买消费数据，有一定关联，但关系微弱，因此只向其中提取了用户特征。而offline数据集就提取了所有五个特征类。一下是各部分特征：

用户特征：u
- 线下领取优惠券但没有使用的次数 u1
- 线下普通消费次数 u2
- 线下使用优惠券消费的次数 u3
- 线下平均正常消费间隔 u4
- 线下平均优惠券消费间隔 u5
- u3/u1 使用优惠券次数与没使用优惠券次数比值 u6
- u3/(u2+u3) 表示用户使用优惠券消费占比 u7
- u4/15 代表15除以用户普通消费间隔，可以看成用户15天内平均会普通消费几次，值越小代表用户在15天内普通消费概率越大 u8
- u5/15 代表15除以用户优惠券消费间隔，可以看成用户15天内平均会普通消费几次，值越大代表用户在15天内普通消费概率越大 u9
- 领取优惠券到使用优惠券的平均间隔时间 u10
- u10/15 表示在15天内使用掉优惠券的值大小，值越小越有可能，值为0表示可能性最大 u11
- 领取优惠券到使用优惠券间隔小于15天的次数 u12
- u12/u3 表示用户15天使用掉优惠券的次数除以使用优惠券的次数，表示在15天使用掉优惠券的可能，值越大越好。 u13
- u12/u1 F014 表示用户15天使用掉优惠券的次数除以领取优惠券未消费的次数，表示在15天使用掉优惠券的可能，值越大越好。 u14
- u1+u3 领取优惠券的总次数 u15
- u12/u15 F016 表示用户15天使用掉优惠券的次数除以领取优惠券的总次数，表示在15天使用掉优惠券的可能，值越大越好。 u16
- u1+u2 一共消费多少次 u17
- 最近一次消费到当前领券的时间间隔 u18
- 最近一次优惠券消费到当前领券的时间间隔 u19
- 用户当天领取的优惠券数目 u20
- 用户前第i天领取的优惠券数目 u20si
- 用户后第i天领取的优惠券数目 u20ai
- 用户前7天领取的优惠券数目 u21
- 用户前3天领取的优惠券数目 u22
- u22/u21 u23
- u20/u22 u24
- 用户后7天领取的优惠券数目 u25
- 用户后3天领取的优惠券数目 u26
- u26/u25 u27
- u20/u26 u28
- 用户训练、预测时间领取的优惠券数目 u29
- 用户当天领取的不同优惠券数目 u30
- 用户前第i天领取的不同优惠券数目 u30si
- 用户后第i天领取的不同优惠券数目 u30ai
- 用户训练、预测时间领取的不同优惠券数目 u31
- 按照7/4/2分解训练、预测时间，提取此段窗口时间的特征
- 用户7/4/2天领取的优惠券数目 u32_i
- 用户7/4/2天所领取的优惠券优惠率r1/r2/r3/r4排名 u_ri_ranki
- 用户7/4/2天所领取的优惠券优惠率r1/r2/r3/r4排名 u_ri_dense _ranki
- u32_4/u32_7 u33
- u32_2/u32_4 u34
- u32_2/u32_7 u35
- u20/u32_2 u36
- 线上领取优惠券未使用的次数 action=2 uo1
- 线上特价消费次数 action=1 and cid=0 and drate=”fixed” uo2
- 线上使用优惠券消费的次数 uo3
- 线上普通消费次数 action=1 and cid=0 and drate=”null” uo4
- 线上领取优惠券的次数 uo1+uo3 uo5
- uo3/uo5 线上使用优惠券次数除以线上领取优惠券次数，正比 uo6
- uo3/uo4 线上使用优惠券次数除以线上普通消费次数，正比 uo7
- uo2/uo4线上特价消费次数除以线上普通消费次数 uo8
- 加入训练预测时间前一个月的窗口特征
- 线下领取优惠券但没有使用的次数 uw1
- 线下普通消费次数 uw2
- 线下使用优惠券消费的次数 uw3
- 线下平均正常消费间隔 uw4
- 线下平均优惠券消费间隔 uw5
- uw3/uw1 使用优惠券次数与没使用优惠券次数比值 uw6
- uw3/(uw2+uw3) 表示用户使用优惠券消费占比 uw7
- uw4/15 代表15除以用户普通消费间隔，可以看成用户15天内平均会普通消费几次，值越小代表用户在15天内普通消费概率越大 uw8
- uw5/15 代表15除以用户优惠券消费间隔，可以看成用户15天内平均会普通消费几次，值越大代表用户在15天内普通消费概率越大 uw9
- 领取优惠券到使用优惠券的平均间隔时间 uw10
- uw10/15 表示在15天内使用掉优惠券的值大小，值越小越有可能，值为0表示可能性最大 uw11
- 领取优惠券到使用优惠券间隔小于15天的次数 uw12
- uw12/uw3 表示用户15天使用掉优惠券的次数除以使用优惠券的次数，表示在15天使用掉优惠券的可能，值越大越好。 uw13
- uw12/uw1 F014 表示用户15天使用掉优惠券的次数除以领取优惠券未消费的次数，表示在15天使用掉优惠券的可能，值越大越好。 uw14
- uw1+uw3 领取优惠券的总次数 uw15
- uw12/uw15 F016 表示用户15天使用掉优惠券的次数除以领取优惠券的总次数，表示在15天使用掉优惠券的可能，值越大越好。 uw16
- F01+F02 一共消费多少次 uw17

商户特征：m
- 商户一共的消费笔数：m0
- 商户优惠券消费笔数：m1
- 商户正常的消费笔数：m2
- 没有被使用的优惠券: m3
- 商户发放优惠券数目：m3+m1 m4
- 商户优惠券使用率：m1/m4 m5
- 商户在训练、预测时间发行的优惠券数目 m6
- 商户当天发行的优惠券数目 m7
- 商户在训练、预测时间有多少人在此店领券 m8
- 商户在当天有多少人在此店领券 m9
- 按照7/4/2分解训练、预测时间，提取此段窗口时间的特征
- 7/4/2天此商店优惠券发放数目 m10_i
- m9 / m10_7 m11
- m9 / m10_4 m12
- m9 / m10_2 m13
- m10_2 / m10_4 m14

优惠券特征:c
- 折扣类的优惠券折扣率 r1
- 满减类优惠券满减金额 r2
- 满减类优惠券减的金额 r3
- 满减类优惠券优惠率 (r2-r3)/r2 r4
- c1+c2 此优惠券一共发行多少张 c0
- 此优惠券一共被使用多少张 c1
- 没有使用的数目 c2
- c1/c0 优惠券使用率 c3
- 优惠力度 c5
- 优惠力度在当天所领取优惠券里面排名 c5_rank
- 优惠力度在当天所领取优惠券里面排名 c5_denserank
- 优惠力度在当天同一店家所领取优惠券里面排名 c5_rankm
- 优惠力度在当天所领取优惠券里面百分比排名 c5_rankp
- 优惠力度在当天同一店家所领取优惠券里面百分比排名 c5_rankmp
- 此优惠券在训练、预测时间发行了多少张 c6
- 此优惠券在当天发行了多少张 c7
- 领券当天周几 c8
- 领券当天是否周末 c9 c8,c9去掉效果更好了。。。。
- 此优惠券在当天被多少人领过 c10
- 此优惠券在训练、预测时间被多少个人领过 c11
- 此优惠券最后一次领券时间到此领券时间的间隔 c12
- 此优惠券最后一次消费时间到此领券时间的间隔 c13
- 按照7/4/2分解训练、预测时间，提取此段窗口时间的特征
- 7/4/2天此优惠券发放数目 c14_i
- c10 / c14_7 AS c15
- c10 / c14_4 AS c16
- c14_2 / c14_4 AS c17
- c10 / c14_2 AS

用户和商户组合特征:um
- 用户在商店总共消费过几次 um0
- 用户在商店使用优惠券几次 um1
- 用户在商店领取优惠券未消费次数 um2
- 用户在商店普通消费次数 um3
- um1/(um1+um2) 用户在此商户优惠券使用率 um4
- um0/(u2+u3) 值大表示用户比较常去的商户 um5
- um1/u3 值大表示用户比较喜欢在那个商户使用优惠券 um6
- 用户在训练、预测时间在此商店领取的优惠券数目 um7
- 用户当天在此商店领取的优惠券数目 um8
- 按照7/4/2分解训练、预测时间，提取此段窗口时间的特征
- 7/4/2天此用户在此商店领取的优惠券发放数目 um9_i
- um8 / um9_7 um10
- um8 / um9_4 um11
- um8 / um9_2 um12
- um9_2 / um9_4 um13

用户和优惠券组合特征:uc
- 用户领取的优惠券数目 uc0
- 用户领取未消费的优惠券数目 uc1
- 用户消费了此优惠券的数目 uc2
- uc02/uc0 uc3
- 用户在此期间领取了多少张此优惠券 uc4 partiton by uid, cid
- 用户在当天领取了多少张此优惠券 uc5
- 领取优惠券时间-最后一次使用优惠券时间 uc6
- uc6/ u5 uc7 正比
- 用户前第i天领取的此优惠券数目 uc5si
- 用户后第i天领取的此优惠券数目 uc5ai
- 用户前7天领取的此优惠券数目 uc8
- 用户前3天领取的此优惠券数目 uc9
- uc9/uc8 uc10(若u21为0，则为1)
- uc4/uc9 uc11
- 用户后7天领取的此优惠券数目 uc12
- 用户后3天领取的此优惠券数目 uc13
- uc13/uc12 uc14
- uc4/uc13 uc15
- 按照7/4/2分解训练、预测时间，提取此段窗口时间的特征
- 7/4/2天此用户在此商店领取的优惠券发放数目 uc16_i
- 用户前后2/4/7领取的优惠券优惠率排名 uc17_i

算法及模型融合

最初使用RF、GBDT两种模型，GBDT效果优于RF，后期使用了多个GBDT和XGBoost，分别使用不同的参数、不同的正负样本比例以rank的方式进行多模型的融合，效果有微小提升，但是由于计算量的限制没有进一步展开。

模型融合

由于评估指标是计算每个coupon_id核销预测的AUC值，然后所有优惠券的AUC值平均作为最终的评估指标，而rank融合方式对AUC之类的评估指标特别有效，所以采用此方法，公式为：

∑i=1nWeightiRanki∑i=1nWeightiRanki

其中nn表示模型的个数， WeightiWeighti表示该模型权重，所有权重相同表示平均融合。RankiRanki表示样本在第i个模型中的升序排名。它可以较快的利用排名融合多个模型之间的差异，而不需要加权融合概率。

应用

基于参数，样本(采样率)，特征获得多个模型，得到每个模型的概率值输出，然后以coupon_id分组，把概率转换为降序排名，这样就获得了每个模型的RankiRanki，然后这里我们使用的是平均融合，Weighti=1/nWeighti=1/n，这样就获得了最终的一个值作为输出。

线下评估

虽然这次比赛每天有四次评测机会，但是构建线下评估在早期成绩比较差的时候用处很大，早期添加特征之后线下评估基本和线上的趋势保持一致（例如在添加了Label区间的领券特征之后，线下提升十多个百分点，线上也是一致），对于新特征衡量还是有参照性的。后期差距在0.1%级别的时候，就没有参照性了。

线下评估在训练集中采样1/3 or 1/4 or 1/5做线下评估集合，剩下的做为训练集训练模型，并将评估集合中全0或者全1的优惠券ID去掉，然后使用训练的模型对评估集合预测，将预测结果和实际标签作异或取反（相同为1，不同为0），然后算出每个优惠券ID的AUC，最后将每个ID的优惠券AUC取均值就得到最终的AUC。

回顾

这一次比赛学习了很多，包括分布式平台ODPS和机器学习平台实现数据清洗，特征提取，特征选择，分类建模、调参及模型融合等，学习摸索了一套方法，使自己建立了信心，明白还有很多需要学习的地方，之前一直对于算法都是当做一个黑匣子，只会熟悉输入输出直接调用，要深入了解算法，才能突破目前的瓶颈有所提高。
同时我觉得大家一起探讨交流也很重要，一个人做着做着就容易走偏，纯属个人看法。

CSDN博客链接：http://blog.csdn.net/shine19930820/article/details/53995369

授人以鱼不如授人以渔：

参考第一名队伍：【诗人都藏在水底】：GitHub地址
python sklearn数据预处理：http://blog.csdn.net/shine19930820/article/details/50915361
利用GBDT构造新的特征-Python实现：http://blog.csdn.net/shine19930820/article/details/71713680
GBDT原理：http://blog.csdn.net/shine19930820/article/details/65633436
xgboost原理：http://blog.csdn.net/shine19930820/article/details/69500242
机器学习知识图谱：http://lib.csdn.net/base/machinelearning/structure

数据挖掘算法在金融行业中的应用与案例解析数字魔方操控师数据挖掘算法金融
引言在当今数字化时代，金融行业积累了海量的数据。如何从这些海量数据中提取有价值的信息，成为金融机构提升竞争力、降低风险、优化服务的关键。数据挖掘算法应运而生，通过运用聚类算法、关联规则挖掘等技术，为金融行业的决策提供有力支持。聚类算法在金融行业的应用客户细分聚类算法可以将金融客户按照不同的特征进行分组。例如，通过分析客户的年龄、收入、资产规模、消费习惯等数据，将客户分为不同的群体。对于高净值客户群
从算法菜鸟到挖掘达人：数据挖掘的算法大冒险 Echo_Wish 大数据算法数据挖掘人工智能
「从算法菜鸟到挖掘达人：数据挖掘的算法大冒险」在这个“大数据”满天飞的时代，数据挖掘不只是个高大上的名词，它正悄悄渗透进我们的日常生活。不论是网购推荐的贴心好物，还是短视频平台精准的“上头”内容推荐，这一切的背后都离不开数据挖掘算法。今天，咱们就从零基础的视角出发，聊聊数据挖掘算法的“生存之道”。什么是数据挖掘算法？通俗来讲，数据挖掘算法就是一套套路，用来从数据海洋中打捞出有价值的信息。经典的挖掘
数据挖掘与机器学习技术数据库
数据挖掘与机器学习技术数据挖掘算法：数据挖掘旨在从大量数据中发现潜在的模式和规律。常见的数据挖掘算法包括关联规则挖掘（如Apriori算法）、聚类分析（如K-Means算法）、分类算法（如决策树、支持向量机等）。例如，电商平台可以通过关联规则挖掘发现用户购买商品之间的关联关系，从而进行精准营销。机器学习框架：机器学习是大数据分析的核心技术之一，它让计算机通过数据学习模式和规律，并进行预测和决策。常
搜广推校招面经七十六 Y1nhl 搜广推面经深度学习人工智能 pytorch 推荐算法搜索算法
小米数据挖掘算法一、核函数（KernelFunction）有什么用核函数是一种用来计算数据在高维空间中内积的数学工具，不需要显式地进行维度变换，即可在原始空间中完成高维特征的计算。它是核技巧（KernelTrick）的核心，使得某些线性模型（如SVM）能在非线性空间中工作。核技巧：将低维非线性问题映射到高维线性问题，并通过核函数避免显式映射。1.1.内积vs映射设有两个向量：x=[x1,x2]，我
Web数据挖掘及其在电子商务中的研究与应用赵谨言论文经验分享毕业设计
标题:Web数据挖掘及其在电子商务中的研究与应用内容:1.摘要随着互联网的飞速发展，Web数据呈现出爆炸式增长，电子商务领域更是积累了海量数据。在此背景下，对Web数据进行有效挖掘并应用于电子商务具有重要意义。本研究旨在探索Web数据挖掘技术在电子商务中的应用方法和价值。通过采用数据挖掘算法、机器学习模型等方法，对电子商务平台的用户行为数据、交易数据等进行深入分析。结果表明，利用Web数据挖掘可以
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
数据挖掘实习面经一 Y1nhl 搜广推面经数据挖掘人工智能机器学习推荐算法 python 风控算法搜索引擎
写在前面：其实数据挖掘、风控、机器学习算法与搜广推的八股还是有重合的部分，毕竟都是面对结构化数据。特别是我自己是做竞赛的，平时LGBM、CatBoost用的挺多的，所以感觉这些八股还是有必要看看，建议大家也可以看一下。京东数据挖掘算法一、介绍贝叶斯优化的原理贝叶斯优化（BayesianOptimization）是一种用于优化黑盒函数的有效方法，特别适用于目标函数评估成本较高、不可导或难以解析表达的
Python环境下基于深度判别迁移学习网络的轴承故障诊断哥廷根数学学派故障诊断信号处理深度学习 python 迁移学习开发语言
目前很多机器学习和数据挖掘算法都是基于训练数据和测试数据位于同一特征空间、拥有相同数据分布的假设。然而在现实应用中，该假设却未必存在。一方面，如果将利用某一领域数据训练得到的模型直接应用于新的目标领域，领域之间切实存在的数据差异可能会导致模型效果的骤然下降。另一方面，如果直接在新的目标领域中进行模型的训练，其数据的稀缺和标注的不完整可能会导致监督学习出现严重的过拟合问题，难以达到令人满意的学习效果
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
一文梳理金融风控建模全流程(Python) 风控小兵突击智能风控 python 数据分析算法机器学习数据挖掘概率论
▍目录一、简介风控信用评分卡简介Scorecardpy库简介二、目标定义与数据准备目标定义数据准备三、安装scorecardpy包四、数据检查五、数据筛选六、数据划分七、变量分箱卡方分箱手动调整分箱八、建立模型相关性分析多重共线性检验VIFKS和AUC评分映射PSI稳定性指标九、关键指标说明WOE值IV值逻辑回归KS值PSI▍风控信用评分卡简介通过运用数据挖掘算法，信贷风控系统可以像个"预言家"一
在线项目实习分享：股票价格形态聚类与收益分析泰迪智能科技大数据在线实习项目聚类数据挖掘机器学习
01前置课程数据挖掘基础数据探索数据预处理数据挖掘算法基础Python数据挖掘编程基础Matplotlib可视化Pyecharts绘图02师傅带练行业联动与轮动分析通过分析申银万国行业交易指数的联动与轮动现象，获得有意义的行业轮动关联规则，并在此基础上设计量化投资策略。项目技术目标如下：1、利用不同投资品种强势时间的错位对行业品种进行切换以达到投资收益最大化的目的。2、量化投资策略，为投资者提供高
十大数据挖掘算法之KNN算法清梦载星河
一、KNN算法概述KNN（k-NearestNeighbor）算法，又称K近邻算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。简单来说，k近邻算法采用测量不同特征值之间的距离方法进行分类。优点：精度高、对异常值不敏感、无数据输入假定；缺点：计算复杂度高、空间复杂度高；适用数据范围：数值型和标称型。工作原理存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们
数据挖掘--决策树人工智能MOS 深度学习人工智能机器学习数据挖掘
1.算法原理决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。近来的调查表明决策树也是最经常使用的数据挖掘算法，它的概念非常简单。决策树算法之所以如此流行，一个很重要的原因就是使用者基本上不用了解机器学习算法，也不用深究它是如何工作的。直观看上去，决策树分类器就像判断模块
大数据技术原理与应用期末考试题无敌海苔咪大数据开源框架期末大数据
大数据技术原理与应用期末考试题一、单选题1.下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能?A、利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理B、利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析C、构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全D、把实时采集的数据作为流计算系统的输
如何选择合适的工具来进行数据可视化？王永翔信息可视化数据分析数据挖掘
需求列表：1、是否需要数据抽取？2、是否有数据标准化的要求？3、是否需要建立数据资产？4、是否需要提供数据服务？5、是否需要对于数据进行数据建模（二次加工处理）？6、是否需要对于数据于模型进行权限管理？7、是否需要支持外部数据的导入？8、是否需要支持数据挖掘算法？8、是否需要支持图片分类？9、是否需要支持任务中心？10、是否支持参数、表格、图表、标签、图标、图片等可视化内容？可以根据自己的实际需要
python基于数据挖掘算法的“B站” 用户行为数据分析 QQ2743785109 python 数据挖掘 python 算法
收藏关注不迷路文章目录前言一、模块设计3.1数据爬取模块3.2数据的挖掘与分析模块3.3数据可视化模块二、开发环境三、数据预处理4.2各功能模块的实现4.2.1热点视频的数据分析及可视化四、结论目录前言经过多年的发展，网络视频已经成为互联网上的主要应用之一。目前，网络视频具有数量大、发布快、影响多、影响力大的特点。BililiBarrageVideoNetwork(简称B站)作为当下国内首屈一
数据挖掘算法及相关应用黄成甲
我们生活在信息爆炸的时代，每时每刻都在产生海量的数椐。我们在微博、微信、社交网站、门户网站、移动终端等众多的设备商产生的海量数据，面临着无法处理数据的困境。例如电商行业，每天客户的注册、建议、投诉、订单以及喜好等行为都会被记录下来，几乎每一个大公司都拥有自己庞大的客户数据信息。如何从海量的数据中提取有用的知识或者模式来改善企业的管理或提高团队运行效率，已成为如今亟待解决的问题，数据挖掘技术正是解决
协同过滤算法之vue+springboot个性化电影评分推荐系统6n498 qq_3166678367 vue.js spring boot 前端
摘要为了解决信息过载问题,个性化推荐系统由此产生。个性化推荐系统通过对用户行为的分析,利用数据挖掘算法对信息进行过滤,将用户可能感兴趣的产品或项目推荐给用户。对于电影爱好者来说,利用网络在浩如烟海的电影数据库中找到自己喜欢的电影并非易事。电影作为一个艺术的载体,有其自身携带的客观数据,同时不可避免还带有大量观赏者的评论等主观数据。人们也常常会参考别人的意见来做判断。因此,个性化影片推荐系统将以B/
数据挖掘与建模有效的前提是具备问题领域的专业知识数据科学作家数据挖掘人工智能 python 开发语言机器学习深度学习数据分析
1.数据挖掘与建模有效的前提是具备问题领域的专业知识数据挖掘与建模有效的前提是具备问题领域的专业知识。数据挖掘与建模的本质是用一系列数据挖掘算法来创建模型，同时解释模型和业务目标的特点。2.我们在建模时有时候考虑的是因果关系我们在建模时有时候考虑的是因果关系，比如研究客户行为特征对他产生购买行为的影响，我们把响应变量设定为客户的购买行为，把特征变量设定为客户的性别、年龄、学历、年收入水平、可支配收
2020-05-13 常用的数据分析与挖掘工具程凉皮儿
常用的数据分析与挖掘工具R语言是由奥克兰大学统计系的Robert和Ross共同开发的，并在1993年首次亮相。其具备灵活的数据操作、高效的向量化运算、优秀的数据可视化等优点，受到用户的广泛欢迎。它是一款优秀的数据挖掘工具，用户可以借助强大的第三方扩展包，实现各种数据挖掘算法的落地。Pyhton是由荷兰人GuidovanRossum于1989年发明的，并在1991年首次公开发行。它是一款简单易学的编
用最简单的语言来解释一下数据挖掘的十大算法 zdy0_2004 机器学习机器学习
http://dataunion.org/20745.html出处：伯乐在线在一份调查问卷中，三个独立专家小组投票选出的十大最有影响力的数据挖掘算法，今天我打算用简单的语言来解释一下。一旦你知道了这些算法是什么、怎么工作、能做什么、在哪里能找到，我希望你能把这篇博文当做一个跳板，学习更多的数据挖掘知识。还等什么？这就开始吧！1.C4.5算法C4.5是做什么的？C4.5以决策树的形式构建了一个分类器
apriori算法 c语言,数据挖掘算法——Apriori算法蒋大钳 apriori算法 c语言
Apriori算法首先，Apriori算法是关联规则挖掘中很基础也很经典的一个算法。转载来自：链接：https://www.jianshu.com/p/26d61b83492e所以做如下补充：关联规则：形如X→Y的蕴涵式，其中，X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。其中，关联
推荐一个数据科学与大数据技术专业毕业论文题目不卡不卡大数据信息可视化数据分析数据挖掘人工智能
很高兴为您提供帮助!在数据科学和大数据技术专业，毕业论文题目可以围绕以下几个方面展开:大数据挖掘和分析:例如，使用机器学习或数据挖掘算法来从海量数据中发现有用信息。大数据存储和处理:例如，研究如何使用分布式系统来存储和处理海量数据。大数据可视化:例如，研究如何使用可视化技术将大数据可视化，以帮助人们理解和分析数据。大数据安全:例如，研究如何保护大数据免受攻击和泄漏。大数据应用:例如，研究大数据在某
经典数据挖掘算法（介绍了包括18大数据挖掘在内的多种经典数据挖掘算法） IU菜籽U 18大数据挖掘典数据算法
前言文章标题的两个概念也许对于许多同学们来说都相对比较陌生，都比较偏向于于理论方面的知识，但是这个算法非常的强大，在很多方面都会存在他的影子。2个概念，1个维特比算法，1个隐马尔可夫模型。你很难想象，输入法的设计也会用到其中的一些知识。HMM-隐马尔可夫模型隐马尔可夫模型如果真的要展开来讲，那短短的一篇文章当然无法阐述的清，所以我会以最简单的方式解释。隐马尔可夫模型简称HMM，根据百度百科中的描述
数据挖掘算法之决策树详解金科应用研院风控策略数据科学互联网金融决策树算法数据挖掘
在计算机科学领域，尤其是在数据结构，很多种复杂的数据结构都是跟树有关，都是一个XX树命名。比如典型的霍夫曼树、KD树等。霍夫曼树是用来做编码的，KD树是用来对空间做划分。本文目录：风控决策树模型决策树模型的种类决策树模型的构造关注【金科应用研院】，回复“CSDN”，领取量化风控大礼包在开始跟大家介绍决策树模型之前，结合自然界中的树，我们先来了解下树的特点。自然界里的一棵树一定是有一个根，沿着这个根
数据挖掘算法跟数据结构中的算法有区别吗 banana很香蕉
学习数据挖掘算法也有一段时间了，某天小伙伴问我，你学的这个跟我们之前学校学的数据结构算法有什么区别吗。我很快回答：当然有区别啊。其实过后细想，究竟有啥区别。就是因为这个问题，才有了今天这篇文章。那么在我们开始前，可以先暂停阅读一分钟，回忆下已了解数据结构的算法还有数据挖掘算法，思考下这两种算法有区别吗。下面我们称数据结构算法为经典算法。首先我们来看看算法是什么看看维基百科的定义算法（algorit
数据挖掘算法原理与实践：数据预处理 01==零壹机器学习 1024程序员节机器学习数据预处理
目录第1关：标准化相关知识为什么要进行标准化Z-score标准化Min-max标准化MaxAbs标准化代码文件第2关：非线性转换相关知识为什么要非线性转换映射到均匀分布映射到高斯分布Yeo-Johnson映射Box-Cox映射代码文件第3关：归一化相关知识为什么使用归一化L1范式归一化L2范式归一化代码文件第4关：离散值编码相关知识LabelEncoderOneHotEncoder代码文件第5关：
41丨数据挖掘实战（3）：如何对比特币走势进行预测？张九日zx
数据挖掘算法有一种叫时间序列分析的算法，时间序列分析模型建立了观察结果与时间变化的关系，能帮我们预测未来一段时间内的结果变化情况。时间序列分析和回归分析的区别：-结果与变量的关系。回归分析训练得到的是目标变量y与自变量x（一个或多个）的相关性，然后通过新的自变量x来预测目标变量y。而时间序列分析得到的是目标变量y与时间的相关性。-回归分析擅长的是多变量与目标结果之间的分析，即便是单一变量，也往往与
[ Spark ] Spark核心概念 bone_ds Spark spark big data hadoop
Spark概述1.SparkorHadoop?Hadoop的MapReduce和Spark同为计算框架,使用时如何选择?1)MR由于其设计初衷并不是为了满足循环迭代式数据流处理，因此在多并行运行的数据可复用场景（如：机器学习、图挖掘算法、交互式数据挖掘算法）中存在诸多计算效率等问题。Spark就是在传统的MapReduce计算框架的基础上，利用其计算过程的优化，从而大大加快了数据分析、挖掘的运行和
数据挖掘算法-关联算法-Apriori 止水。。数据挖掘机器学习深度学习
一、Apriori算法简介：关联规则挖掘是数据挖掘领域的热点，关联规则反映一个对象与其他对象之间的相互依赖关系，如果多个对象之间存在-定的关联关系，那么一个对象可以通过其他对象进行预测。关联规则挖掘一般可分成两个步骤:①找出所有支持度大于等于最小支持度阈值的频繁项集。②由频繁模式生成满足可信度阈值的关联规则。二、基本概念：1、事物和项：数据挖掘用到的基本数据集记为D，它是由事务构成的，--般多存储
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {