jiabiao1602

数据挖掘模型中的IV和WOE详解

原文地址：http://blog.csdn.net/kevin7658/article/details/50780391

1.IV的用途

IV的全称是Information Value，中文意思是信息价值，或者信息量。

我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而是会用一些方法，从这200个自变量中挑选一些出来，放进模型，形成入模变量列表。那么我们怎么去挑选入模变量呢？

挑选入模变量过程是个比较复杂的过程，需要考虑的因素很多，比如：变量的预测能力，变量之间的相关性，变量的简单性（容易生成和使用），变量的强壮性（不容易被绕过），变量在业务上的可解释性（被挑战时可以解释的通）等等。但是，其中最主要和最直接的衡量标准是变量的预测能力。

“变量的预测能力”这个说法很笼统，很主观，非量化，在筛选变量的时候我们总不能说：“我觉得这个变量预测能力很强，所以他要进入模型”吧？我们需要一些具体的量化指标来衡量每自变量的预测能力，并根据这些量化指标的大小，来确定哪些变量进入模型。IV就是这样一种指标，他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。

2.对IV的直观理解

从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情：我们假设在一个分类问题中，目标变量的类别有两类：Y1，Y2。对于一个待预测的个体A，要判断A属于Y1还是Y2，我们是需要一定的信息的，假设这个信息总量是I，而这些所需要的信息，就蕴含在所有的自变量C1，C2，C3，……，Cn中，那么，对于其中的一个变量Ci来说，其蕴含的信息越多，那么它对于判断A属于Y1还是Y2的贡献就越大，Ci的信息价值就越大，Ci的IV就越大，它就越应该进入到入模变量列表中。

3.IV的计算

前面我们从感性角度和逻辑层面对IV进行了解释和描述，那么回到数学层面，对于一个待评估变量，他的IV值究竟如何计算呢？为了介绍IV的计算方法，我们首先需要认识和理解另一个概念——WOE，因为IV的计算是以WOE为基础的。

3.1WOE

WOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始自变量的一种编码形式。

要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（也叫离散化、分箱等等，说的都是一个意思）。分组后，对于第i组，WOE的计算公式如下：

其中，pyi是这个组中响应客户（风险模型中，对应的是违约客户，总之，指的是模型中预测变量取值为“是”或者说1的个体）占所有样本中所有响应客户的比例，pni是这个组中未响应客户占样本中所有未响应客户的比例，#yi是这个组中响应客户的数量，#ni是这个组中未响应客户的数量，#yT是样本中所有响应客户的数量，#nT是样本中所有未响应客户的数量。

从这个公式中我们可以体会到，WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。

对这个公式做一个简单变换，可以得到：

变换以后我们可以看出，WOE也可以这么理解，他表示的是当前这个组中响应的客户和未响应客户的比值，和所有样本中这个比值的差异。这个差异是用这两个比值的比值，再取对数来表示的。WOE越大，这种差异越大，这个分组里的样本响应的可能性就越大，WOE越小，差异越小，这个分组里的样本响应的可能性就越小。

关于WOE编码所表示的意义，大家可以自己再好好体会一下。

3.2 IV的计算公式

有了前面的介绍，我们可以正式给出IV的计算公式。对于一个分组后的变量，第i 组的WOE前面已经介绍过，是这样计算的：

同样，对于分组i，也会有一个对应的IV值，计算公式如下：

有了一个变量各分组的IV值，我们就可以计算整个变量的IV值，方法很简单，就是把各分组的IV相加：

其中，n为变量分组个数。

3.3 用实例介绍IV的计算和使用

下面我们通过一个实例来讲解一下IV的使用方式。

3.3.1 实例

假设我们需要构建一个预测模型，这个模型是为了预测公司的客户集合中的每个客户对于我们的某项营销活动是否能够响应，或者说我们要预测的是客户对我们的这项营销活动响应的可能性有多大。假设我们已经从公司客户列表中随机抽取了100000个客户进行了营销活动测试，收集了这些客户的响应结果，作为我们的建模数据集，其中响应的客户有10000个。另外假设我们也已经提取到了这些客户的一些变量，作为我们模型的候选变量集，这些变量包括以下这些（实际情况中，我们拥有的变量可能比这些多得多，这里列出的变量仅仅是为了说明我们的问题）：

最近一个月是否有购买；
最近一次购买金额；
最近一笔购买的商品类别；
是否是公司VIP客户；

假设，我们已经对这些变量进行了离散化，统计的结果如下面几张表所示。

(1) 最近一个月是否有过购买：

(2) 最近一次购买金额：

(3) 最近一笔购买的商品类别：

(4) 是否是公司VIP客户：

3.3.2 计算WOE和IV

我们以其中的一个变量“最近一次购买金额”变量为例：

我们把这个变量离散化为了4个分段：<100元，[100,200)，[200,500)，>=500元。首先，根据WOE计算公式，这四个分段的WOE分别为：

插播一段，从上面的计算结果中我们可以看一下WOE的基本特点：

当前分组中，响应的比例越大，WOE值越大；
当前分组WOE的正负，由当前分组响应和未响应的比例，与样本整体响应和未响应的比例的大小关系决定，当前分组的比例小于样本整体比例时，WOE为负，当前分组的比例大于整体比例时，WOE为正，当前分组的比例和整体比例相等时，WOE为0。
WOE的取值范围是全体实数。

我们进一步理解一下WOE，会发现，WOE其实描述了变量当前这个分组，对判断个体是否会响应（或者说属于哪个类）所起到影响方向和大小，当WOE为正时，变量当前取值对判断个体是否会响应起到的正向的影响，当WOE为负时，起到了负向影响。而WOE值的大小，则是这个影响的大小的体现。

好，回到正题，计算完WOE，我们分别计算四个分组的IV值：

再插播一段，从上面IV的计算结果我们可以看出IV的以下特点：

对于变量的一个分组，这个分组的响应和未响应的比例与样本整体响应和未响应的比例相差越大，IV值越大，否则，IV值越小；
极端情况下，当前分组的响应和未响应的比例和样本整体的响应和未响应的比例相等时，IV值为0；
IV值的取值范围是[0,+∞)，且，当当前分组中只包含响应客户或者未响应客户时，IV = +∞。

OK，再次回到正题。最后，我们计算变量总IV值：

3.3.3 IV值的比较和变量预测能力的排序

我们已经计算了四个变量中其中一个的WOE和IV值。另外三个的计算过程我们不再详细的说明，直接给出IV结果。

最近一个月是否有过购买：0.250224725
最近一笔购买的商品类别：0.615275563
是否是公司VIP客户：1.56550367

前面我们已经计算过，最近一次购买金额的IV为0.49270645

这四个变量IV排序结果是这样的：是否是公司VIP客户 > 最近一笔购买的商品类别 > 最近一次购买金额 > 最近一个月是否有过购买。我们发现“是否是公司VIP客户”是预测能力最高的变量，“最近一个月是否有过购买”是预测能力最低的变量。如果我们需要在这四个变量中去挑选变量，就可以根据IV从高到低去挑选了。

4.关于IV和WOE的进一步思考

4.1 为什么用IV而不是直接用WOE

从上面的内容来看，变量各分组的WOE和IV都隐含着这个分组对目标变量的预测能力这样的意义。那我们为什么不直接用WOE相加或者绝对值相加作为衡量一个变量整体预测能力的指标呢？

并且，从计算公式来看，对于变量的一个分组，IV是WOE乘以这个分组响应占比和未响应占比的差。而一个变量的IV等于各分组IV的和。如果愿意，我们同样也能用WOE构造出一个这样的一个和出来，我们只需要把变量各个分组的WOE和取绝对值再相加，即（取绝对值是因为WOE可正可负，如果不取绝对值，则会把变量的区分度通过正负抵消的方式抵消掉）：

那么我们为什么不直接用这个WOE绝对值的加和来衡量一个变量整体预测能力的好坏，而是要用WOE处理后的IV呢。

我们这里给出两个原因。IV和WOE的差别在于IV在WOE基础上乘以的那个，我们暂且用pyn来代表这个值。

第一个原因，当我们衡量一个变量的预测能力时，我们所使用的指标值不应该是负数，否则，说一个变量的预测能力的指标是-2.3，听起来很别扭。从这个角度讲，乘以pyn这个系数，保证了变量每个分组的结果都是非负数，你可以验证一下，当一个分组的WOE是正数时，pyn也是正数，当一个分组的WOE是负数时，pyn也是负数，而当一个分组的WOE=0时，pyn也是0。

当然，上面的原因不是最主要的，因为其实我们上面提到的这个指标也可以完全避免负数的出现。

更主要的原因，也就是第二个原因是，乘以pyn后，体现出了变量当前分组中个体的数量占整体个体数量的比例，对变量预测能力的影响。怎么理解这句话呢？我们还是举个例子。

假设我们上面所说的营销响应模型中，还有一个变量A，其取值只有两个：0,1，数据如下：

我们从上表可以看出，当变量A取值1时，其响应比例达到了90%，非常的高，但是我们能否说变量A的预测能力非常强呢？不能。为什么呢？原因就在于，A取1时，响应比例虽然很高，但这个分组的客户数太少了，占的比例太低了。虽然，如果一个客户在A这个变量上取1，那他有90%的响应可能性，但是一个客户变量A取1的可能性本身就非常的低。所以，对于样本整体来说，变量的预测能力并没有那么强。我们分别看一下变量各分组和整体的WOE，IV。

从这个表我们可以看到，变量取1时，响应比达到90%，对应的WOE很高，但对应的IV却很低，原因就在于IV在WOE的前面乘以了一个系数，而这个系数很好的考虑了这个分组中样本占整体样本的比例，比例越低，这个分组对变量整体预测能力的贡献越低。相反，如果直接用WOE的绝对值加和，会得到一个很高的指标，这是不合理的。

4.2 IV的极端情况以及处理方式

IV依赖WOE，并且IV是一个很好的衡量自变量对目标变量影响程度的指标。但是，使用过程中应该注意一个问题：变量的任何分组中，不应该出现响应数=0或非响应数=0的情况。

原因很简单，当变量一个分组中，响应数=0时，

此时对应的IVi为+∞。

而当变量一个分组中，没有响应的数量 = 0时，

此时的IVi为+∞。

IVi无论等于负无穷还是正无穷，都是没有意义的。

由上述问题我们可以看到，使用IV其实有一个缺点，就是不能自动处理变量的分组中出现响应比例为0或100%的情况。那么，遇到响应比例为0或者100%的情况，我们应该怎么做呢？建议如下：

（1）如果可能，直接把这个分组做成一个规则，作为模型的前置条件或补充条件；

（2）重新对变量进行离散化或分组，使每个分组的响应比例都不为0且不为100%，尤其是当一个分组个体数很小时（比如小于100个），强烈建议这样做，因为本身把一个分组个体数弄得很小就不是太合理。

（3）如果上面两种方法都无法使用，建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0，可以人工调整响应数为1，如果非响应数原本为0，可以人工调整非响应数为1.

你可能感兴趣的:(数据挖掘算法)

Python环境下基于深度判别迁移学习网络的轴承故障诊断哥廷根数学学派故障诊断信号处理深度学习 python 迁移学习开发语言
目前很多机器学习和数据挖掘算法都是基于训练数据和测试数据位于同一特征空间、拥有相同数据分布的假设。然而在现实应用中，该假设却未必存在。一方面，如果将利用某一领域数据训练得到的模型直接应用于新的目标领域，领域之间切实存在的数据差异可能会导致模型效果的骤然下降。另一方面，如果直接在新的目标领域中进行模型的训练，其数据的稀缺和标注的不完整可能会导致监督学习出现严重的过拟合问题，难以达到令人满意的学习效果
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
一文梳理金融风控建模全流程(Python) 风控小兵突击智能风控 python 数据分析算法机器学习数据挖掘概率论
▍目录一、简介风控信用评分卡简介Scorecardpy库简介二、目标定义与数据准备目标定义数据准备三、安装scorecardpy包四、数据检查五、数据筛选六、数据划分七、变量分箱卡方分箱手动调整分箱八、建立模型相关性分析多重共线性检验VIFKS和AUC评分映射PSI稳定性指标九、关键指标说明WOE值IV值逻辑回归KS值PSI▍风控信用评分卡简介通过运用数据挖掘算法，信贷风控系统可以像个"预言家"一
在线项目实习分享：股票价格形态聚类与收益分析泰迪智能科技大数据在线实习项目聚类数据挖掘机器学习
01前置课程数据挖掘基础数据探索数据预处理数据挖掘算法基础Python数据挖掘编程基础Matplotlib可视化Pyecharts绘图02师傅带练行业联动与轮动分析通过分析申银万国行业交易指数的联动与轮动现象，获得有意义的行业轮动关联规则，并在此基础上设计量化投资策略。项目技术目标如下：1、利用不同投资品种强势时间的错位对行业品种进行切换以达到投资收益最大化的目的。2、量化投资策略，为投资者提供高
十大数据挖掘算法之KNN算法清梦载星河
一、KNN算法概述KNN（k-NearestNeighbor）算法，又称K近邻算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。简单来说，k近邻算法采用测量不同特征值之间的距离方法进行分类。优点：精度高、对异常值不敏感、无数据输入假定；缺点：计算复杂度高、空间复杂度高；适用数据范围：数值型和标称型。工作原理存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们
数据挖掘--决策树人工智能MOS 深度学习人工智能机器学习数据挖掘
1.算法原理决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。近来的调查表明决策树也是最经常使用的数据挖掘算法，它的概念非常简单。决策树算法之所以如此流行，一个很重要的原因就是使用者基本上不用了解机器学习算法，也不用深究它是如何工作的。直观看上去，决策树分类器就像判断模块
大数据技术原理与应用期末考试题无敌海苔咪大数据开源框架期末大数据
大数据技术原理与应用期末考试题一、单选题1.下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能?A、利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理B、利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析C、构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全D、把实时采集的数据作为流计算系统的输
如何选择合适的工具来进行数据可视化？王永翔信息可视化数据分析数据挖掘
需求列表：1、是否需要数据抽取？2、是否有数据标准化的要求？3、是否需要建立数据资产？4、是否需要提供数据服务？5、是否需要对于数据进行数据建模（二次加工处理）？6、是否需要对于数据于模型进行权限管理？7、是否需要支持外部数据的导入？8、是否需要支持数据挖掘算法？8、是否需要支持图片分类？9、是否需要支持任务中心？10、是否支持参数、表格、图表、标签、图标、图片等可视化内容？可以根据自己的实际需要
python基于数据挖掘算法的“B站” 用户行为数据分析 QQ2743785109 python 数据挖掘 python 算法
收藏关注不迷路文章目录前言一、模块设计3.1数据爬取模块3.2数据的挖掘与分析模块3.3数据可视化模块二、开发环境三、数据预处理4.2各功能模块的实现4.2.1热点视频的数据分析及可视化四、结论目录前言经过多年的发展，网络视频已经成为互联网上的主要应用之一。目前，网络视频具有数量大、发布快、影响多、影响力大的特点。BililiBarrageVideoNetwork(简称B站)作为当下国内首屈一
数据挖掘算法及相关应用黄成甲
我们生活在信息爆炸的时代，每时每刻都在产生海量的数椐。我们在微博、微信、社交网站、门户网站、移动终端等众多的设备商产生的海量数据，面临着无法处理数据的困境。例如电商行业，每天客户的注册、建议、投诉、订单以及喜好等行为都会被记录下来，几乎每一个大公司都拥有自己庞大的客户数据信息。如何从海量的数据中提取有用的知识或者模式来改善企业的管理或提高团队运行效率，已成为如今亟待解决的问题，数据挖掘技术正是解决
协同过滤算法之vue+springboot个性化电影评分推荐系统6n498 qq_3166678367 vue.js spring boot 前端
摘要为了解决信息过载问题,个性化推荐系统由此产生。个性化推荐系统通过对用户行为的分析,利用数据挖掘算法对信息进行过滤,将用户可能感兴趣的产品或项目推荐给用户。对于电影爱好者来说,利用网络在浩如烟海的电影数据库中找到自己喜欢的电影并非易事。电影作为一个艺术的载体,有其自身携带的客观数据,同时不可避免还带有大量观赏者的评论等主观数据。人们也常常会参考别人的意见来做判断。因此,个性化影片推荐系统将以B/
数据挖掘与建模有效的前提是具备问题领域的专业知识数据科学作家数据挖掘人工智能 python 开发语言机器学习深度学习数据分析
1.数据挖掘与建模有效的前提是具备问题领域的专业知识数据挖掘与建模有效的前提是具备问题领域的专业知识。数据挖掘与建模的本质是用一系列数据挖掘算法来创建模型，同时解释模型和业务目标的特点。2.我们在建模时有时候考虑的是因果关系我们在建模时有时候考虑的是因果关系，比如研究客户行为特征对他产生购买行为的影响，我们把响应变量设定为客户的购买行为，把特征变量设定为客户的性别、年龄、学历、年收入水平、可支配收
2020-05-13 常用的数据分析与挖掘工具程凉皮儿
常用的数据分析与挖掘工具R语言是由奥克兰大学统计系的Robert和Ross共同开发的，并在1993年首次亮相。其具备灵活的数据操作、高效的向量化运算、优秀的数据可视化等优点，受到用户的广泛欢迎。它是一款优秀的数据挖掘工具，用户可以借助强大的第三方扩展包，实现各种数据挖掘算法的落地。Pyhton是由荷兰人GuidovanRossum于1989年发明的，并在1991年首次公开发行。它是一款简单易学的编
用最简单的语言来解释一下数据挖掘的十大算法 zdy0_2004 机器学习机器学习
http://dataunion.org/20745.html出处：伯乐在线在一份调查问卷中，三个独立专家小组投票选出的十大最有影响力的数据挖掘算法，今天我打算用简单的语言来解释一下。一旦你知道了这些算法是什么、怎么工作、能做什么、在哪里能找到，我希望你能把这篇博文当做一个跳板，学习更多的数据挖掘知识。还等什么？这就开始吧！1.C4.5算法C4.5是做什么的？C4.5以决策树的形式构建了一个分类器
apriori算法 c语言,数据挖掘算法——Apriori算法蒋大钳 apriori算法 c语言
Apriori算法首先，Apriori算法是关联规则挖掘中很基础也很经典的一个算法。转载来自：链接：https://www.jianshu.com/p/26d61b83492e所以做如下补充：关联规则：形如X→Y的蕴涵式，其中，X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。其中，关联
推荐一个数据科学与大数据技术专业毕业论文题目不卡不卡大数据信息可视化数据分析数据挖掘人工智能
很高兴为您提供帮助!在数据科学和大数据技术专业，毕业论文题目可以围绕以下几个方面展开:大数据挖掘和分析:例如，使用机器学习或数据挖掘算法来从海量数据中发现有用信息。大数据存储和处理:例如，研究如何使用分布式系统来存储和处理海量数据。大数据可视化:例如，研究如何使用可视化技术将大数据可视化，以帮助人们理解和分析数据。大数据安全:例如，研究如何保护大数据免受攻击和泄漏。大数据应用:例如，研究大数据在某
经典数据挖掘算法（介绍了包括18大数据挖掘在内的多种经典数据挖掘算法） IU菜籽U 18大数据挖掘典数据算法
前言文章标题的两个概念也许对于许多同学们来说都相对比较陌生，都比较偏向于于理论方面的知识，但是这个算法非常的强大，在很多方面都会存在他的影子。2个概念，1个维特比算法，1个隐马尔可夫模型。你很难想象，输入法的设计也会用到其中的一些知识。HMM-隐马尔可夫模型隐马尔可夫模型如果真的要展开来讲，那短短的一篇文章当然无法阐述的清，所以我会以最简单的方式解释。隐马尔可夫模型简称HMM，根据百度百科中的描述
数据挖掘算法之决策树详解金科应用研院风控策略数据科学互联网金融决策树算法数据挖掘
在计算机科学领域，尤其是在数据结构，很多种复杂的数据结构都是跟树有关，都是一个XX树命名。比如典型的霍夫曼树、KD树等。霍夫曼树是用来做编码的，KD树是用来对空间做划分。本文目录：风控决策树模型决策树模型的种类决策树模型的构造关注【金科应用研院】，回复“CSDN”，领取量化风控大礼包在开始跟大家介绍决策树模型之前，结合自然界中的树，我们先来了解下树的特点。自然界里的一棵树一定是有一个根，沿着这个根
数据挖掘算法跟数据结构中的算法有区别吗 banana很香蕉
学习数据挖掘算法也有一段时间了，某天小伙伴问我，你学的这个跟我们之前学校学的数据结构算法有什么区别吗。我很快回答：当然有区别啊。其实过后细想，究竟有啥区别。就是因为这个问题，才有了今天这篇文章。那么在我们开始前，可以先暂停阅读一分钟，回忆下已了解数据结构的算法还有数据挖掘算法，思考下这两种算法有区别吗。下面我们称数据结构算法为经典算法。首先我们来看看算法是什么看看维基百科的定义算法（algorit
数据挖掘算法原理与实践：数据预处理 01==零壹机器学习 1024程序员节机器学习数据预处理
目录第1关：标准化相关知识为什么要进行标准化Z-score标准化Min-max标准化MaxAbs标准化代码文件第2关：非线性转换相关知识为什么要非线性转换映射到均匀分布映射到高斯分布Yeo-Johnson映射Box-Cox映射代码文件第3关：归一化相关知识为什么使用归一化L1范式归一化L2范式归一化代码文件第4关：离散值编码相关知识LabelEncoderOneHotEncoder代码文件第5关：
41丨数据挖掘实战（3）：如何对比特币走势进行预测？张九日zx
数据挖掘算法有一种叫时间序列分析的算法，时间序列分析模型建立了观察结果与时间变化的关系，能帮我们预测未来一段时间内的结果变化情况。时间序列分析和回归分析的区别：-结果与变量的关系。回归分析训练得到的是目标变量y与自变量x（一个或多个）的相关性，然后通过新的自变量x来预测目标变量y。而时间序列分析得到的是目标变量y与时间的相关性。-回归分析擅长的是多变量与目标结果之间的分析，即便是单一变量，也往往与
[ Spark ] Spark核心概念 bone_ds Spark spark big data hadoop
Spark概述1.SparkorHadoop?Hadoop的MapReduce和Spark同为计算框架,使用时如何选择?1)MR由于其设计初衷并不是为了满足循环迭代式数据流处理，因此在多并行运行的数据可复用场景（如：机器学习、图挖掘算法、交互式数据挖掘算法）中存在诸多计算效率等问题。Spark就是在传统的MapReduce计算框架的基础上，利用其计算过程的优化，从而大大加快了数据分析、挖掘的运行和
数据挖掘算法-关联算法-Apriori 止水。。数据挖掘机器学习深度学习
一、Apriori算法简介：关联规则挖掘是数据挖掘领域的热点，关联规则反映一个对象与其他对象之间的相互依赖关系，如果多个对象之间存在-定的关联关系，那么一个对象可以通过其他对象进行预测。关联规则挖掘一般可分成两个步骤:①找出所有支持度大于等于最小支持度阈值的频繁项集。②由频繁模式生成满足可信度阈值的关联规则。二、基本概念：1、事物和项：数据挖掘用到的基本数据集记为D，它是由事务构成的，--般多存储
Deepwalk(深度游走)算法简介 Mr.Cheng1996 deepwalk 知识图谱
深度游走：一种社交表示的在线学习算法主要思想Deepwalk算法参考文献主要思想 Deepwalk是一种将随机游走(randomwalk)和word2vec两种算法相结合的图结构数据挖掘算法。该算法能够学习网络的隐藏信息，能够将图中的节点表示为一个包含潜在信息的向量，如图1-2所示。图1输入:图信号图2输出:图节点嵌入Deepwalk算法该算法主要分为随机游走和生成表示向量两个部分。首先利用
DeepWalk（深度游走）算法嵌入式开发. 机器学习/深度学习算法机器学习 python
整理自：Deepwalk(深度游走)算法简介_Mr.Cheng1996的博客-CSDN博客【论文笔记】DeepWalk-知乎DeepWalk是一种将随机游走(randomwalk)和word2vec两种算法相结合的图结构数据挖掘算法。该算法能够学习网络的隐藏信息，能够将图中的节点表示为一个包含潜在信息的向量，如图1-2所示。Deepwalk算法该算法主要分为随机游走和生成表示向量两个部分。首先利用
决策树ID3、C4.5 小小少年Boy
决策树ID3、C4.5如需转载，请注明作者及出处.作者：Treant出处：http://www.cnblogs.com/en-heng/【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïveBayesCART1.决策树模型与学习决策树（decisiontree）算法基于特征属性进行分类，其主要的优点：模型具有可读性，计算量小，分类
CBA算法---基于关联规则进行分类的算法 Android路上的人机器学习数据挖掘算法经典数据挖掘算法机器学习数据挖掘算法数据
更多数据挖掘算法：https://github.com/linyiqun/DataMiningAlgorithm介绍CBA算法全称是ClassificationbaseofAssociation，就是基于关联规则进行分类的算法，说到关联规则，我们就会想到Apriori和FP-Tree算法都是关联规则挖掘算法，而CBA算法正是利用了Apriori挖掘出的关联规则，然后做分类判断，所以在某种程度上说，
4.3.3 连续属性离散化 WeDataScience
一些数据挖掘算法，要求数据是分类属性形式的。所以常常需要将连续属性变换成分类属性，即连续属性离散化。常用的离散化方法等宽法将属性的值域分成具有相同宽度的区间，区间的个数由数据本身的特点决定，或者由用户指定，类似于制作频率分布表。等频法将相同数量的记录放进每个区间，每个区间数据值个数相同基于聚类分析的方法一维聚类的方法包括两个步骤，首先将连续属性的值用聚类(如K-Means算法)进行聚类，然后再将聚
十大数据挖掘算法之-KNN(K近邻)算法鸡汤本汤数据挖掘算法人工智能 KNN
KNN算法（K-NearestNeighbors）是一种基本的机器学习算法，常用于分类和回归任务。1.KNN算法简介KNN算法是一种监督学习算法，用于解决分类和回归问题。它的核心思想非常简单：一个样本的类别或值由其最近邻居的类别或值决定。这里的K代表了选择多少个最近邻居来做决策。2.算法原理KNN算法的工作原理可以概括为以下几个步骤：选择K值：首先，选择一个合适的K值，它代表了你希望用多少个最近邻
什么是元数据真空零点能大数据大数据
元数据元数据是描述数据的数据，关于数据的组织、数据域及其关系，本质上是关于数据的信息。元数据以数字化方式描述企业的数据、流程和应用程序，为企业数字资产的内容提供了上下文，使得数据更容易理解、查找、管理和使用。元数据分类业务元数据、技术元数据、操作元数据业务元数据描述数据的业务含义、业务规则等业务定义、业务术语解释等业务指标名称、计算口径、衍生指标等业务引擎的规则、数据质量检测规则、数据挖掘算法等数
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他