E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
woe分箱
金融信贷风控实战(一)
代码实战1数据2特征工程2.1数据清洗2.1.1数据格式处理2.1.2缺失值2.1.3标签处理和选择数据2.2特征衍生2.3
分箱
参考资料代码实战1数据来自于lendingclubprint(data.shape
XindiOntheWay
·
2018-08-25 20:43
金融信贷风控
金融信贷风控(二)——数据预处理和特征衍生
文章目录申请评分卡中的数据预处理和特征衍生构建信用风险类型的特征数据预处理特征的
分箱
Best-KSChiMerge卡方
分箱
法
WOE
编码
WOE
编码的意义变量筛选特征信息度单变量分析和多变量分析单变量分析多变量分析申请评分卡中的数据预处理和特征衍生构建信用风险类型的特征数据预处理
XindiOntheWay
·
2018-08-25 15:04
金融信贷风控
机器学习数据预处理和构建一个模型
经常做的一些数据预处理工作有:>对缺失值的处理>对类别型变量的值进行重新编码>把连续型变量进行
分箱
,然后再按照处理类别型变量的方式重新编码>对连续型变量进行标准化和归一化处理注意事项:以上的预处理工作并不是对所有问题都是必须要做的
Allen_Sword
·
2018-08-16 20:51
笔记
特征
分箱
有监督的卡方
分箱
法(ChiMerge)自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
猪逻辑公园
·
2018-08-09 09:49
机器学习
R绘图 第五篇:绘制散点图(ggplot2)
geom_dotplot,当使用geom_dotplot绘图时,point的形状是dot,不能改变点的形状,因此,geom_dotplot叫做散点图(ScatterPlot),通过绘制点来呈现数据的分布,对点
分箱
的方法有两种
悦光阴
·
2018-08-03 14:00
分箱
操作及数据的可视化柱形图(pandas)
数据结构如下:代码如下:importpandasaspdimportmatplotlib.pyplotaspltdata=pd.read_excel('ftx.xlsx')data=pd.DataFrame(data)a=data.query("年==2009&月in(4,5,6)&销售区域in('北京','上海','广州')").groupby(by='销售区域')['销售数量'].sum()a
Houser_qihao
·
2018-07-26 17:55
分箱
padas
可视化
为什么要进行数据
分箱
?
比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用
分箱
法。
光彩照人
·
2018-07-16 11:00
pyspark特征工程常用方法(一)
本文记录特征工程中常用的五种方法:MinMaxScaler,Normalization,OneHotEncoding,PCA以及QuantileDiscretizer用于
分箱
原有数据集如下图:1.MinMaxScalerfrompyspark.ml.featureimportMinMaxScaler
诗蕊
·
2018-07-11 00:00
机器学习
Spark
2018-06-28
2.技术层面:a)常规方法:手动构造特征,常用方法如下,哑变量转换(one-hot)特征
分箱
:
分箱
后的特征鲁棒性较好,计算速度较快、可进行特征交叉、较低过拟合风险等特征交叉:特征组合的子集;类似于笛卡尔积操作经典例子
来个芒果
·
2018-06-28 11:09
R语言数据挖掘-模型评估篇-谢佳标-专题视频课程
还介绍了等频
分箱
在企业中应用的价值。课程收益通过本课程学习,掌握常用的模型评估方法:混淆矩阵、ROC曲线、KS曲线、LIFT曲线、PSI等。
jiabiao1602
·
2018-06-28 09:00
视频教程
信息值IV(infromation value)
若变量之间存在高度相关性,之后依据预测能力及稳定性择一保留进行单因子分析,检查各变量的预测强度(以变量-年收入为例)分组:按照年收入高低分组分组原则:组间差异大,组内差异小分组占率不宜低于5%各组必须同时拥有好坏客户2.
WOE
Datawhale
·
2018-06-26 18:17
python计算IV值
importnumpyasnpimportmathimportpandasaspdfromsklearn.utils.multiclassimporttype_of_targetfromscipyimportstats#求
woe
Datawhale
·
2018-06-26 16:42
谷歌机器学习速成课程学习笔记
谷歌机器学习速成课程学习笔记谷歌机器学习速成课程学习笔记1framing2深入了解3tensorflow4pandas5tensorFlow基本步骤6泛化7数据集划分8特征工程良好的特征:清理数据特征缩放处理极端离群值
分箱
清查熟悉数据编程训练
lovecencen1893
·
2018-06-26 11:41
机器学习
R语言计算IV值及使用
更多大数据分析、建模等内容请关注公众号《bigdatamodeling》在对变量
分箱
后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,R语言计算IV值的代码如下:CalcIV<-function
佛曰可说
·
2018-05-26 17:35
R语言
IV
python计算IV值及使用
更多大数据分析、建模等内容请关注公众号《bigdatamodeling》在对变量
分箱
后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下:defCalcIV
佛曰可说
·
2018-05-26 17:05
python
大数据
IV
【有监督
分箱
】方法一:卡方
分箱
在建模过程中,对连续变量的
分箱
是一个必不可少的过程。正好我最近的项目也是要做一个积分卡,因此想对
分箱
做一个较全面的总结。
hxcaifly
·
2018-05-06 19:25
数据挖掘和机器学习
绝地求生皮肤狂鲨之吻怎么样 绝地求生皮肤狂鲨之吻详细介绍
本次的春
分箱
子最有特点的就是这两把SharkBite(鲨鱼之咬)系列饰品了。分别是最高品质红色SharkBite98K与紫色品质SharkBiteM16了。
佚名
·
2018-04-21 09:39
绝地求生皮肤橄榄枝平底锅怎么样 橄榄枝平底锅皮肤详细介绍
下面小编给大家介绍一下新皮肤,快来看看吧这次的春
分箱
子中最引人注目的就是额外的TheOliveBranch平底锅皮肤了。TheOliveBranch直译应该为橄榄枝,在希腊神话中象征着胜利女神。
佚名
·
2018-04-21 09:44
评分卡模型-理论
评分卡模型流程变量分群/
分箱
通常是为了让变量的预测力最强名义变量降低基数类似决策树的一种算法连续变量的
分箱
在评分卡建模中,变量
分箱
(binning)是对连续变量离散化(discretization)的一种称呼
changzoe
·
2018-03-28 20:37
风控模型
构建风控评分卡模型介绍(
WOE
/KS/ROC)
什么是评分卡(信贷场景中)以分数的形式来衡量风险几率的一种手段对未来一段时间内违约/逾期/失联概率的预测通常评分越高越安全根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡为什么要开发评分卡风险控制的一个环节,根据已有数据提供逾期概率指标参考评分卡的特性稳定性预测能力等价于逾期概率评分卡开发的常用模型逻辑回归决策树基于逻辑回归的评分卡理论依据一个事件发生的几率(Odds),是指该事件
htbeker
·
2018-03-26 15:03
机器学习
风控模型
python3调用R的示例代码
由于工作需要,在做最优
分箱
的时候,始终写不出来高效的代码,所以就找到了R语言中的最优
分箱
的包,这个时候考虑到了在python中调用R语言,完美结合。
lingan_Hong
·
2018-02-23 09:21
机器学习习题(13)
但是除去文本的特征选择方法,还有其他类型的特征选择方法:
WOE
、IVGi
刘炫320
·
2018-01-23 10:37
机器学习习题集
#
机器学习习题集
如何处理噪声数据
噪声:一个测量变量中的随机错误或偏差噪声数据的处理方法:
分箱
;聚类;计算机和人工检查结合;回归1)
分箱
:
分箱
方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。
鸣人吃土豆
·
2017-12-26 17:35
python3调用R
由于工作需要,在做最优
分箱
的时候,始终写不出来高效的代码,所以就找到了R语言中的最优
分箱
的包,这个时候考虑到了在python中调用R语言,完美结合。
lingan_Hong
·
2017-12-26 15:00
python
R
特征工程之
分箱
比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用
分箱
法。
Pylady
·
2017-12-23 21:39
机器学习
OpenCV和SVM分类器在自动驾驶中的车辆检测
在标记的图像训练集上进行面向梯度的直方图(HOG)特征提取并训练分类器线性SVM分类器应用颜色转换,并将
分箱
的颜色特征以及颜色的直方图添加到HOG特征矢量中对于上面两个步骤,不要忘记标准化您的功能,并随机选择一个用于训练和测试的选项实施滑动窗口技术
刘老实Peter
·
2017-12-22 18:03
建模常用的概念介绍1:
WOE
、IV
为了挑选并构造出对目标变量有较高预测力的自变量,需要对变量进行
WOE
编码,通过IV值的看变量的贡献。
乐想屋
·
2017-12-12 00:00
基于Python的信用评分卡模型分析(二)
上一篇文章基于Python的信用评分卡模型分析(一)已经介绍了信用评分卡模型的数据预处理、探索性数据分析、变量
分箱
和变量选择等。
YoLean
·
2017-11-27 11:17
3分钟搞明白信用评分卡模型&模型验证
://www.cnblogs.com/nxld/p/6365460.html信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量
WOE
河南骏
·
2017-11-24 13:38
包裹
分箱
算法
阅读更多包裹
分箱
简单算法算出临界值
分箱
数量加1/***预估
分箱
算法*@return*/privateTuple2calculateFareAndNums(Listlist,PxChannelPriceprice
代码家的乐趣
·
2017-08-24 16:00
美团外卖清真
分箱
配送,一个失败的营销案例
前段时间的地域黑还没有被忘记,今天美团又来招黑了。不过相比上次用嘴巴伸张正义,这次消费者使用了自己的权利——长按美团APP,确认卸载。我国的穆斯林民众对于民族团结的态度,一直以来都不是很好,相关部门纵容的态度更让民众感到不满,尽管身边有很多穆斯林,也多少的对这个族群有些芥蒂,只是碍于能力,默默在心里生气。人民大学食堂设清真专区,非请勿入,农行陕西某分行设回民专用饮水机,清真饭店不许外带食品入内,这
作者花生
·
2017-07-19 13:10
python实现数据离散化
常见的有等宽
分箱
法,等频
分箱
法:等宽
分箱
法的思想是,将数据均匀划分成n等份,每份的间距相等。等频
分箱
法的思想是,将观察点均匀分成n等份,每份的观察点数相同。在对数据离散化前,需要先处理异常点
lonely_square_three
·
2017-06-21 19:40
特征预处理
数据挖掘
数据预处理
python
『pandas』pandas查漏补缺
1、to_numeric在转换数据类型时,会忽略NaN,而astype则在数据中存在NaN时报错,无法转换成功2、用cut函数
分箱
cut(x,bins,right=True,labels=None,retbins
lin聪记
·
2017-06-16 17:17
Python学习
【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分
评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过
分箱
后进行特征工程变换,继而应用于线性模型进行建模的一种方法。
小万君
·
2017-06-14 14:21
Day25
bracelet手镯4.aide=assistant助手5.aspirational有抱负的,励志的6.henceforward自此,今后7.showapassionfor8.partwith舍弃9.
woe
珺_7cbb
·
2017-05-04 21:37
数据
分箱
的常用方法
假设要将某个自变量的观测值分为k个
分箱
,一些常用的
分箱
方法有:1.无监督
分箱
(1)等宽
分箱
:将变量的取值范围分为k个等宽的区间,每个区间当作一个
分箱
。
伙伴几时见
·
2016-10-22 16:20
数据挖掘
数据标准化/归一化normalization
连续型特征还有一种处理方式是,先分桶/
分箱
(如等频/等距的分)[待写]进行离散化后再使用离散数据的处理方法。离散数据处理参考[数据预处理:独热编码(One-HotEncoding)]。
-柚子皮-
·
2016-08-19 09:40
Math
连续属性离散化
1.离散化技术分类连续属性的离散化方法也可以被称为
分箱
法,即将一组连续的值根据一定的规则分别放到其术语的集合中。
Eaton18
·
2016-08-07 17:07
机器学习
数据处理
决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略
这种情况需要
分箱
或多次模型验证,确保其具有稳定性。对区间型变量进行
分箱
操作时,无论是否考虑了顺序因素,都有可能因为
分箱
丧失了某些重要信息,尤其是当
分箱
前的区间型便
shuaishuai3409
·
2016-06-27 17:41
机器学习/云计算
植物墙垂直绿化和大露台的垂直种植堆架
大露台东面计划焊接3层阶梯状铁架,泡沫箱体作为培植土容器,
分箱
种植。每排约5个箱体,每层阶梯高50cm,宽40cm,内侧可以走管线和供水设施,两头支柱挑高,可以搭建大棚结构。
海绵城市
·
2016-05-24 13:43
各种统计量指标
各种统计量指标(1)WeightofEvidence(
WoE
)注:是指每个变量取值的权重,分bin,相当于单维看连续变量取值分区间,类型变量取离散的值。
use_my_heart
·
2016-05-06 16:00
logistic回归问题自我答疑
logistic回归的时候遇到几个问题,一直困扰着我,随着学习的深入,我终于想通了这些问题,而且我发现这些看似很难的算法,其实不难,是可以战胜的,所以不要浅尝辄止,要百折不挠,现在把几个问题和答案小结如下:Q1:
woe
strwolf
·
2016-05-06 11:00
logistic回归研究 2016.04.28回顾
昨天的话,主要就干了一个事情,就是对logisticregression的研究1、从最开始的
woe
开始说起,一般来说
woe
公式是ln((Bi/BT)/(Gi/GT)),但是我偶然发现tony的
WOE
是用的
strwolf
·
2016-04-29 18:00
Logistic
数据挖掘模型中的IV和
WOE
详解
1.IV的用途IV的全称是InformationValue,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复杂
kevin7561
·
2016-03-02 15:16
IV
WOE
信息价值
证据权重
数据挖掘模型
数据挖掘模型
标题:
分箱
子问题(贪婪算法)
摘要:装箱子问题是一种常见的问题.假设我们需要将许多物品装进容量为1的箱子里面,每个物品的重量小于1.如果我们不能得知所有物品的重量,可能在装箱子的过程中有新的物品进入.现在我们要做的是求出最小的箱子数.基本思路:[1]:可以证明,在不能得知所有物品的情况下,算法能够给出的箱子数是不可能达到最优的.[2]:我们给出了最简单的算法,下次适合算法.当有新的物品进入时,我们检测刚刚装过物品的箱子,如过它
pp634077956
·
2015-09-06 11:00
sqoop简介
url=ZsVR3-tONSmftst_0lJnKWu2c_JjePSEY8Egzu-fVky2AFaXwMeFXiVpT-
wOE
68n4vRd_hqb0EhD3V546ntYfa
kavy
·
2015-07-02 13:00
sqoop
数据预处理
数据清洗(1)缺失值(忽略,中心趋势度量,该类中心趋势度量,人工填写,使用全局变量填充,使用最可能的值填充)(2)离群点:数据光滑(
分箱
(中位数光滑,极值光滑,均值光滑),回归,离群点检测:聚类)数据集成
a353833082
·
2015-05-28 22:07
大数据
dlmalloc 2.8.6 源码详解(3)
本文章由vector03原创,转载请注明出处.邮箱地址:
[email protected]
,欢迎来信讨论. 2.2
分箱
(bins)内存分配器设计中需要解决的两个重要问题就是空间和时间的矛盾.所谓空间矛盾是指要减少两方面的内存浪费
vector03
·
2014-11-11 11:00
源码
android
内存
malloc
内存分配
评分卡模型剖析之一(
woe
、IV、ROC、信息熵)
信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量
WOE
编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型
数据挖掘工人
·
2014-09-26 16:53
Data
Mining
数据挖掘与机器学习精华
shell脚本
$ printf "the first is %s,%s""\n" hell
woe
;  
zengshaotao
·
2014-03-26 16:00
shell脚本
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他