E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分箱
python数据分析5 数据转换
这里可以采用
分箱
、聚类和回归的方式进行数据平滑1,2数据聚集对数据进行汇总,在sql中也有一些聚集函数比如Max求最大值1.3数据概化将数据由较低的概念抽象成较高的概念。
L的存在
·
2019-12-12 11:00
系统学习机器学习之特征工程(四)--
分箱
总结
首先fromwiki给出一个标准的连续特征离散化的定义:在统计和机器学习中,离散化是指将连续属性,特征或变量转换或划分为离散或标称属性/特征/变量/间隔的过程。这在创建概率质量函数时非常有用-正式地,在密度估计中。它是一种离散化的形式,也可以是分组,如制作直方图。每当连续数据离散化时,总会存在一定程度的离散化误差。目标是将数量减少到手头的建模目的可忽略不计的水平。在银行风控模型的建模过程中常常涉及
Eason.wxd
·
2019-11-18 13:15
机器学习
【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分
评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过
分箱
后进行特征工程变换,继而应用于线性模型进行建模的一种方法。
阿里云云栖社区
·
2019-11-04 05:23
google机器学习速成教程学习笔记
训练和损失迭代方式降低损失降低损失(ReducingLoss):梯度下降法使用TensorFlow泛化训练集和测试集验证集表示特征工程将原始数据映射到特征良好特征的特点清理数据缩放特征值处理极端离群值
分箱
清查特征组合特征组合的种类组合独热矢量简化正则化
星殇丶
·
2019-11-03 09:59
Machine
Learning
机器学习
python
woe第二集
自动最优
分箱
函数,基于卡方检验的
分箱
defgraphforbestbin(DF,X,Y,n=5,q=20,graph=True):'''参数:DF:需要输入的数据X:需要
分箱
的列名Y:
分箱
数据对应的标签
Kyrie_Irving
·
2019-09-07 22:13
WEO编码
WEO编码为什么要进行
分箱
???一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。
Kyrie_Irving
·
2019-09-07 19:05
精通特征工程笔记(一)
发数值部分处理计数问题,对于大规模的数据,在实际处理的时候要考虑是保留原始的数值类型还是转成二值数,或者粗粒度的
分箱
操作.对于衡量可以二分类的数据,如果存在个别极端大的数值的数据会对带跑整体的预测,这个时候就需要设置一个
吃不饱吃不饱
·
2019-09-04 20:00
spss的数理应用
1,回归模型2.逻辑回归3.
分箱
操作4,聚类回归总结,建立了良好的数理统计以后,用模型缩减数据并进行回归的分析处理。
念新
·
2019-08-14 18:55
如何在Python中实现数据
分箱
1数据
分箱
数据
分箱
技术在Pandas官方给出的定义:Binvaluesintodiscreteintervals,是指将值划分到离散区间。
EchoPython
·
2019-08-05 13:30
Python进阶之路
Python
Python爬虫
python卡方
分箱
自动化脚本
importsysimportnumpyasnpimportpandasaspdimportmathimportosfromtqdmimporttqdmpd.set_option('display.float_format',lambdax:'%.3f'%x)"""1.自定义缺失值处理函数1.1缺失值计算"""defmissing_cal(df):"""计算特征数据缺失占比:paramdf:数据集
happy5205205
·
2019-07-08 15:30
评分卡模型
风控模型
AI项目流程
mysql二、数据清洗和数据预处理单变量探索多变量探索缺失值处理:删除或填充构造特征变量特征工程:从已有的数据中构造出对目标变量有强影响力的特征变量标准化和归一化:无量纲化独热编码:将类别变量进行拆分
分箱
Lucky_JimSir
·
2019-06-25 23:07
人工智能
七月在线--金融风控实战--第三课 风控数据挖掘方法--课程笔记
文章目录申请评分卡中的数据预处理和特征衍生构建信用风险类型的特征数据预处理特征的
分箱
Best-KSChiMerge卡方
分箱
法WOE编码WOE编码的意义变量筛选特征信息度单变量分析和多变量分析单变量分析多变量分析申请评分卡中的数据预处理和特征衍生构建信用风险类型的特征数据预处理
dean1977a
·
2019-05-29 10:11
金融风控
pandas统计重复值次数
80830911Pandas学习笔记之重复数据统计https://blog.csdn.net/lansecheng/article/details/75085675Pandas数据基础(索引、排序、连接、去重、
分箱
星蕴w
·
2019-04-26 21:13
pandas
卡方
分箱
中卡方值的计算
关于卡方
分箱
,网上有很多文章,但几乎没有文章介绍
分箱
时相邻区间卡方值计算的方法,而本文在介绍卡方
分箱
的同时,重点介绍了相邻区间卡方值的计算方法。通过本文,希望大家能对卡方
分箱
有清楚透彻的认识。
好重
·
2019-04-23 11:17
深度学习笔记之四——feature_column
2、bucketized_column——将连续数值
分箱
,如:输入(1,2,3,4,5)按照(0,34,5)两个区间
分箱
,
分箱
成为(0,0,0,1,1)的onehot形式,即最终结果为:),([1,0]
落在地上的乐乐
·
2019-04-22 08:06
深度学习
ML实战
评分卡模型的种类及流程——数据准备、WOE
分箱
以及模型评估
评分卡介绍评分卡的种类——ABC卡FICO信用分1、FICO信用分简介2、FICO信用分的评判因素数据准备1、需要排除异常行为2、解释指标的选择3、目标变量的确立变量
分箱
——WOE转换评分的计算与分值分配模型的评价
爆炒小青蛙
·
2019-04-18 15:45
风控
数据
分箱
——KS
分箱
/卡放
分箱
目录1.前言2.定义3.
分箱
的用处4.
分箱
方法4.1KS
分箱
变量的KS值Best-KS
分箱
4.2卡方
分箱
1.前言评分卡建模在金融行业应用得比较广泛,比如对客户的信贷诚信度进行评分。
Andy_shenzl
·
2019-04-09 20:11
评分卡
雨中冒险2怎么找箱子 快速找箱子方法介绍
快速找箱子方法分享开完地图上大部
分箱
子后去开门,在100%之前打死boss(不打也行,保持进度不到100%就行)。
佚名
·
2019-04-08 10:30
最核心的特征工程方法-
分箱
算法
分箱
算法简介先来讲讲什么是
分箱
算法,根据字面意思就是把数据按照不同的规则分到不同的箱子里。其实
分箱
是特征工程的一种,可以理解为一种连续数据变为离散数据的建模方式。
李博Garvin
·
2019-03-22 16:00
机器学习
python自动
分箱
,计算woe,iv
笔者之前用R开发评分卡时,需要进行
分箱
计算woe及iv值,采用的R包是smbinning,它可以自动进行
分箱
。
kidxu
·
2019-03-18 19:10
python
IV值计算及
分箱
1.离散的优势:(1)离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;(2)逻辑回归属于广义线性模型,表达能力受限,单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;(3)离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性
Baron_ND
·
2019-03-08 13:30
数据挖掘
Python
属性(特征)离散化的方法
前面转载了一篇博文,这里自己再进行一下补充和梳理属性(特征)离散化是指设置若干离散的划分点,将属性的取值化为一个个区间,再用离散值表示,一般取整数表示,为了计算机的识别常用的离散化的方法一、非监督方法1.
分箱
离散化是指基于指定的箱子的个数自定向下的分裂计数
Laurel1115
·
2019-03-07 18:18
数据挖掘/机器学习算法原理
Python中pandas的qcut函数的用法
原书介绍qcut函数是一个与
分箱
密切相关的函数,它基于样本分位数进行
分箱
,可以通过qcut获得等长的箱:data=np.random.randn(1000)#data服从正态分布cats=pd.qcut
我从大数据中找个零
·
2019-02-19 15:43
python
pandas
数据分析
ApacheCN 数据科学/人工智能/机器学习知识树 2019.2
合作or侵权,请联系【fonttian】|请抄送一份到预处理离散化等值
分箱
等量
分箱
独热one-hot标准化最小最大m
飞龙
·
2019-02-04 00:00
tensorflow
python
数据科学
机器学习
人工智能
XGB快速上手_初次参赛_津南数字制造算法
初步改进点有1、删除收率异常2、数据集的时间也有异常值A11-A12=1:00(有时候会有异常)3、转换为时间区间4、将收率进行
分箱
,
tangxiaohu1234
·
2019-01-24 11:46
ML
(信贷风控二)申请评分卡中的数据预处理和特征衍生(上)
申请评分卡中的数据预处理和特征衍生本章文章主要讲解以下内容构建信用风险类型的特征特征
分箱
WOE编码构建信用风险类型的特征在我们运用模型之前,我们首先要进行特征工程,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用
路易三十六
·
2019-01-21 15:08
金融信贷风控的机器学习实战
信贷风控---评分卡
4.pandas数据预处理(完)(数据清洗:重复值、异常值、缺失值;标准化、哑变量、离散化、无监督
分箱
)
笔记说明:本文是我的学习笔记,大部分内容整理自黄红梅,张良均等.Python数据分析与应用[M].北京:人民邮电出版社,2018:133-163.还有部分片断知识来自网络搜索补充。目录0.数据来源0.1说明1.清洗数据1.1检测与处理重复值1.1.1记录重复1.1.2特征重复1.2检测与处理缺失值1.2.1删除法1.2.2替换法1.2.3插值法1.3检测与处理异常值1.3.1正态分布的3σ原则1.
贫僧不懂
·
2019-01-14 17:35
python数据分析与应用
个推教程--第七课--浅层排序模型gbdt
gbdt和xgboost的详细介绍:https://wenku.baidu.com/view/44778c9c312b3169a551a460.html回归树就是把连续取值区间
分箱
,叶子节点为一个个小的取值区间基尼指数与熵的定义不同
Walter_Silva
·
2019-01-12 16:35
推荐系统
R绘图 第十一篇:统计转换、位置调整、标度和向导(ggplot2)
bin是
分箱
的意思,在统计学中,数据
分箱
是一种把多个连续值分割成多个区间的方法,每一个小区间叫做一个bin(bucket),这就意味着每个bin定义一个数值区间,连续值会落到相应的区间中。
悦光阴
·
2018-12-26 10:00
R绘图 第十一篇:统计转换、位置调整、标度和向导(ggplot2)
bin是
分箱
的意思,在统计学中,数据
分箱
是一种把多个连续值分割成多个区间的方法,每一个小区间叫做一个bin(bucket),这就意味着每个bin定义一个数值区间,连续值会落到相应的区间中。
悦光阴
·
2018-12-26 10:00
pandas数据
分箱
技术
第一种(把元素放进篮子里)fromrandomimportrandintfrompprintimportpprint#score_list=[randint(50,100)for_inrange(20)]score_list=[63,67,73,84,88,97,70,85,68,96,95,60,83,70,77,86,83,94,100,82]print(score_list)low=[]mi
赖三石
·
2018-12-25 22:46
机器学习
【有监督
分箱
】方法二: Best-KS
分箱
衔接上一篇工作:https://blog.csdn.net/hxcaifly/article/details/80203663变量的KS值KS(Kolmogorov-Smirnov)用于模型风险区分能力进行评估,指标衡量的是好坏样本累计部分之间的差距。KS值越大,表示该变量越能将正,负客户的区分程度越大。通常来说,KS>0.2即表示特征有较好的准确率。强调一下,这里的KS值是变量的KS值,而不是模
hxcaifly
·
2018-11-28 22:05
数据挖掘和机器学习
连续变量最优
分箱
--基于CART算法
关于变量
分箱
主要分为两大类:有监督型和无监督型对应的
分箱
方法:A.无监督:(1)等宽(2)等频(3)聚类B.有监督:(1)卡方
分箱
法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法
cyydjt
·
2018-11-27 17:21
特征
特征工程(7中常用)https://www.cnblogs.com/peizhe123/p/7412364.html时间戳处理importdata分解类别属性one-hotdummy
分箱
/分区(划分区间段
acoco_wang
·
2018-11-11 16:29
连续变量最优
分箱
--基于CART算法
关于变量
分箱
主要分为两大类:有监督型和无监督型对应的
分箱
方法:A.无监督:(1)等宽(2)等频(3)聚类B.有监督:(1)卡方
分箱
法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法
cyydjt
·
2018-10-21 23:20
机器学习算法
【Hive】
分箱
一.等距
分箱
/等宽
分箱
1.概念:将变量的取值范围分为k个等宽的区间,每个区间当作一个
分箱
。
喜东东cc
·
2018-10-08 14:02
hive
【学习笔记】稀疏性正则化(l1正则化)
还记得我们之前用经度和纬度来进行
分箱
吗?仅仅是2个特征进行
分箱
组合就让我们的输入特征数量暴增。假设我们现在有k个特征需要来
分箱
,每个分为长度为k的独热编码。
Canon__
·
2018-09-29 20:39
【python】等频
分箱
qcut
在python较新的版本中,pandas.qcut()这个函数中是有duplicates这个参数的,它能解决在等频
分箱
中遇到的重复值过多引起报错的问题;在比较旧版本的python中,提供一下解决办法:importpandasaspddefpct_rank_qcut
喜东东cc
·
2018-09-11 16:42
Python
Pandas数据处理/drop_duplicates()/映射map()/replace()/rename()/
分箱
/过滤异常值/随机抽样take()/random.permutation()
1、删除重复元素使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为TrueimportnumpyasnpimportpandasaspdfrompandasimportSeries,DataFrameimportmatplotlib.pyplotasplt%matplotlibinline创建数据集:#color0
Doris_H_n_q
·
2018-09-02 23:14
科学数据包
金融信贷风控实战(二)
2.3
分箱
2.4WOE编码2.5单变量分析和多变量分析2.3
分箱
对于连续性变量,直接
分箱
。
XindiOntheWay
·
2018-08-25 22:10
金融信贷风控
金融信贷风控实战(一)
代码实战1数据2特征工程2.1数据清洗2.1.1数据格式处理2.1.2缺失值2.1.3标签处理和选择数据2.2特征衍生2.3
分箱
参考资料代码实战1数据来自于lendingclubprint(data.shape
XindiOntheWay
·
2018-08-25 20:43
金融信贷风控
金融信贷风控(二)——数据预处理和特征衍生
文章目录申请评分卡中的数据预处理和特征衍生构建信用风险类型的特征数据预处理特征的
分箱
Best-KSChiMerge卡方
分箱
法WOE编码WOE编码的意义变量筛选特征信息度单变量分析和多变量分析单变量分析多变量分析申请评分卡中的数据预处理和特征衍生构建信用风险类型的特征数据预处理
XindiOntheWay
·
2018-08-25 15:04
金融信贷风控
机器学习数据预处理和构建一个模型
经常做的一些数据预处理工作有:>对缺失值的处理>对类别型变量的值进行重新编码>把连续型变量进行
分箱
,然后再按照处理类别型变量的方式重新编码>对连续型变量进行标准化和归一化处理注意事项:以上的预处理工作并不是对所有问题都是必须要做的
Allen_Sword
·
2018-08-16 20:51
笔记
特征
分箱
有监督的卡方
分箱
法(ChiMerge)自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
猪逻辑公园
·
2018-08-09 09:49
机器学习
R绘图 第五篇:绘制散点图(ggplot2)
geom_dotplot,当使用geom_dotplot绘图时,point的形状是dot,不能改变点的形状,因此,geom_dotplot叫做散点图(ScatterPlot),通过绘制点来呈现数据的分布,对点
分箱
的方法有两种
悦光阴
·
2018-08-03 14:00
分箱
操作及数据的可视化柱形图(pandas)
数据结构如下:代码如下:importpandasaspdimportmatplotlib.pyplotaspltdata=pd.read_excel('ftx.xlsx')data=pd.DataFrame(data)a=data.query("年==2009&月in(4,5,6)&销售区域in('北京','上海','广州')").groupby(by='销售区域')['销售数量'].sum()a
Houser_qihao
·
2018-07-26 17:55
分箱
padas
可视化
为什么要进行数据
分箱
?
比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用
分箱
法。
光彩照人
·
2018-07-16 11:00
pyspark特征工程常用方法(一)
本文记录特征工程中常用的五种方法:MinMaxScaler,Normalization,OneHotEncoding,PCA以及QuantileDiscretizer用于
分箱
原有数据集如下图:1.MinMaxScalerfrompyspark.ml.featureimportMinMaxScaler
诗蕊
·
2018-07-11 00:00
机器学习
Spark
2018-06-28
2.技术层面:a)常规方法:手动构造特征,常用方法如下,哑变量转换(one-hot)特征
分箱
:
分箱
后的特征鲁棒性较好,计算速度较快、可进行特征交叉、较低过拟合风险等特征交叉:特征组合的子集;类似于笛卡尔积操作经典例子
来个芒果
·
2018-06-28 11:09
R语言数据挖掘-模型评估篇-谢佳标-专题视频课程
还介绍了等频
分箱
在企业中应用的价值。课程收益通过本课程学习,掌握常用的模型评估方法:混淆矩阵、ROC曲线、KS曲线、LIFT曲线、PSI等。
jiabiao1602
·
2018-06-28 09:00
视频教程
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他