E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分箱
特征工程之
分箱
比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用
分箱
法。
Pylady
·
2020-08-04 16:57
机器学习
详解卡方
分箱
及应用
最近在研究评分卡建模的流程,在特征处理的过程中涉及到
分箱
这一基本的常用技巧,本文就对
分箱
中的卡方
分箱
展开详细介绍。
Labryant
·
2020-08-04 15:29
风控
卡方
分箱
及代码实现
本文先从统计基础的卡方分布、卡方检验说起,之后再到卡方
分箱
的理解就比较容易,最后是利用Python如何实现卡方
分箱
。
胡桃夹子zy
·
2020-08-04 14:26
牛客(多校7):Mask Allocation
输入25433输出8444411113333题意:n*m个口罩,装最少的箱,使得在个数平均的情况下,既能
分箱
分给n个医院,也能分给m个医院。
Mr顺
·
2020-08-03 04:24
ACM
Nature综述:鸟枪法宏基因组-从取样到数据分析——2万字带你系统入门宏基因组实验和分析
实验设计中的问题和解决方案鸟枪法宏基因组学研究方案设计样本采集和DNA提取表1.在测序之前富集微生物细胞和DNA方法的优点和局限性文库制备和测序宏基因组拼接表2.基于已知成份的模拟群落评估宏基因组拼接表3.不同环境宏基因组拼接的比较重叠群
分箱
图
刘永鑫Adam
·
2020-08-02 14:05
宏基因组
papers
sklearn数据预处理和特征工程
文章目录1数据挖掘的五大流程2sklearn中数据处理和特征工程的模块3数据预测处理Preprocessing和Impute3.1数据无量纲化3.2缺失值3.3处理分类型特征3.4处理连续型特征:二值化和
分箱
yctjin
·
2020-08-01 07:47
sklearn机器学习
【特征工程】特征
分箱
对数据分析、机器学习、数据科学、金融风控等感兴趣的小伙伴,需要数据集、代码、行业报告等各类学习资料,可添加微信:wu805686220(记得要备注喔!),也可关注微信公众号:风控圏子(别打错字,是圏子,不是圈子,算了直接复制吧!)关注公众号后,可联系圈子助手加入如下社群:机器学习风控讨论群(微信群)反欺诈讨论群(微信群)python学习交流群(微信群)研习社资料(qq群:102755159)(
CS正阳
·
2020-08-01 00:57
基础:机器学习
交互特征与多项式特征
一、多项式特征想要丰富特征,特别是对于线性模型而言,除了
分箱
外,另一种方法是添加原始数据的交互特征和多项式特征。
Taohongfei_huster
·
2020-07-31 23:11
机器学习
sklearn
特征工程
算法与实战 - 常见的数据处理技巧
文章目录1.缺失值与异常值1.1缺失值处理1.2异常值处理2.数据转换2.1衍生变量2.2改变变量分布2.3
分箱
转换2.4数据归一化3.共线性问题3.1识别共线性3.2处理共线性4.变量筛选4.1线性相关指标筛选
茵茵的聪聪
·
2020-07-31 22:49
数据分析
【机器学习】逻辑回归特征的离散化与交叉
无监督方法:无监督方法都具有的问题就是都需要人为规定划分区间这个参数,常用的方法有
分箱
法和直观划分。
zhaosarsa
·
2020-07-31 21:24
机器学习
算法
特征工程中常用的操作
1.特征工程中常用的操作1.1数值型:幅度缩放(最大最小值缩放,归一化…)离散化/
分箱
分桶(等距:pd.cut,等频:pd.qcut)(特征交叉)统计值(Max,min,quentile)四则运算(加减乘除
CWJ的博客
·
2020-07-31 16:15
机器学习
逻辑回归专题02
逻辑回归案例1.逻辑回归制作评分卡1.1.数据的预处理1.2.
分箱
操作1.3.计算各箱WOE值并映射到数据1.4.建模及模型验证1.5.制作评分卡1.逻辑回归制作评分卡1.1.数据的预处理1、导入所需要的库
Winfred_Bo
·
2020-07-30 23:28
机器学习
python
机器学习
数据分析
Python模型上线 - 对sklearn2pmml转换自定义函数的探索
一、背景本地Python训练LR模型,做了WOE
分箱
,需转成PMML文件上线,希望PMML文件既包含数据处理部分又包含模型打分部分。
lalahu_123
·
2020-07-30 21:35
sklearn库之数据表示与特征工程
二、
分箱
(离散化):主要针对线性模型三、交互特征与多项式特征四、单变量非线性变换part1总结五、自动化特征选择(主要用到sklearn.feature_selection)5.1单变量统计5.
xylbill97
·
2020-07-30 06:26
机器学习
机器学习第三周-数据预处理和特征工程
如果将数据进行归一化处理可以消除量纲对特征的影响常用的归一化方式有两种:最值归一化:Xs=(X–Xmin)/(Xmax–Xmin)适用于特征有明显边界的情况均值方差归一化:Xs=(X–Xmean)/S适用于特征有极端值的情况二、数据离散化(
分箱
繁华落幕_0f7c
·
2020-07-30 02:33
十二、案例:加利福尼亚房屋价值数据集(多元线性回归)& Lasso & 岭回归 &
分箱
处理非线性问题 & 多项式回归
案例:加利福尼亚房屋价值数据集(线性回归)&Lasso&岭回归&
分箱
处理非线性问题点击标题即可获取文章源代码和笔记1.导入需要的模块和库fromsklearn.linear_modelimportLinearRegressionasLRfromsklearn.model_selectionimporttrain_test_splitfromsklearn.model_selectionimport
小小白学计算机
·
2020-07-28 22:51
机器学习
特征预处理- Kaggle比赛必须了解的数据预处理
np.log([1,2,3,4])np.exp([1,2,3,4])离散化importnumpyasnpimportpandasaspdlst=[6,8,10,15,23,24,25,40,67]#等深
分箱
sapienst
·
2020-07-28 19:36
数据分析
Kaggle比赛
机器学习
平
分箱
子好玩吗?
看来官微还在以箱子大战洋洋自得,还在宣传岳云鹏赢到箱子的事!嗨,大家好!虫子天下谈娱乐第三百六十九期上线啦!上一期,虫子天下给大家说的是,在极限挑战官微的宣传当中,给上一期节目当中成员们在节目中的表现,分别打上了分数。其中黄磊、张艺兴、岳云鹏都是满分100分,而罗志祥和迪丽热巴都是80分,垫底,你认同吗?这一期,咱们继续来聊聊综艺节目《极限挑战》的话题。号虫子天下原创娱乐点评,禁止抄袭!今天是周三
虫子天下
·
2020-07-28 11:12
机器学习:信用风险评估评分卡建模方法及原理
评分卡并不加单对应于某一种机器学习算法,而是一种通用的建模框架,讲原始数据通过
分箱
后进行特征工程变换,继而应用于线性模型进行建模的一种方法。课时列表:课时1:信用风险评估评分卡建模方法及原
阿里云大学百科
·
2020-07-28 09:46
如何用「逻辑回归」构建金融评分卡模型?(下)
评分卡模型的开发4.3WOE编码
分箱
之后我们便得到了一系列的离散变量,下面需要对变量进行编码,将离散变量转化为连续变量。WOE编码是评分卡模型常用的编码方式。
Sim1480
·
2020-07-28 02:11
python
机器学习
人工智能
数据分析
深度学习
WOE&IV编码&
分箱
IV概念:IV的全称是InformationValue,中文意思是信息价值,或者信息量。作用:构建分类模型时,对特征进行筛选,挑选特征时用来衡量自变量(特征)的预测能力”用IV去衡量变量预测能力“的理解我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的样本A,要判断A属于Y1还是Y2,我们是需要一定的信息,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的待预测样本
浅笑_7cad
·
2020-07-27 23:08
使用pandas中的cut方法对数据进行
分箱
操作
Pandas库中的cut()方法可以用来对数据进行
分箱
操作:nums=np.random.uniform(0,100,size=30)#随机生成0-100之间的30个数字nums=np.round(nums
沐风大大
·
2020-07-27 21:00
机器学习
python
数据分析
数据预处理和特征工程
目录数据挖掘的五大流程数据预处理(preprocessing)数据归一化数据标准化缺失值处理处理离散型特征和非数值型标签处理连续型特征二值化
分箱
特征选择(featureselection)特征提取(featureextraction
xiaoxia0722
·
2020-07-24 14:00
python 基于卡方值
分箱
算法的实现示例
原理很简单,初始分20箱或更多,先确保每箱中都含有0,1标签,对不包含0,1标签的箱向前合并,计算各箱卡方值,对卡方值最小的箱向后合并,代码如下importpandasaspdimportnumpyasnpimportscipyfromscipyimportstatsdefchi_bin(DF,var,target,binnum=5,maxcut=20):'''DF:datavar:variabl
·
2020-07-19 10:48
信用评分卡模型建立总结
评分卡笔记1.评分卡流程评分卡的流程主要是以下的几个步骤:1.数据预处理观察数据处理数据中的缺失值与异常值2.卡方数据
分箱
分箱
完成后将原始数据的值替换成woe的值3.特征选择将特征中相关性强的特征组合相关系数高的去除掉
Be_Alone
·
2020-07-16 06:41
机器学习
Pandas学习笔记04-数据清洗(缺失值与异常值处理)
文章目录1.查看缺失值2.删除缺失值3.填充缺失值4.值的替换5.离散化与
分箱
6.异常值过滤之前我们介绍过通过索引获取自己想要的数据,这节我们介绍在数据清洗过程中遇到缺失值、异常值时的一些处理方式以及我们需要对某列的值就行分组的时候怎么解决
可以叫我才哥
·
2020-07-15 22:24
Python数据分析
Python 信用卡评分模型 自动
分箱
&逻辑回归&制作评分卡
importnumpyasnpimportpandasaspdfromsklearn.clusterimportKMeansfromstatsmodels.stats.outliers_influenceimportvariance_inflation_factorimportstatsmodels.apiassmfromsklearn.model_selectionimporttrain_tes
skadi17
·
2020-07-15 06:46
IV WOE & 评分卡 &
分箱
数据
分箱
:对连续变量离散化;实际上就是按照属性值划分的子区间,可以简单理解为分段处理(不同的是对特征进行
分箱
后,需要对
分箱
的每组进行woe编码进行
分箱
评估,才能放进模型训练);意义:1.模型更稳定,特征离散化后
Selieyo
·
2020-07-14 22:48
Machine
Learning
Python 实战之淘宝手机销售分析(数据清洗、可视化、数据建模、文本分析)
文章目录一、数据介绍二、数据清洗导入数据缺失值处理+合并清洗时间参数清洗价格数据清洗发货城市数据价格
分箱
手机参数信息提取三、可视化分析淘宝在售手机价格区间统计商品现价&原价对比手机类型分布词云图绘制手机品牌词云图不同品牌手机总销量比较月销量气泡图收藏量与价格分析不同价格等级总销量饼图总销售额构成分析
赵小刀的小锦囊
·
2020-07-14 09:55
Python
实战分析
dataframe数据报NaN和infinite错误
于是想看看报错处的数据长什么样:发现输入数据确实存在nan值,进一步分析发现是由
分箱
范围不当引起的解决问题:问题总结:从上面示例可以看出,按区间划分数据是左开右闭的,da
try2find
·
2020-07-13 14:22
算法
python
机器学习
包裹
分箱
算法
包裹
分箱
简单算法算出临界值
分箱
数量加1/***预估
分箱
算法*@return*/privateTuple2calculateFareAndNums(Listlist,PxChannelPriceprice
zktsx
·
2020-07-12 20:49
算法
python_等频
分箱
_等距
分箱
_特征无监督分桶
python_等频
分箱
_等距
分箱
data_temp=data#
分箱
:等距等频
分箱
#等距
分箱
#bins=10
分箱
数data_temp['deposit_cur_balance_bins']=binning
御剑归一
·
2020-07-12 15:26
Python
python实现连续变量最优
分箱
--CART算法
关于变量
分箱
主要分为两大类:有监督型和无监督型对应的
分箱
方法:A.无监督:(1)等宽(2)等频(3)聚类B.有监督:(1)卡方
分箱
法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法
贾杰森
·
2020-07-12 11:48
python
数据分析
python 数据处理之
分箱
操作
什么是
分箱
?
yuxj记录学习
·
2020-07-12 11:03
学习
学习笔记
python的等深
分箱
背景当前很多文章尝试过最优
分箱
,python上也有cut等方法进行等宽
分箱
。为了方便日后输出结果以及
分箱
要求。做一个简单的轮子以供大家日后使用。
Damon_guang
·
2020-07-12 11:45
【数据建模 特征
分箱
】特征
分箱
的方法
有监督的卡方
分箱
法(ChiMerge)自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
开心果汁
·
2020-07-12 03:11
数据科学--机器学习
R语言︱噪声数据处理、数据分组——
分箱
法(离散化、等级化)
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~———————————————————————————
分箱
法在实际案例操作过程中较为常见,能够将一些数据离散化
悟乙己
·
2020-07-11 23:51
R︱数据操作与清洗
R的数据操作与清洗
python 等深
分箱
等宽
分箱
结合二
分箱
的数据分析
python等深
分箱
等宽
分箱
结合二
分箱
的数据分析Python里可以通过pcut(等深
分箱
每箱的样本量基本一致)和cut(等宽
分箱
样本量之间有相同的宽度)对样本进行
分箱
。详见如下代码部分。
SunShine2025
·
2020-07-11 22:51
Python基础
机器学习
宏基因组
分箱
后续
宏基因组
分箱
后续1.
分箱
流程2.代谢潜能分析2.1代谢通路构建2.2基因簇分析3.进化树构建3.1物种选择3.1.1如何从NCBI批量下载genome数据3.2进化树构建3.2.1序列选择用16SrRNA
ruby912
·
2020-07-11 22:36
宏基因组
Python 自定义
分箱
pd.read_excel(r'E:\lll\202004\sx_info.xlsx')fx_variable=pd.read_excel(r'E:\lll\202004\fx_variable.xlsx')#获取
分箱
列表
qq_42898981
·
2020-07-11 20:01
python
学习
python实现excel lookup功能
0409.xlsx')#读取原始数据fx_variable=pd.read_excel(r'E:\lusiru\202004\20200402随心降额名单筛选\fx_variable.xlsx')#读取
分箱
列表
qq_42898981
·
2020-07-11 20:30
python
学习
python实现excel 的lookup函数
r'E:\lll\\sx_customer_0409.xlsx')#读取数据fx_variable=pd.read_excel(r'E:\lll\202004\\fx_variable.xlsx')#读取
分箱
列表
qq_42898981
·
2020-07-11 20:30
python
学习
分箱
、离散化、线性模型和树
数据表示的最佳方法不仅取决于数据的语义,还取决于所使用的模型的种类。线性模型与基于树的模型(比如决策树、梯度提升树和随机森林)是两种成员很多同时又非常常用的模型,它们在处理不同的特征表示时就具有非常不同的性质。本节以wave数据集为例,它只有一个输入特征。1.线性回归模型和决策树回归在数据集上的对比fromsklearn.linear_modelimportLinearRegressionfrom
Taohongfei_huster
·
2020-07-11 20:03
机器学习
sklearn
特征工程
数据
分箱
数据
分箱
是数据分析中比较常用的方法,理顺以后一点也不难。
蓝天ing
·
2020-07-11 14:27
python
处理等深
分箱
深度不为整数的处理方法 equi-depth binning
@划分(Binning)遇到处理等深
分箱
深度不为整数的处理方法N=[1,2,3,4,5,6]bins=4那么我们划分的深度就是depth=N/bins=1.5>0每个
分箱
给约1.5,这里其实可以进行拆分将
liuhehe123
·
2020-07-11 11:47
机器学习
数据结构
分箱
合并的标准
数据如下图所示,当bad_rate为0时,与最小的非0的bad_rate行合并。即home_ownership取NONE和取MORTGAGE的情况。regroup=regroup.sort_values(by='bad_rate',ascending=False)#先进行排序regroup.index=range(regroup.shape[0])#重新调整序号。这个方法有意思,免去index_r
lishangyin88
·
2020-07-11 11:39
python
学习笔记
IV值
由于各个变量的量纲和取值区间存在很大的差别,通常会对变量的取值进行
分箱
并计算证据权重WOE值(weightofevidence),从而降低变量属性的个数,并且平滑的变量的变化趋势。接下来,在此基
lingan_Hong
·
2020-07-11 11:03
数据挖掘
数据
分箱
的适用情形
数据
分箱
是下列情形下常用的方法:1.某些数值自变量在测量时存在随机误差,需要对数值进行平滑以消除噪音。
伙伴几时见
·
2020-07-11 08:11
数据挖掘
最核心的特征工程方法-
分箱
算法
分箱
算法简介先来讲讲什么是
分箱
算法,根据字面意思就是把数据按照不同的规则分到不同的箱子里。其实
分箱
是特征工程的一种,可以理解为一种连续数据变为离散数据的建模方式。
李博Garvin
·
2020-07-11 06:51
机器学习
利用pandas实现连续数据的离散化处理(
分箱
操作)
Python实现连续数据的离散化处理主要基于两个函数,pandas.cut和pandas.qcut,前者根据指定分界点对连续数据进行
分箱
处理,后者则可以根据指定箱子的数量对连续数据进行等宽
分箱
处理,所谓等宽指的是每个箱子中的数据量是相同的
gong_xucheng
·
2020-07-11 06:34
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他