E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
woe分箱
pandas中的cut和qcut
文章目录1.cut2.qcut总体印象:cut和qcut都是用来对数据进行简单的
分箱
处理,其不同之处在于(1)qcut是一个等频
分箱
,按照分位数进行
分箱
,每个箱体里面的样本量相同,输入的是待切分数据和箱体的个数
Charming&M
·
2022-12-03 00:42
python
python
pandas的离散化和
分箱
基础
cut:1、将列表给离散化首先要用到pandas中cut,pandas.cut(字典或者列表,分割箱子的个数或者显示的箱边)它将你给数据自动进行分组首先我们创建一个列表然后将这些年龄分为18到25、26到35、36到60、60到100,然后使用cut将其进行离散化:2、使用codes属性将其范围转变成序列的形式:3、pandas返回的对象是一个特殊的Categorical对象。然后调用catego
zxk234
·
2022-12-01 10:22
python
pandas 数学和统计方法&数据排序&
分箱
操作(7)
2.median()#中位数3.分位数4.其他二、索引标签、位置获取(最大值、最小值)三、更多统计指标四、高级统计指标数据排序部分五、数据排序1.索引列名排序2.属性值排序3.返回属性n大或者n小的值
分箱
操作六
周小唁
·
2022-12-01 10:21
NumpyStudy
python
Pandas 对数值进行
分箱
操作的 4 种方法
分箱
是一种常见的数据预处理技术有时也被称为分桶或离散化,他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中,我们将讨论使用pythonPandas库对数值进行
分箱
的4种方法。
欣一2002
·
2022-12-01 10:20
python
数据分析
java
大数据
numpy
python学习之:pandas 使用函数或者映射进行数据替换;pandas 离散化数据和
分箱
文章目录函数或映射进行值替代
分箱
按照指定的边界值来
分箱
按照指定的分位数进行
分箱
函数或映射进行值替代df=pd.DataFrame([['jeff',18],['herry',20],['chris',25
暖仔会飞
·
2022-12-01 10:46
日常学习
Python学习笔记
Python数据分析与挖掘
python
学习
数据挖掘
【Pandas数据处理100例】(八十八):Pandas使用qcut()按照分位数离散化
分箱
前言大家好,我是阿光。本专栏整理了《Pandas数据分析处理》,内包含了各种常见的数据处理,以及Pandas内置函数的使用方法,帮助我们快速便捷的处理表格数据。正在更新中~✨我的项目环境:平台:Windows10语言环境:python3.7编译器:PyCharmPandas版本:1.3.5Numpy版本:1.19.3『精品学习专栏导航帖』【Pandas数据处理100例目录】Python数据分析玩转
咕 嘟
·
2022-12-01 10:08
Pandas数据处理100例
pandas
python
开发语言
人工智能
深度学习
信用评分卡模型分析(基于Python)--python实现
上一篇文章信用评分卡模型分析(理论部分)已经介绍了信用评分卡模型的数据预处理、探索性数据分析、变量
分箱
和变量选择等。
python机器学习建模
·
2022-12-01 09:10
python风控模型
python
机器学习
信用评分卡
评分卡
风控
评分卡--基础分、基准分、PDO、
WOE
、补偿、刻度 行可可
评分卡–基础分、基准分、PDO、
WOE
、补偿、刻度行可可下面通过公式和简单的举例说明评分卡的要素关系和代表的实际意义1、基础分是什么?2、基准分又是什么?3、坏好比翻一倍具体值的是?
weixin_44913707
·
2022-11-30 15:03
风控策略
数据挖掘
人工智能
python具有可扩展的特性_扩展特征的三个方法《Python机器学习》之十五
分箱
、离散化、线性模型与树数据表示的最佳方法不仅取决于数据的语义,还取决于所使用的模型种类。
weixin_39680121
·
2022-11-30 06:42
python具有可扩展的特性
转:IV值和
WOE
值的理解
转自:https://blog.csdn.net/njliaojiang817/article/details/904097991.IV的用途IV的全称是InformationValue,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一
夏天7788
·
2022-11-29 12:15
机器学习之回归
算法
python评分卡1_
woe
与IV值
本系列分以下章节:python评分卡1_
woe
与IV值python评分卡2_
woe
与IV
分箱
方法python评分卡3_
woe
与IV
分箱
实现python评分卡4_logistics原理与解法_sklearn
雪龙无敌
·
2022-11-29 11:14
python评分卡
python
人工智能
python
woe
分箱
_python数据处理--
WOE
分箱
数据
分箱
的重要性离散特征的增加和减少都很容易,易于模型的快速迭代;稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。
二货哈士奇
·
2022-11-29 11:14
python
woe分箱
woe
分析_机器学习-谈谈逻辑回归里面的
woe
化-20170911
1、
woe
是什么东西如果有人接触过信用评分卡,那么肯定是有看过在变量处理那一步,有一个变量
woe
的过程。那么
woe
是如何计算的呢,有什么具体含义呢。
weixin_39615741
·
2022-11-29 11:14
woe分析
IV值和
WOE
值的理解
1.IV的用途IV的全称是InformationValue,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复杂
EricMachineLearning
·
2022-11-29 11:41
信贷风控
互金/风控模型
逻辑回归算法深度思考-优点和缺点
之前《python信用评分卡建模(附代码)》介绍了逻辑回归评分卡模型的各个细节,包括各种
分箱
方法,
woe
和iv原理和Excel保姆级推导,变量badrate单调性,坏客户定义,逻辑回归调参等等。
python机器学习建模
·
2022-11-29 11:10
python风控模型
回归
数据挖掘
人工智能
逻辑回归
机器学习
逻辑回归-关于
WOE
和IV的一些理解
本文主要解决为什么
WOE
能用于逻辑回归建模写到最后才发现出问题了这里认为少数类为good,就是正类理解
WOE
和IVIV的定义公式IV=∑i=1N(good%−bad%)×WOEi\text{IV}=\sum
烧灯续昼2002
·
2022-11-29 11:39
烧灯续昼的笔记
逻辑回归
人工智能
sklearn
回归
【图多预警】Pandas绘图函数总结
文章目录简介条形图折线图箱线图直方图饼图散点图和六边形
分箱
图简介pandas中提供了plot函数用以绘图,并通过kind参数选择具体的图像类型。
微小冷
·
2022-11-29 11:29
Python
pandas
python
数据分析
画图
数据可视化
特征分桶的方法
有什么数据支撑划分的合理性,一般常用
WOE
与IV值结合进行判断。1、
WOE
:WeightOfEvidence计算公式:即(某一桶坏客户数/总的坏客户数)/(某一桶好客户数/总的好客户数)=
hhhh106
·
2022-11-29 09:35
数据挖掘
特征工程——连续特征离散化
分箱
常见的
分箱
方法背景等宽
分箱
等频
分箱
聚类
分箱
(关键)有监督
分箱
背景 在实际模型训练过程中,对连续型字段进行离散化处理,也就是将连续性字段转化为离散型字段。
同道而为之。
·
2022-11-28 11:08
python
人工智能
证据权重 (
WOE
) 与信息价值 (IV)
这两个概念——证据权重(
WOE
)和信息价值(IV)从相同的逻辑回归技术演变而来。这两个术语在信用评分领域已经存在超过4-5年了。它们已被用作筛选信用风险建模项目中的变量(例如违约概
python机器学习建模
·
2022-11-28 09:33
python风控模型
woe
iv
证据权重
风控
评分卡模型
【风控】评分卡建模的流程和要点
评分卡建模的流程和要点一、数据预处理1、数据去重:删除重复的样本2、缺失值处理:确定缺失值的标记,统一转化为统一标记的缺失值(null或者Nan),后续
分箱
进行处理。
我叫陈叉叉叉叉
·
2022-11-28 09:28
机器学习鸭
python
评分卡
sklearn专题五:用逻辑回归制作评分卡
3.2.5样本不均衡问题3.2.6分训练集和测试集3.3
分箱
3.3.1等频
分箱
3.3.2【选学】确保每个箱中都有0和13.3.3定义
WOE
和IV函数3.3.4卡方检验,合并箱体,画出IV曲线3.3.5用最佳
分箱
个数
分箱
Colorfully_lu
·
2022-11-28 08:06
sklearn
逻辑回归
人工智能
pd.qcut()数据
分箱
数据
分箱
pd.qcut()参数介绍qcut函数是一个与
分箱
密切相关的函数,它基于样本分位数进行
分箱
,可以通过qcut获得等长的箱:pd.qcut(x,q,labels=None,retbins=False
一尺荷叶
·
2022-11-28 08:06
数据分析
python
【菜菜的sklearn课堂笔记】逻辑回归与评分卡-用逻辑回归制作评分卡-
分箱
视频作者:菜菜TsaiTsai链接:【技术干货】菜菜的机器学习sklearn【全85集】Python进阶_哔哩哔哩_bilibili分训练集和测试集fromsklearn.model_selectionimporttrain_test_splitX=pd.DataFrame(X)y=pd.DataFrame(y)Xtrain,Xtest,Ytrain,Ytest=train_test_split(
烧灯续昼2002
·
2022-11-28 08:35
菜菜的sklearn课堂
sklearn
逻辑回归
人工智能
python
python常用函数(1):数据预处理常用到的
文章目录二、数据预处理常用到的1.查看某一数占总数的比例和某一列最大数2.查看里面的类别3.删除两列5.提取两行4.pd.cut()和pd.qcut()
分箱
5、.groupby()函数3.归一化2.4处理连续型特征
xiao52x
·
2022-11-26 18:42
菜菜-机器学习
python
机器学习
逻辑回归制作评分卡
2.5样本不均衡问题2.6分训练集和测试集3.
分箱
3.1等频
分箱
3.2确保每个箱中都有0和13.2.1方法一方法二(在下面合并函数的时候也是使用的这种方法)3.3定义
WOE
和IV函数3.4卡方检验,合并箱体
功夫大笨鲨
·
2022-11-26 08:40
逻辑回归学习笔记
逻辑回归
机器学习
人工智能
机器学习sklearn-逻辑回归制作评分卡
目录1导入数据查看相关信息2数据预处理2.1去重复值+更新索引2.2填补缺失值2.3处理易操作2.4划分训练集和测试集并保存3
分箱
1导入数据查看相关信息2数据预处理2.1去重复值+更新索引删除重复数据以后
kongqing23
·
2022-11-26 08:38
机器学习
sklearn
逻辑回归
使用逻辑回归制作信用卡评分卡
目录一、摘要二、数据集介绍三、数据探索四、数据预处理五、
分箱
处理六、建模与评价一、摘要本文基于kaggle上GiveMeSomeCredit数据和菜菜的sklearn课堂的处理思路,结合信用卡评分构建原理
breeze199511
·
2022-11-26 08:36
数据挖掘
人工智能
机器学习
逻辑回归
2022-02-08 读书笔记:《精通特征工程》1 基础特征工程
:2022-02-08学习目标:“通过Python示例掌握特征工程基本原则和实际应用,增强机器学习算法效果”;目录第1章机器学习流程:数值模型特征第2章简单而奇妙的数值:数值型数据的基础特征工程,过滤
分箱
缩放对数变换和幂次变换
baby_hua
·
2022-11-25 07:29
深度学习
学习
python
机器学习
特征工程
城市空气质量分析与预测
数据清洗1、缺失值1.1、缺失值探索1.2、缺失值处理1、数据分布2、填充数据2、异常值2.1、异常值探索1、describe方法2、3σ的方式3、箱线图2.2、异常值处理1、对数转换2、使用边界值替换3、
分箱
离散化
孙若堃
·
2022-11-23 13:32
python
数据分析
sklearn_Lasso与多项式回归_菜菜视频学习笔记
lasso与多项式回归1Lasso与多重共线性1.1Lasso强大的特征选择能力1.2选取最佳正则化参数2.非线性问题:多项式回归2.1使用
分箱
处理非线性问题2.2多项式回归PolynomialFeatures2.2.1
chenburong2021
·
2022-11-23 11:01
sklearn
线性回归
python
机器学习
python基础教程四级查数据_《Python机器学习基础教程》四、数据表示与特征工程...
特别是线性模型,可能会从
分箱
、添加多项式和交互项而生成的新特性中大大受益。对于更加复杂的非线性模型(比如随机森林和SVM),在无需显式扩展特征空间的前提下就可以学习更加复杂的任务
weixin_39929465
·
2022-11-22 19:22
python基础教程四级查数据
精通特征工程 —— 2.简单得数字奇特技巧
文章目录1.二值化2.区间量化(
分箱
)3.对数变换4.特征缩放归一化5.交互特征6.特征选择精通特征工程pdf:链接:https://pan.baidu.com/s/11AFe7LgjYnf56XcpI_wNKw
倩mys
·
2022-11-22 14:13
数据挖掘
时间序列预测 | Python实现LightGBM模型时间序列预测
实现LightGBM模型时间序列预测基本介绍程序设计总结基本介绍创建一个基于LightGBM并且适合个人使用的时间序列的快速建模程序.程序设计在查看单变量空间中树的其他实现时都会看到一些特征工程,例如
分箱
小橘算法屋
·
2022-11-22 12:38
时间序列分析(Python)
数据统计分析
数据分析应用
python
深度学习
时序模型
【逻辑回归】逻辑回归sigmoid函数的由来
在学习评分卡时,又很奇怪,怎么把逻辑回归和
WOE
,IV(证据权重、信息量)联系在一起,总感觉和教材中的不一样,但查找资料,却
老饼讲解机器学习
·
2022-11-22 09:11
机器学习
#
逻辑回归
逻辑回归
机器学习
评分卡实例:一步一步实现评分卡(详细长文)
老饼讲解-机器学习http://ml.bbbdata.com/teach/26目录(前言一)数据说明(前言二)评分卡建模步骤概述一.变量分析、选择与
分箱
处理(一)使用badRate法(或iv法)分析变量
老饼讲解机器学习
·
2022-11-22 09:41
#
评分卡
机器学习
关于特征工程方法和应用的总结
数据结构化数据非结构化数据1.2常用特征处理方法1.2.1类别特征独热编码哈希编码标签编码频数编码Label-count编码目标编码嵌套法NaN编码多项式编码扩展编码合并编码1.2.2数值特征四舍五入数据
分箱
取对数特征缩放归一化错误数据和缺失数据的处理交叉特征线性算法的非线性编码行统计
yougwypf1991
·
2022-11-22 02:18
人工智能
机器学习
机器学习
特征工程
特征
Pandas数据转换
目录一、数据转换离散化与
分箱
等长
分箱
等量
分箱
二、数据的连接1.内联2.左联3.右联4.外联数据合并一、数据转换df['字段'].map(dict)map函数需要我们利用字典来将我们字段所对应的映射关系传入
桜キャンドル淵
·
2022-11-21 11:05
python基础
python
机器学习
开发语言
PCL点云数据 滤波降噪
86294496为什么进行点云滤波处理:(1)点云数据密度不规则需要平滑;(2)因为遮挡等问题造成离群点需要去除;(3)大量数据需要下采样;(4)噪声数据需要去除;点云数据去噪滤波方法:双边滤波、高斯滤波、
分箱
去噪
AI视觉网奇
·
2022-11-21 08:56
pcl学习
c++基础
机器学习
算法
天池教学赛:银行客户认购产品预测
目录前言一、赛题背景二、数据探索1.读取数据2.查看数据统计量duration
分箱
展示3.查看数据分布4.数据相关图5.其它变量可视化展示三、数据建模四、特征输出五、最终成绩前言本次比赛数据集质量比较好
wjzeroooooo
·
2022-11-21 05:05
数据挖掘
Python
数据挖掘
python
python评分卡2_
woe
与IV
分箱
方法
本系列分以下章节:python评分卡1_
woe
与IV值python评分卡2_
woe
与IV
分箱
方法python评分卡3_
woe
与IV
分箱
实现python评分卡4_logistics原理与解法_sklearn
雪龙无敌
·
2022-11-20 06:51
python评分卡
python
数据挖掘
人工智能
python评分卡3_
woe
与IV
分箱
实现
本系列分以下章节:python评分卡1_
woe
与IV值python评分卡2_
woe
与IV
分箱
方法python评分卡3_
woe
与IV
分箱
实现python评分卡4_logistics原理与解法_sklearn
雪龙无敌
·
2022-11-20 06:51
python评分卡
python
人工智能
机器学习
sklearn_逻辑回归制作评分卡_菜菜视频学习笔记
逻辑回归制作评分卡3.0前言逻辑回归与线性回归的关系消除特征间的多重共线性为什么使用逻辑回归处理金融领域数据正则化的选择特征选择的方法
分箱
的作用3.1导库3.2数据预处理3.2.1去重复值3.2.2填补缺失值
chenburong2021
·
2022-11-20 03:04
sklearn
逻辑回归
机器学习
python
详解风控模型中的逻辑回归评分卡与模型评估内容
今天我们来输出一篇风控长文,关于大家熟悉关注的逻辑评分卡的开发的内容,文章篇幅较长,大纲目录如下:建模前准备1.1特征预处理与转化1.2特征衍生与提取1.3特征选择与降维
分箱
2.1
分箱
概述2.2
分箱
方法
番茄风控
·
2022-11-17 11:58
番茄风控大数据公众号
逻辑回归
算法
风控童鞋,建议都好好学一下这份手动的特征
分箱
申请信用评分卡模型(A卡),对于从事金融信贷风控领域的小伙伴来讲是非常熟悉的,在贷前风控流程中通过一定的评分逻辑规则,对申请用户的信用能力或风险情况进行评估,并结合风控决策阈值实现申请进件的最终审批状态(通过或拒绝)。因此,A卡模型在实际业务应用中的价值不言而喻。由于以上业务场景从模型角度分析,属于二分类模型,在数据建模过程中我们可采用的机器学习算法有很多选择,常见的有逻辑回归、随机森林、XGBo
番茄风控
·
2022-11-16 20:01
番茄风控大数据公众号
数据挖掘
机器学习
推荐算法
【
分箱
操作】决策树、卡方、分位数、等距和映射
分箱
操作代码实现
TableofContents1数据准备2决策树
分箱
3分位数
分箱
4等距和等距log映射5卡方
分箱
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_breast_cancerimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassns
我叫陈叉叉叉叉
·
2022-11-16 20:01
贷款违约预测
机器学习鸭
数据
分箱
1——人工手动
分箱
人工手动
分箱
,是指已经有了标准,比如:60分以下不合格,60-80合格,80+优秀可以使用pandas.cut进行
分箱
,更多用法可以参考官方文档:https://pandas.pydata.org/docs
呆萌的代Ma
·
2022-11-16 20:00
机器学习
特征工程
数据挖掘
python 最优
分箱
_python最优
分箱
中
woe
计算(求大圣)
#coding=gbkimportpandasaspdimportnumpyasnpimportscipy.statsasstatsdeffenzu(Y,X,n=20):r=0bad=Y.sum()good=Y.count()-badwhilenp.abs(r)<1:d1=pd.DataFrame({"X":X,"Y":Y,"Bucket...#coding=gbkimportpandasaspd
weixin_39761822
·
2022-11-16 20:00
python
最优分箱
风控建模二、特征工程---风控
目录目录一、
分箱
1.1Best-KS1.2卡方
分箱
法(ChiMerge)二、
WOE
和IV2.1两种
woe
处理分类问题。
沐自礼
·
2022-11-16 20:59
风控
人工智能
机器学习
人工智能
机器学习
数据挖掘
算法
python
OptBinning 特征
分箱
包使用介绍
OptBinning特征
分箱
包使用介绍OptBinning:支持数值型和分类型的最大IV
分箱
,并可保证
分箱
单调性,同事方便处理缺失值。
我叫陈叉叉叉叉
·
2022-11-16 20:58
机器学习鸭
python
特征处理
特征分箱
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他