E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
woe分箱
数据
分箱
方法
woe
编码_功能工程深入研究编码和
分箱
技术
数据
分箱
方法
woe
编码Featureengineeringisthemostimportantaspectofadatasciencemodeldevelopment.Thereareseveralcategoriesoffeaturesinarawdataset.Featurescanbetext
weixin_26704853
·
2023-10-29 11:45
python
java
人工智能
机器学习
大数据
评分卡中
WOE
和IV详解 Python实现
信用评分卡模型是信用风险评估中普遍使用的模型,而在模型建立过程中,一般采用
WOE
(WeightOfEvidence证据权重)对自变量进行编码,并根据IV(InformationValue信息量)作为变量筛选指标
猫新人
·
2023-10-29 11:45
金融风控
机器学习
python
6 机器学习 IV与
WOE
分箱
过抽样与欠抽样
机器学习1IV与
WOE
1.1IVIV,InformationValue,指的是信息价值或者信息量。IV可以理解为特征筛选的量化指标,用于衡量数据特征的预测能力或者在模型预测过程中对预测结果的影响程度。
Jianhao92
·
2023-10-29 11:41
机器学习
python
机器学习
WOE
编码与IV值
1.
woe
又叫证据权重,用来衡量对先验认识修正的增量2.
woe
的实质是表示当前
分箱
中好坏客户的各自占总体好坏客户比例的差异3.
woe
可以将非线性变量线性处理化,提高业务解释性4.
woe
能消除异常值的影响
整得咔咔响
·
2023-10-29 11:11
金融风控
机器学习
人工智能
数据分析
大数据
数据挖掘
特征筛选【IV和
WOE
】
特征筛选【IV和
WOE
】目录特征筛选【IV和
WOE
】1.概述2.应用3.计算方法3.1
WOE
3.2IV4.
分箱
4.1pandas实现数据
分箱
1.概述IV和
WOE
通常是用在对模型的特征筛选中,在模型刚建立时
图图淘气
·
2023-10-29 11:10
#
机器学习笔记
人工智能
IV
WOE
特征筛选
【风控模型】
WOE
编码与IV值
**
WOE
:**证据权重(WeightofEvidence),
WOE
编码是评分卡里面重要的特征转换方法,可以将非线性变量线性化处理,提高业务解释性,同时能够消除异常值的影响,减少小概率事件对最终评分影响的权重
东海029
·
2023-10-29 11:39
机器学习
风控ML[5] |
WOE
前的
分箱
一定要单调吗
今天分享的
WOE
单调性讨论,也是我们在建模过程中选择特征进行模型前需要考虑的一个细节问题。关于
WOE
,可以参考一下前面的文章回顾一下哈,《风控ML[3]|风控建模的
WOE
与IV》。
Pysamlam
·
2023-10-29 11:06
人工智能
机器学习
大数据
java
python
风控ML[3] | 风控建模的
WOE
与IV
第一次接触这两个名词是在做风控模型的时候,老师教我们可以用IV去做变量筛选,IV(InformationValue),中文名是信息值,简单来说这个指标的作用就是来衡量变量的预测能力强弱的,然后IV又是
WOE
Pysamlam
·
2023-10-29 11:35
python
机器学习
人工智能
大数据
深度学习
机器学习之IV编码,
分箱
&
WOE
编码
2、挑选特征的过程考虑的因素比较多,最主要和最直接的衡量标准是特征的预测能力,而IV就是用来衡量自变量(也就是特征)的预测能力IV需要用到
WOE
,而
WOE
是建立在
分箱
之上的
分箱
:数据
分箱
:是一种数据预处理技术
qq_38404903
·
2023-10-29 11:34
机器学习
人工智能
宏基因组学研究—宏基因组Reads的组装与分类/
分箱
1.高通量测序是探索宏基因组学研究的一个工具1.1与参考基因组进行Mapping来重构宏基因组Reads许多微生物未被分离,数据库中无相关信息;利用宏基因组Reads与当前已知数据库进行比较分析,可以对数据产生新的理解;已测序的基因组是宏基因组Reads来源确定最可靠的基础,探索与先前基因组密切相关的生物体基因组结构;从独立测序转变成从环境中直接测序感兴趣的生物体的开始;已分离微生物但未测序的数量
JarySun
·
2023-10-26 09:10
Python手搓C4.5决策树+Azure Adult数据集分析
AzureOpenDatasets|MicrosoftLearn数据集预处理删除难以处理的权重属性fnlwgt与意义重复属性educationNum去除重复行与空行删除包含异常值的数据处理连续值属性年龄数据
分箱
cqbzcsq
·
2023-10-25 15:12
机器学习
总结
1024程序员节
机器学习——特征工程之分类变量
机器学习——特征工程之分类变量前言分类变量的编码1、one-hot编码2、虚拟编码3、效果编码处理大型分类变量1、特征散列化2、
分箱
计数总结前言关于特征工程,已经对空值、数值型和文本数据的处理做了大致方法的说明
macan_dct
·
2023-10-25 00:25
特征工程
机器学习
特征工程
金融风控-- >申请评分卡模型-- >特征工程(特征
分箱
,
WOE
编码)
这篇博文主要讲在申请评分卡模型中常用的一些特征工程方法,申请评分卡模型最多的还是logsitic模型。先看数据,我们现在有三张表:已加工成型的信息:Master表idx:每一笔贷款的uniquekey,可以与另外2个文件里的idx相匹配。UserInfo_:借款人特征字段WeblogInfo_:Info网络行为字段Education_Info*:学历学籍字段ThirdParty_Info_Peri
村头陶员外
·
2023-10-21 16:38
金融风控
金融
特征分箱-WOE编码
机器学习笔记AN01--提高机器学习模型准确率的八大方法简单总结
异常值:你可以删除这些条目,进行转换,
分箱
。如同缺失值,你也可以对异常值进行区别对待。3.特征工程学这一步骤有助于从现有数据
EL33
·
2023-10-21 12:42
信用评分卡中的数据预处理和特征衍生
求和:消费总金额占比:贷款额度与年收入的占比时间差:第一次开户距今的时长波动率:过去三年内每一份工作的时间标准差特征的
分箱
将连续变量进行离散化将多状态的变量合并成为少状态的变量
分箱
的重要性稳定性:避免特征无意义的波动对预测带来的波动健壮性
Liam_ml
·
2023-10-15 18:23
使用Python进行逻辑回归建立评分卡的完整示例代码,包括数据预处理、
分箱
、特征工程、共线性剔除、模型评估和信用评分规则制定的过程
废话不多说直接上代码:importpandasaspdimportnumpyasnpfromsklearn.linear_modelimportLogisticRegressionfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score,roc_auc_scorefromstat
田晖扬
·
2023-10-06 15:05
风控建模
python
逻辑回归
逻辑回归_评分卡分数转换
四、评分卡分数转换模型训练好后,我们需要把对每个变量的每个
分箱
(也就是数值段)转换成具体的分值。在讲计算过程前,先来讲点前置知识。
短腿叔叔
·
2023-10-06 15:03
逻辑回归
逻辑回归建立评分卡
逻辑回归建立评分卡1数据预处理1.1去重复值1.2填补缺失值1.3处理异常值1.4相关性分析1.5样本均衡处理1.6分训练集和测试集2特征处理2.1
分箱
2.2计算
WOE
、IV值3模型建立4制作评分卡在借贷场景中
tour_ying
·
2023-10-06 15:32
用逻辑回归制作评分卡
目录一.评分卡二.导库,获取数据三.探索数据与数据预处理1.去除重复值2.填补缺失值3.描述性统计处理异常值4.为什么不统一量纲,也不标准化数据分布5.样本不均衡问题6.分训练集和测试集三.
分箱
1.分多少个箱子才合适
PURE-li
·
2023-10-06 15:27
逻辑回归
算法
机器学习
风控建模四:逻辑回归评分卡开发
风控建模四:逻辑回归评分卡开发一、变量做
WOE
转换1、
WOE
转换的优势2、为什么是
WOE
转换?
白白的一团团
·
2023-10-06 14:57
机器学习
风控建模
机器学习
机器学习第二课_数据预处理
数值型特征
分箱
(数据离散化)2.1无监督
分箱
法等距
分箱
importpandasaspddf=pd.DataFrame([[22,1],[13,1],[33,1],[52,0],[16,0],[42,1]
素心似锦
·
2023-10-05 15:38
数据挖掘实验(二)数据预处理【等深
分箱
与等宽
分箱
】
一、
分箱
平滑的原理(1)
分箱
方法在
分箱
前,一定要先排序数据,再将它们分到等深(等宽)的箱中。常见的有两种
分箱
方法:等深
分箱
和等宽
分箱
。
烟雨平生9527
·
2023-10-04 14:28
数据挖掘
人工智能
2023年中国电动汽车充换电站行业现状分析:随车配建私人充电桩增量持续上升[图]
按换电模式分类,可分为底盘换电、侧方换电和
分箱
换电三种。2022年中国充电基础设施增量为259.3万台,其中公共充电桩增量同比上涨91.6%,随车配建私人充电桩增量持续上升,同比上升22
资料整理gonyn
·
2023-10-03 15:28
人工智能
大数据
数据的
分箱
,pd.cut和pd.qcut
对于数据
分箱
,常用到的一个函数叫做pd.cut(),这个函数可以通过指定
分箱
个数或者每个箱体的分界值对数据进行
分箱
处理。
我就是那个无敌大长腿
·
2023-09-26 01:07
一文带你了解”数据
分箱
“技术
一文带你了解”数据
分箱
“技术引言:什么是
分箱
?
分箱
就是把数据按特定的规则进行分组,实现数据的离散化,增强数据稳定性,减少过拟合风险。逻辑回归中进行
分箱
是非常必要的,其他树模型可以不进行
分箱
。
Jay__007
·
2023-09-24 05:47
Python
python
pandas
numpy
风控建模常用指标
一、KS指标KS常用于评估模型区分度,区分度越大,说明模型的风险排序能力越强计算逻辑step1对变量进行
分箱
,可以选择等频、等距,或者自定义距离(不同
分箱
对ks也会有影响)step2计算每个
分箱
区间的好账户数和坏账户数
羊驼养殖户
·
2023-09-20 18:22
机器学习的感悟
机器学习
人工智能
python风控建模_风控建模之特征筛选与建模(python)
初步筛选通常评分卡模型的特征筛选主要从以下4个角度出发:缺失率(一般变量较少时可以可以相对放宽,使用一些方法,如插值等,来填充缺失值)好坏区分能力(即IV值)相关性(一般使用皮尔逊相关系数)
分箱
后的单调性信息量
weixin_39573512
·
2023-09-20 18:52
python风控建模
风控建模基础笔记(一)
文章目录KS曲线和KS值PSI指标IV指标数据
分箱
WOEIVKS曲线和KS值参考机器学习-KS值概念:从统计角度,我们知道KS是分析两组数据分布是否相同的检验指标。
Charming&M
·
2023-09-20 18:21
风控
概率论
机器学习
人工智能
PART 6 风控建模 评价指标
没有业务的评分卡就没有灵魂一般公司风控建模的维度包括变量维度以及模型维度建模玩家重心都会关注模型的整体效果,但是建模的效果本质上是变量的作用效果,在对模型汇报的前提下,建议需要再次检查变量维度信息,可以纠正整体模型效果模型维度从宏观维度评价模型变量维度变量
分箱
情况针对
分箱
效果的检测
不安分 不焦虑
·
2023-09-20 18:51
风控建模专栏
风控建模
评价指标
风控建模 数据对照篇:
WOE
IV 回归系数 P值 相关系数 共线性指标 膨胀因子 KS AUC GINI PSI
最重要的事情开始都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂每一个指标段对应的评价如下,就当做各位的参考表数据吧。希望可以对大家有帮助第一部分指标图表以及英文简介第二部分指标对应参考数据需要说明的是,由于对应的目标客群不同,可能各个指标所提供标准不同,可能银行和小贷公司对于KS的标准不相同,银行相对严格,小贷公司可能包含其余的策略性规则,因此可能KS相对比较小。因此,一定要根据具体的
不安分 不焦虑
·
2023-09-20 18:51
风控建模专栏
指标对照表
风控建模笔记
风控建模=业务+算法+项目标准评分卡开发流程python:pandas、numpy、statsmodels、sklearn数据分析流程:1,数据获取2,数据预处理(空值,异常值处理)3,对数据进行
分箱
,
管妖妖
·
2023-09-20 18:50
风控
机器学习
金融风控项目各钟指标用途汇总
文章目录
WOE
编码:卡方值IV值PSI指标:通过率坏账率混淆矩阵错误率:精度或正确率:召回率精准率F1指标:K-L散度:K-S曲线:K-S值:几率:汇总:
WOE
编码:就是对坏样本分布与好样本分布的比值再进行对数变换的结果在这里插入图片描述
忘川之水&
·
2023-09-20 18:20
金融风控
金融风控
评估指标
金融风控建模常用指标介绍(
WOE
, IV, KS, PSI)
金融风控建模常用指标介绍(
WOE
,IV,KS,PSI)近期在做金融风控相关项目,有必要把特征和模型的衡量指标总结下,以备不时之需。这次主要介绍4个指标(
WOE
,IV,KS,PSI)。
隔壁偷菜的谁
·
2023-09-20 18:49
金融风控
机器学习
数据挖掘
评分卡模型
python三种数据标准化
这里可以采用
分箱
、聚类和回归的方式进行数据平滑2.数据聚集:对数据进行汇总,在SQL中有一些聚集函数可以供我们操作(比如Max)反馈某个字段的数值最大值,Sum返回某个字段的数值总和;3.数据概化:将数据由较低的概念抽象成
DB_UP
·
2023-09-20 14:48
python常用数据处理场景
python
数据预处理-
分箱
(Binning)和
WOE
编码
数据预处理-
分箱
(Binning)和
WOE
编码1.
分箱
1.1理论1.1.1定义
分箱
就是将连续的特征离散化,以某种方式将特征值映射到几个箱(bin)中。1.1.2为什么要进行
分箱
?
隔壁偷菜的谁
·
2023-09-16 06:53
算法
python
数据预处理
分箱
WOE
古城小学安全工作常抓不懈
排查出我校存在以下安全隐患:一、教学楼:1、部分安全出口被锁;2、部分应急灯故障;3、楼梯、楼道灭火器配备不足,标志不明显;4、饮水机处无高温、烫伤警示标志;5、配电室无挡鼠板;杂物多;部
分箱
门无跨接;
Lucky_6552
·
2023-09-15 15:06
【干货】风控建模中把原始变量转成
WOE
实现(Python)
很多刚开始建模的同学,对原始变量转
WOE
都是一知半解,弄不清楚为什么要转
WOE
,也不清楚要怎么把变量转成
WOE
。对于
WOE
原理不清楚的小伙伴,可以先看下本公众号之前的文章:风控建模中的IV和
WOE
。
阿黎逸阳
·
2023-09-10 19:43
风控建模原理与实现
学习python
风控建模
python
算法
机器学习
【python数据可视化】运用pyecharts简单绘制一张玫瑰图
二、实现步骤1.引入相关的库和模块2.读取数据并展示3.构造年龄段序列方法1:序列的加工Series.agg(加工函数)方法2:通过pd.cut()函数实现
分箱
4.统计各平均速度区间行驶的车辆数5.数据类型改造
db_ljx_2069
·
2023-09-08 14:04
python
数据挖掘
机器学习
评分卡:
WOE
、IV、PSI计算及ROC和KS曲线
公式定义和原理解释见:风控模型—
WOE
与IV指标的深入理解应用-知乎风控模型—群体稳定性指标(PSI)深入理解应用-知乎1、
WOE
和IV延伸:
分箱
后求
WOE
和IV1.WOEdescribestherelationshipbetweenapredictivevariableandabinarytargetvariable
风路丞
·
2023-09-07 16:59
算法学习
python
机器学习
数据分析
Pandas数据分析教程-数据清洗-扩展数据类型
扩展的数据类型3.如何转换类型文中用S代指Series,用Df代指DataFrame数据清洗是处理大型复杂情况数据必不可少的步骤,这里总结一些数据清洗的常用方法:包括缺失值、重复值、异常值处理,数据类型统计,
分箱
Wumbuk
·
2023-08-26 21:19
pandas
pandas
数据分析
数据挖掘
pandas数据分析教程-数据清洗-缺失值处理
值填充3.2向前/向后填充文中用S代指Series,用Df代指DataFrame数据清洗是处理大型复杂情况数据必不可少的步骤,这里总结一些数据清洗的常用方法:包括缺失值、重复值、异常值处理,数据类型统计,
分箱
Wumbuk
·
2023-08-26 21:48
pandas
pandas
数据清洗
Pandas数据分析教程-数据处理
pandas-02-数据清洗&预处理B.数据处理1.重复值处理2.map逐元素转换3.值替换4.改变索引值5.离散化与
分箱
6.检测过滤异常值7.排列与随机采样8.根据类别生成one-hot向量,向量化文中用
Wumbuk
·
2023-08-26 21:17
pandas
pandas
数据分析
数据挖掘
pandas中cut函数的问题
今天同事给我反馈个问题,就是不同列
分箱
后的数据总数不一样,正常来说,一个dataframe(数据对齐的情况下),不同列的长度一致,尽管不同列可能分的组数不一样,但是总数应该一样。
羸弱的穷酸书生
·
2023-08-25 08:06
pandas
python
数据分析
宏基因组单样品vamb
分箱
,gtdb物种注释与建树
个人记录,其实很多文件夹的设置并不是那么合理。存放已有序列的文件夹./qc质控后的双端测序文件.fq.gz./当前文件夹,放.fa后缀的contig文件我的文件名编码是S1-1,S1-2这样的。文件夹./concatenate整理好的序列长度大于2000的./map放.mmi的索引文件./bam放.bam的比对文件./sort排序后的.bam文件./bins把所有的bin的.fa文件放在一个文件夹
江有枫xx
·
2023-08-25 07:57
java
开发语言
古城小学安全工作常抓不懈
排查出我校存在以下安全隐患:一、教学楼:1、部分安全出口被锁;2、部分应急灯故障;3、楼梯、楼道灭火器配备不足,标志不明显;4、饮水机处无高温、烫伤警示标志;5、配电室无挡鼠板;杂物多;部
分箱
门无跨接;
无极_ac8c
·
2023-08-16 17:57
Python第三方库-Pandas总结
索引相关函数二、Pandas处理Excel数据读取数据导出Pandas数据按照特定条件筛选查看数据出现的频次数据排序删除数据数据表拼接三、pandas数据预处理非数值型变量处理重复值、缺失值及异常值处理数据
分箱
四
葫芦娃啊啊啊啊
·
2023-08-16 12:16
Python-SQL
python
数据挖掘
数据分析
数据分析实战 | 银行 “信贷” 客户的可视化分析
帮助银行决定是否审批通过该客户并对审批通过的客户设定初始信用额度,有利于银行降低信贷事前风险1.绘制客户基本特征的脑图,明确需要分析的特征注意连续变量和分类变量,连续需要进行
分箱
脑图2.分析过程(1)找到哪些人更需要使用信用卡
数据不吹牛
·
2023-08-14 14:33
数据分析
数据可视化
大数据
人工智能
数据挖掘
机器学习中的特征工程(四)---- 特征离散化处理方法
离散化过程也被表述成
分箱
(Binning)的过程。特征离散化常应用于逻辑回归和金融领域的评分卡中,同时在规则提取,特征分类中也有对应的应用价值。
HaloZhang
·
2023-08-11 01:33
Titanic细节记录一
iloc的区别不同的排序方式sort_valuessort_indexDataFrame相加describe函数查看数据基本信息查看多个列的数据时使用列表处理缺失值的几种思路dropnafillna去重手段
分箱
BIT_mk
·
2023-08-10 00:48
数据分析
pandas
数据分析
【玩转pandas系列】pandas加载数据,
分箱
操作和时间序列,绘制图形
知识目录前言一、加载数据1-加载CSV文件2-加载Excel文件3-加载数据库数据二、
分箱
1-等宽
分箱
2-等频
分箱
三、时间序列1-Timestamp和Period的创建2-索引和切片3-属性和移动4-频率转换
向阳花花花花
·
2023-08-07 18:46
Python数据分析
pandas
机器学习
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他