E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
woe分箱
Python 数据分析— Pandas 基本操作(下)
文章目录学习内容:一、数据
分箱
二、自定义函数三、DataFrame其他常用函数学习内容:一、数据
分箱
将Series的每个值对应到区间。
fjwangxi
·
2024-09-07 17:50
#
python数据分析
python
数据分析
pandas
python 连续比较_python实现连续变量最优
分箱
详解--CART算法
关于变量
分箱
主要分为两大类:有监督型和无监督型对应的
分箱
方法:A.无监督:(1)等宽(2)等频(3)聚类B.有监督:(1)卡方
分箱
法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法
weixin_39834788
·
2024-09-07 13:50
python
连续比较
Python 机器学习 基础 之 数据表示与特征工程 【
分箱
、离散化、线性模型与树 / 交互特征与多项式特征】的简单说明
Python机器学习基础之数据表示与特征工程【
分箱
、离散化、线性模型与树/交互特征与多项式特征】的简单说明目录Python机器学习基础之数据表示与特征工程【
分箱
、离散化、线性模型与树/交互特征与多项式特征
仙魁XAN
·
2024-09-07 13:19
Python
机器学习
基础+实战案例
机器学习
python
分箱
离散化
线性模型与树
交互特征与多项式特征
Python数据分析实战【十一】:学习用scorecardpy搭建风控评分卡模型【文末源码地址】
自带数据查看数据行列查看数据内容,用sample()比head()可以看更多的数据统计每个变量的缺失占比情况查看数据的信息查看每个变量有多少分类描述性统计数据之间的相关性二、数据筛选sc.var_filter()划分数据三、变量
分箱
帅帅的Python
·
2024-02-10 12:17
机器学习
数据分析
python
机器学习
机器学习:回归决策树(Python)
、平方误差的计算square_error_utils.pyimportnumpyasnpclassSquareErrorUtils:"""平方误差最小化准则,选择其中最优的一个作为切分点对特征属性进行
分箱
处理
捕捉一只Diu
·
2024-02-10 07:16
机器学习
回归
决策树
笔记
python
智慧海洋建设-Task3 特征工程
关于本次智慧海洋特征构建分为时间类特征、
分箱
特征(x、y、v)、DataFrame特征(计数特征和偏移量特征)、统计特征(聚合)、embedding特征(word2vec、NMF)这几方面进行考虑的。
1598903c9dd7
·
2024-02-07 10:58
003—pandas 按品类销量计算提成金额
提成比例为1%;40及以上,提成比例为2%;80及以上,提成比例为3%;100及以上,提成比例为5%怎么计算每一行的提成金额:提成金额=金额*提成比例思路:先按品类分组后计算各品类的累计数量,并将这个数量进行
分箱
操作
熊猫烧竹
·
2024-02-05 23:57
pandas
实战案例大全
pandas
机器学习数据预处理方法(数据重编码) ##2
.OneHotEncoder独热编码3.ColumnTransformer转化流水线二、连续字段的特征变换1.标准化(Standardization)和归一化(Normalization)2.连续变量
分箱
恒c
·
2024-02-05 22:41
机器学习
人工智能
数据分析
机器学习数据预处理--连续变量
分箱
文章目录原理概念等宽
分箱
等频
分箱
聚类
分箱
有监督
分箱
原理概念连续变量
分箱
即对连续型字段进行离散化处理,也就是将连续型字段转化为离散型字段。
恒c
·
2024-02-04 23:02
机器学习
人工智能
大数据学习(32)hive优化方法总结
也可以通过多线程处理和数据
分箱
等技术进行优化。减少job数:对于大量的小任务,可以尝试进行任务的合并,减少任务的启动次数,从而提高效率。合理设置ma
viperrrrrrr
·
2024-02-01 12:08
大数据
学习
hive
10X空间转录组基因相关性分析之schex(寻找空间细胞单元)
而临近的细胞放到一个bin中获得概览,不仅是在可视化方面,在数据集大了之后,这种
分箱
的操作可以减少维度。这种分析方法或可叫做spotbinning抑或是pseudospot。之所以产生这个联想是
单细胞空间交响乐
·
2024-01-31 17:35
《特征工程入门与实践》--特征构建
特征构建检查数据集填充分类特征自定义填充器自定义分类填充器编码分类变量定序等级的编码将连续特征
分箱
扩展数值特征针对文本的特征构建词袋法CountVectorizerTF-IDF向量化器我们会探讨如下主题
「已注销」
·
2024-01-28 04:18
特征工程
机器学习基础python实现
python
机器学习
人工智能
数据分析
(信贷风控五)评分卡模型的评价标准
首先我们回顾一下评分卡模型的制作步骤数据预处理变量衍生构造变量
分箱
变量挑选模型参数估计模型校验概率转换为分数这篇博客我们主要来讨论一下评分卡模型的评价标准,主要有以下三个方面模型的区分度模型的准确度模型的稳定性下面我们一一从这三个方面来讨论一下模型的评价标准模型的区分度评分卡模型的结果需要能对好
路易三十六
·
2024-01-26 01:30
金融信贷风控的机器学习实战
信贷风控---评分卡
评分卡模型的评价标准
模型的区分度
模型的准确度
模型的稳定性
评分卡模型概率转换为分数
对箱型图的认识
以下是一些关键点,帮助您理解和解读箱型图:关键组成部
分箱
体:箱体的底部和顶部分别表示数据的第一四分位数(Q1)和第三四分位数(Q3),它们之间的距离称为四分位距(IQR)。
王摇摆
·
2024-01-25 16:37
学习
Chaper9
1.
woe
:afeelingofgreatpainorsadness2.avert:toturn(youreyes,gaze,etc.)awayoraside3.appraise:tosayhowmuchsomethingisworthafteryouhavecarefullyexaminedit
Mr_Oldman
·
2024-01-25 05:43
一文梳理金融风控建模全流程(Python)
▍目录一、简介风控信用评分卡简介Scorecardpy库简介二、目标定义与数据准备目标定义数据准备三、安装scorecardpy包四、数据检查五、数据筛选六、数据划分七、变量
分箱
卡方
分箱
手动调整
分箱
八、
风控小兵突击
·
2024-01-21 18:30
智能风控
python
数据分析
算法
机器学习
数据挖掘
概率论
2018年4月10日
上午试着把同事的卡方
分箱
代码套到自己的数据集上,结果不小心摸鱼又被领导抓了,愤怒!好消息是下个月开始又涨薪10%,当然用这点钱就想收买我不摸鱼是不可能的(老板:你被开除了。
真昼之月
·
2024-01-19 12:42
风控实战-卡方
分箱
计算IV值(含代码)
统计学,风控建模经常遇到卡方
分箱
算法ChiMerge。卡方
分箱
在金融信贷风控领域是逻辑回归评分卡的核心,让
分箱
具有统计学意义(单调性)。
风控小兵突击
·
2024-01-17 23:28
智能风控
python
数据挖掘
数据分析
金融
数据科学与大数据导论期末复习笔记(大数据)
等深
分箱
和等宽
分箱
的区别:等宽
分箱
基于数据的范围来划
分箱
子,每个箱子的宽度相等。等深
分箱
基于数据的观测值数量来划
分箱
子,每个箱子包含相同数量的数据点。
m0_74206166
·
2024-01-17 08:21
笔记
大数据
Pandas实战100例 | 案例 13: 数据分类 - 使用 `cut` 对数值进行
分箱
案例13:数据分类-使用cut对数值进行
分箱
知识点讲解在数据分析中,将连续的数值数据分类成不同的区间(或“
分箱
”)是一种常见的做法。
惊鸿若梦一书生
·
2024-01-14 18:51
Pandas实战100例
pandas
Vamb宏基因组
分箱
:安装与使用
mkdir~/Software/VambcdVambgitclonehttps://github.com/RasmussenLab/vamb-bmastercdvambpipinstall-e.vamb-hGitHub-RasmussenLab/vamb:Variationalautoencoderformetagenomicbinning使用参考上述官方文档
CAAS_IFR_zp
·
2024-01-07 12:15
数据分析
卡方
分箱
(chi-square)
统计学,风控建模经常遇到卡方
分箱
算法ChiMerge。卡方
分箱
在金融信贷风控领域是逻辑回归评分卡的核心,让
分箱
具有统计学意义(单调性)。
python风控模型
·
2024-01-06 14:05
论文毕设
概率论
Python综合数据分析_美国大选
文章目录0.工具必备包1.数据导入2.数据合并3.数据预览和基本统计分析4.数据清洗5.数据转换6.按照特定条件分析数据7.数据筛选8.离散化和
分箱
处理9.数据聚合和分组运算0.工具必备包%matplotlibinlineimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltfrompandasimportSeries
you_are_my_sunshine*
·
2024-01-05 21:46
Python基础
python
数据分析
5.Pandas分组_
分箱
常用操作
importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassnsimportwarningssns.set(style='whitegrid')warnings.filterwarnings('ignore')pd.show_versions()INSTALLEDVERSIONS---------------
沉住气CD
·
2024-01-04 16:34
Pandas
pandas
机器学习
python
数据挖掘
人工智能
metawrap中进行
分箱
注释时出现如下错误,如何解决?please rename your contigs or use --centre xxx to generate clean contig
metawrap中进行
分箱
注释时出现如下错误,如何解决?
小果运维
·
2023-12-30 06:56
metawrap
bin
contigs
name
错误
2018年3月22日
上午主要是看看同事推荐的文档给现金贷建模做准备,感觉不管是
分箱
还是LR分类器都不新鲜,我也都会,但为什么我做出来的结果就那么不尽人意呢……不过从LR概率转到评分卡的标准流程和公式推导倒是之前没接触过。
真昼之月
·
2023-12-25 16:53
机器学习之金融风控
机器学习之金融风控一、评分卡1.1评分卡原理1.2评分卡优缺点1.3评分卡模型搭建步骤1.4IV值和
WOE
值详解1.5评分卡转换二、实现2.1数据导入与预处理2.2可视化分析2.3数据
分箱
-计算IV值和
西西先生666
·
2023-12-25 08:15
机器学习
机器学习
数据挖掘
python
Python数据科学视频讲解:特征等宽
分箱
和等频
分箱
5.2特征等宽
分箱
和等频
分箱
视频为《Python数据科学应用从入门到精通》张甜杨维忠清华大学出版社一书的随书赠送视频讲解5.2节内容。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。
数据科学作家
·
2023-12-25 06:42
python
开发语言
数据挖掘
数据分析
人工智能
特征工程
数据清洗
Python数据科学视频讲解:特征决策树
分箱
5.3特征决策树
分箱
视频为《Python数据科学应用从入门到精通》张甜杨维忠清华大学出版社一书的随书赠送视频讲解5.3节内容。本书已正式出版上市,当当、京东、淘宝等平台热销中,搜索书名即可。
数据科学作家
·
2023-12-25 06:09
python
开发语言
数据挖掘
数据分析
机器学习
数据清洗
特征工程
notes2
、CART决策树,随机森林、Adaboost、GBDT决策树,XGBoost、LightGBM逻辑回归,L1L2正则化熵,KL散度,交叉熵micro-f1,macro-f1神经网络连续型特征处理决策树
分箱
lym94
·
2023-12-18 14:53
14. Mysql 开窗函数,一文带你直接通关
文章目录学前复习开窗函数窗口函数及应用排名函数错行函数取值函数
分箱
函数聚合函数总结学前复习在学习开窗函数前可以先复习下之前的内容:Mysql常用函数和基础查询,还有遗漏的一些函数如下:转换函数:CAST
有请小发菜
·
2023-12-17 10:46
Mysql
mysql
android
数据库
python 自定义划分区间,并把各区间合并
最近在做
分箱
统计时,想把一些点给设为参数,方便之后调整。
丙吉
·
2023-12-16 08:03
散点图直方图折线图的替代
官网数据科学数据可视化,散点图直方图折线图的新方法1.hexbinplothttps://seaborn.pydata.org/examples/hexbinmarginals.html相当于散点图做了聚合/
分箱
清木!
·
2023-12-15 23:10
画图
python
机器学习
人工智能
用户APP安装tfidf&
woe
特征之间的差异&联系
=(bad/ttl_bad)/log(good/ttl_good)--限制安装该APPwoe=log(bad/ttl_bad)/(good/ttl_good)--不限制用户的APP安装所以tfidf跟
woe
mtj66
·
2023-12-04 20:20
tf-idf
metawrap宏基因组数据处理流程(亲测有用)
1.metaWRAP简介MetaWRAP旨在成为一个易于使用的宏基因组数据分析软件包,从头到尾完成宏基因组分析的核心任务:序列质量控制、组装、可视化、分类分析、提取基因组草图(又称
分箱
binning)和功能注释
不锈铁
·
2023-11-27 21:44
生信
python
数据分析
信息可视化
数据分析
python
WOE
IV KS指标
WOE
和IV使用来衡量变量的预测能力,值越大,表示此变量的预测能力越强。
美环花子若野
·
2023-11-21 19:08
机器学习-sklearn第十三天——笔记
目录线性回归(下)5非线性问题:多项式回归5.1重塑我们心中的“线性”概念5.1.1变量之间的线性关系5.1.2数据的线性与非线性5.2使用
分箱
处理非线性问题5.3多项式回归PolynomialFeatures5.3.1
鹿衔草啊
·
2023-11-16 23:58
机器学习
sklearn
人工智能
如何使用线性模型的【
分箱
】操作处理非线性问题
让线性回归在非线性数据上表现提升的核心方法之一是对数据进行
分箱
,也就是离散化。与线性回归相比,我们常用的一种回归是决策树的回归。为了对比不同分类器和
分箱
前后拟合效果的差异,我们设置对照实验。
数字生命Allen
·
2023-11-15 15:27
python
数据挖掘
机器学习
人工智能
线性模型拟合非线性数据中,如何找到最优的【
分箱
】数
pred,score,var=[],[],[]2.再定义一个列表,包含了我们想要尝试的
分箱
数量。
数字生命Allen
·
2023-11-15 15:53
python
人工智能
机器学习
数据不均衡 | 过拟合| 模型评价指标 |
分箱
| 模型融合
数据不均衡从数据角度扩大数据集数据集重采样人工产生数据样本:SMOTESMOTE算法的基本思想就是对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中,进而使原始数据中的类别不再严重失衡。该算法的模拟过程采用了KNN技术,模拟生成新样本的步骤如下:采样最邻近算法,计算出每个少数类样本的K个近邻;从K个近邻中随机挑选N个样本进行随机线性插值;构造新的少数类样本;将新样本与原数据合成,产生
儒雅的晴天
·
2023-11-11 22:28
决策树
机器学习
人工智能
机器学习之用逻辑回归制作评分卡(分类分析:基于UCI的german信用评分卡设计)
缺失值处理3.2.异常值处理3.3.重复值处理四、探索性分析4.1.查看数据分布是否平衡4.2.样本平衡4.3.离散型变量在好坏客户上的分布4.4.连续型变量在好坏客户上的分布五、数据预处理5.1.离散变量
WOE
清风一起
·
2023-11-06 16:55
数据分析
机器学习
逻辑回归
分类
python
金融风控-贷款违约预测学习笔记(Part3:特征工程)
处理类别型特征和数值型特征1.2缺失值填充1.3时间格式处理1.4将对象类型特征转换到数值1.5类别特征处理1.6异常值处理1.6.1异常检测方法一:均方差1.6.2异常检测方法二:箱型图1.7数据分桶1.7.1特征
分箱
的目的
查尔char
·
2023-11-06 16:53
数据挖掘学习笔记
金融风控-->申请评分卡模型-->特征工程(特征
分箱
,
WOE
编码) 标签: 金融特征
分箱
-
WOE
编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融风
金融风控-->申请评分卡模型-->特征工程(特征
分箱
,
WOE
编码)标签:金融特征
分箱
-
WOE
编码2017-07-1621:264086人阅读评论(2)收藏举报分类:金融风控(6)作者同类文章X版权声明:
元宇宙iwemeta
·
2023-11-06 16:23
数据挖掘组队学习-金融风控0基础入门-Task3
金融风控0基础入门-Task3特征工程目标一、数据预处理二、异常值处理三、数据
分箱
四、特征交互五、特征编码六、特征选择目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法完成相应学习打卡任务
听风啊
·
2023-11-06 16:50
数据挖掘
python
利用决策树进行变量的
分箱
决策树中每个节点的
分箱
情况可以在以下情况下提供有用的信息:可解释性需求:决策树是一种高度可解释的机器学习模型,展示每个节点的
分箱
情况可以帮助解释模型的决策过程。
田晖扬
·
2023-11-03 19:14
机器学习
决策树
python
Task02:数据清洗及特征处理
此任务主要是对数据进清洗,包括缺失值、重复值的处理;特征观察与处理:
分箱
、分类变量的one-hot编码处理。此外还涉及到了从Name中提取Titles的特征。
忘词x
·
2023-10-29 18:40
R语言与评分卡模型
WOE
+IV+ROC
其原理是将模型变量
WOE
编码方式离散化之后运用Logistic回归模型进行的一种二分类变量的广义线性回归模型。
Ethan_pika
·
2023-10-29 11:47
R语言与机器学习
机器学习
R
机器学习D10——
WOE
和IV编码
概述
WOE
和IV通常是用在模型特征筛选的。IV和
WOE
能够帮助我们衡量什么变量应该进入模型,什么变量应该舍弃。
Dunkle.T
·
2023-10-29 11:17
人工智能
机器学习
人工智能
转:Python数据
分箱
,计算
woe
,iv
htmlhttps://github.com/Lucky-Bone/Discretizationhttps://blog.csdn.net/SkullSky/article/details/105646062
WOE
夏天7788
·
2023-10-29 11:17
机器学习之回归
算法
数据
分箱
6——
分箱
结果进行
WOE
转化
WOE
的具体公式与含义请参考:特征筛选7——
WOE
(WeightofEvidence)/IV值(InformationValue)筛选特征(有监督筛选)
WOE
转化可以将
分箱
的阈值覆盖原有的值,一般来讲并不会改变预测精度
呆萌的代Ma
·
2023-10-29 11:46
特征工程
python
机器学习
机器学习
数据挖掘
python
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他