E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分箱
2022-02-08 读书笔记:《精通特征工程》1 基础特征工程
:2022-02-08学习目标:“通过Python示例掌握特征工程基本原则和实际应用,增强机器学习算法效果”;目录第1章机器学习流程:数值模型特征第2章简单而奇妙的数值:数值型数据的基础特征工程,过滤
分箱
缩放对数变换和幂次变换
baby_hua
·
2022-11-25 07:29
深度学习
学习
python
机器学习
特征工程
城市空气质量分析与预测
数据清洗1、缺失值1.1、缺失值探索1.2、缺失值处理1、数据分布2、填充数据2、异常值2.1、异常值探索1、describe方法2、3σ的方式3、箱线图2.2、异常值处理1、对数转换2、使用边界值替换3、
分箱
离散化
孙若堃
·
2022-11-23 13:32
python
数据分析
sklearn_Lasso与多项式回归_菜菜视频学习笔记
lasso与多项式回归1Lasso与多重共线性1.1Lasso强大的特征选择能力1.2选取最佳正则化参数2.非线性问题:多项式回归2.1使用
分箱
处理非线性问题2.2多项式回归PolynomialFeatures2.2.1
chenburong2021
·
2022-11-23 11:01
sklearn
线性回归
python
机器学习
python基础教程四级查数据_《Python机器学习基础教程》四、数据表示与特征工程...
特别是线性模型,可能会从
分箱
、添加多项式和交互项而生成的新特性中大大受益。对于更加复杂的非线性模型(比如随机森林和SVM),在无需显式扩展特征空间的前提下就可以学习更加复杂的任务
weixin_39929465
·
2022-11-22 19:22
python基础教程四级查数据
精通特征工程 —— 2.简单得数字奇特技巧
文章目录1.二值化2.区间量化(
分箱
)3.对数变换4.特征缩放归一化5.交互特征6.特征选择精通特征工程pdf:链接:https://pan.baidu.com/s/11AFe7LgjYnf56XcpI_wNKw
倩mys
·
2022-11-22 14:13
数据挖掘
时间序列预测 | Python实现LightGBM模型时间序列预测
实现LightGBM模型时间序列预测基本介绍程序设计总结基本介绍创建一个基于LightGBM并且适合个人使用的时间序列的快速建模程序.程序设计在查看单变量空间中树的其他实现时都会看到一些特征工程,例如
分箱
小橘算法屋
·
2022-11-22 12:38
时间序列分析(Python)
数据统计分析
数据分析应用
python
深度学习
时序模型
评分卡实例:一步一步实现评分卡(详细长文)
老饼讲解-机器学习http://ml.bbbdata.com/teach/26目录(前言一)数据说明(前言二)评分卡建模步骤概述一.变量分析、选择与
分箱
处理(一)使用badRate法(或iv法)分析变量
老饼讲解机器学习
·
2022-11-22 09:41
#
评分卡
机器学习
关于特征工程方法和应用的总结
数据结构化数据非结构化数据1.2常用特征处理方法1.2.1类别特征独热编码哈希编码标签编码频数编码Label-count编码目标编码嵌套法NaN编码多项式编码扩展编码合并编码1.2.2数值特征四舍五入数据
分箱
取对数特征缩放归一化错误数据和缺失数据的处理交叉特征线性算法的非线性编码行统计
yougwypf1991
·
2022-11-22 02:18
人工智能
机器学习
机器学习
特征工程
特征
Pandas数据转换
目录一、数据转换离散化与
分箱
等长
分箱
等量
分箱
二、数据的连接1.内联2.左联3.右联4.外联数据合并一、数据转换df['字段'].map(dict)map函数需要我们利用字典来将我们字段所对应的映射关系传入
桜キャンドル淵
·
2022-11-21 11:05
python基础
python
机器学习
开发语言
PCL点云数据 滤波降噪
86294496为什么进行点云滤波处理:(1)点云数据密度不规则需要平滑;(2)因为遮挡等问题造成离群点需要去除;(3)大量数据需要下采样;(4)噪声数据需要去除;点云数据去噪滤波方法:双边滤波、高斯滤波、
分箱
去噪
AI视觉网奇
·
2022-11-21 08:56
pcl学习
c++基础
机器学习
算法
天池教学赛:银行客户认购产品预测
目录前言一、赛题背景二、数据探索1.读取数据2.查看数据统计量duration
分箱
展示3.查看数据分布4.数据相关图5.其它变量可视化展示三、数据建模四、特征输出五、最终成绩前言本次比赛数据集质量比较好
wjzeroooooo
·
2022-11-21 05:05
数据挖掘
Python
数据挖掘
python
python评分卡2_woe与IV
分箱
方法
本系列分以下章节:python评分卡1_woe与IV值python评分卡2_woe与IV
分箱
方法python评分卡3_woe与IV
分箱
实现python评分卡4_logistics原理与解法_sklearn
雪龙无敌
·
2022-11-20 06:51
python评分卡
python
数据挖掘
人工智能
python评分卡3_woe与IV
分箱
实现
本系列分以下章节:python评分卡1_woe与IV值python评分卡2_woe与IV
分箱
方法python评分卡3_woe与IV
分箱
实现python评分卡4_logistics原理与解法_sklearn
雪龙无敌
·
2022-11-20 06:51
python评分卡
python
人工智能
机器学习
sklearn_逻辑回归制作评分卡_菜菜视频学习笔记
逻辑回归制作评分卡3.0前言逻辑回归与线性回归的关系消除特征间的多重共线性为什么使用逻辑回归处理金融领域数据正则化的选择特征选择的方法
分箱
的作用3.1导库3.2数据预处理3.2.1去重复值3.2.2填补缺失值
chenburong2021
·
2022-11-20 03:04
sklearn
逻辑回归
机器学习
python
详解风控模型中的逻辑回归评分卡与模型评估内容
今天我们来输出一篇风控长文,关于大家熟悉关注的逻辑评分卡的开发的内容,文章篇幅较长,大纲目录如下:建模前准备1.1特征预处理与转化1.2特征衍生与提取1.3特征选择与降维
分箱
2.1
分箱
概述2.2
分箱
方法
番茄风控
·
2022-11-17 11:58
番茄风控大数据公众号
逻辑回归
算法
风控童鞋,建议都好好学一下这份手动的特征
分箱
申请信用评分卡模型(A卡),对于从事金融信贷风控领域的小伙伴来讲是非常熟悉的,在贷前风控流程中通过一定的评分逻辑规则,对申请用户的信用能力或风险情况进行评估,并结合风控决策阈值实现申请进件的最终审批状态(通过或拒绝)。因此,A卡模型在实际业务应用中的价值不言而喻。由于以上业务场景从模型角度分析,属于二分类模型,在数据建模过程中我们可采用的机器学习算法有很多选择,常见的有逻辑回归、随机森林、XGBo
番茄风控
·
2022-11-16 20:01
番茄风控大数据公众号
数据挖掘
机器学习
推荐算法
【
分箱
操作】决策树、卡方、分位数、等距和映射
分箱
操作代码实现
TableofContents1数据准备2决策树
分箱
3分位数
分箱
4等距和等距log映射5卡方
分箱
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_breast_cancerimportnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassns
我叫陈叉叉叉叉
·
2022-11-16 20:01
贷款违约预测
机器学习鸭
数据
分箱
1——人工手动
分箱
人工手动
分箱
,是指已经有了标准,比如:60分以下不合格,60-80合格,80+优秀可以使用pandas.cut进行
分箱
,更多用法可以参考官方文档:https://pandas.pydata.org/docs
呆萌的代Ma
·
2022-11-16 20:00
机器学习
特征工程
数据挖掘
python 最优
分箱
_python最优
分箱
中woe计算(求大圣)
#coding=gbkimportpandasaspdimportnumpyasnpimportscipy.statsasstatsdeffenzu(Y,X,n=20):r=0bad=Y.sum()good=Y.count()-badwhilenp.abs(r)<1:d1=pd.DataFrame({"X":X,"Y":Y,"Bucket...#coding=gbkimportpandasaspd
weixin_39761822
·
2022-11-16 20:00
python
最优分箱
风控建模二、特征工程---风控
目录目录一、
分箱
1.1Best-KS1.2卡方
分箱
法(ChiMerge)二、WOE和IV2.1两种woe处理分类问题。
沐自礼
·
2022-11-16 20:59
风控
人工智能
机器学习
人工智能
机器学习
数据挖掘
算法
python
OptBinning 特征
分箱
包使用介绍
OptBinning特征
分箱
包使用介绍OptBinning:支持数值型和分类型的最大IV
分箱
,并可保证
分箱
单调性,同事方便处理缺失值。
我叫陈叉叉叉叉
·
2022-11-16 20:58
机器学习鸭
python
特征处理
特征分箱
对于噪声数据理解以及Min-Max 规范化和 Score规范化(零-均值规范化)的实例【数据预处理】
文章目录一.噪声数据1.1
分箱
1.2
分箱
法光滑数据1.3噪声数据1.4回归Regression1.5聚类ClusterAnalysis1.6数据清理作为一个过程1.6.1偏差检测1.6.2数据变换(纠正偏差
上进小菜猪
·
2022-11-12 11:53
人工智能簇
#
数据挖掘
均值算法
算法
风控建模还在用IV特征
分箱
“老方法”,何不试下这个更有效的实操
对于金融信贷产品,客户违约预测是始终是风控模型体系的关键任务,只有将客户群体的风险控制在合理范围内,才能有效实现业务的综合收益。围绕信贷业务的风控建模,最经典的算法莫过于逻辑回归,由于其理论依据明确,且业务解释性较好,一直是金融信贷业务数据建模的通用方法。以贷前风控的客户违约预测场景为例,模型目标为是否违约两种情况,选择逻辑回归二分类算法来构建模型是一个首要选项。在采用逻辑回归建立模型的过程中,由
番茄风控
·
2022-11-11 08:12
番茄风控大数据公众号
逻辑回归
算法
风控算法知识——WOE值的深度理解与应用
WOE编码需要首先将这个变量分组处也就是
分箱
。
金科应用研院
·
2022-10-26 14:30
金融评分卡
大数据与建模
算法
WOE
量化风控
数据建模
数据挖掘--数据探索与数据预处理
文章目录数据探索与数据预处理数据理解清除变量分类型自变量处理时间变量异常值极值数据
分箱
缺失数据降维过抽样与欠抽样参考黑体字为预处理相关的模型,即在使用这些模型时,需要关注到这些预处理数据探索与数据预处理数据理解抽样偏差数据粒度个人认为
小果一粒沙
·
2022-10-20 22:46
数据挖掘
数据挖掘
数据分析
机器学习基础总结
线性回归线性模型评估逻辑回归介绍优缺点应用探索性分析数据预处理无监督编码有监督编码重复值、缺失值、异常值处理重复值缺失值异常值数据归一化、标准化min-max(归一化)meannormalizationz-score(标准化)L1和L2范数数据
分箱
changreal
·
2022-10-20 22:37
数据分析
机器学习
数据分析
python最优
分箱
计算iv值_信贷风控小知识——(5)
分箱
与变量分析
风控建模常用逻辑回归模型,模型的特征必须是数值型特征,因此需要对类别型特征进行编码;此外,为了获得模型的稳定性,建模时需要对数值型特征进行
分箱
处理。最终,对进入模型的特征还要做单变量与多变量分析。
御风游
·
2022-10-18 14:03
python最优分箱计算iv值
python中的seaborn库_Python数据可视化-seaborn库之countplot
seaborn官方文档见链接:http://seaborn.pydata.org/api.htmlcountplot是seaborn库中分类图的一种,作用是使用条形显示每个
分箱
器中的观察计数。
weixin_39995108
·
2022-10-12 09:41
数据挖掘笔记第三章——数据变换与数据离散化
数据离散化是一种数据变换的形式1.数据变换策略概述:2.通过规范化变换数据3.还可以通过
分箱
,直方图,聚类,决策树和相关分析离散化的方法进行离散化4.概念分层:
千音qy
·
2022-10-03 15:47
深度学习
数据挖掘
big
data
概率论
数据标准化/归一化normalization
连续型特征还有一种处理方式是,先分桶/
分箱
(如等频/等距的分)[待写]进行离散化后再使用离散数据的处理方法。离散数据处理参考[数据预处理:独热编码(One-HotEncoding)]。
喜欢打酱油的老鸟
·
2022-10-03 15:47
人工智能
数据标准化
归一化
数据预处理(六)——数据变换与离散化
常用的数据光滑方法有
分箱
、回归
shi_jiaye
·
2022-10-03 15:16
python机器学习与数据挖掘
python
机器学习
机器学习之数据预处理——降噪
机器学习之数据预处理——降噪上一节学习线性回归法填补缺失值和拉格朗日插值法,这节课学习采用等深
分箱
的方式进行数据降噪处理。
zxxxlh123
·
2022-09-18 09:37
特征工程-缺失值处理
python
机器学习
机器学习
python
数据挖掘
Pandas常见方法(2)-pandas对数据的预处理
pandas1.3.5版本文章目录前言一、对缺失值处理1.1缺失值过滤1.2缺失值补全二、数据转换2.1某列重复值删除2.2某列/某些列数据映射2.3某列数据替换2.4DataFrame所有数据替换三、
分箱
和分位数总结前言本文主要介绍如何对数据做预处理
Efred.D
·
2022-09-02 10:11
Pandas学习
Python学习
python
数据挖掘
机器学习
数据挖掘 | 实验二 数据的可视化
文章目录一、目的与要求二、实验设备与环境、数据三、实验内容(1)数据获取(2)数据的清理(3)可视化技术a)直方图展示各个维度的值分布情况;(20个
分箱
)b)箱式图展示三类鸢尾花的petal_length
Yrani - 依然
·
2022-08-27 00:07
#
数据挖掘
数据挖掘
python
数据分析
数据清洗
鸢尾花数据集
数据
分箱
(分层)的几种方法
分箱
的几种方法目标:不同
分箱
,目标属性相距应尽可能远,比如婴儿和老年在生理和心理上的特征区别明显。等深
分箱
排序后,每一个
分箱
样本的个数是一样的,比如(1,2,3),(5,8,11)
分箱
个数都是3个。
爱弥儿er
·
2022-08-25 12:31
算法
数据分析
机器学习-sklearn第六天——笔记
3.2.5样本不均衡问题3.2.6分训练集和测试集3.3
分箱
3.3.1等频
分箱
3.3.3定义WOE和IV函数3.3.4卡方检验,合并箱体,画出IV曲线3.3.5用最佳
分箱
个数
分箱
,并验证
分箱
结果3.3.6
鹿衔草啊
·
2022-08-21 07:50
机器学习
sklearn
决策树
pandas之
分箱
操作
等频法,利用pandas中的qcut函数,**基于样本分位数进行
分箱
**将连续数据进行离散化常用的有两种方式:等宽法和等频法。等宽法:离散化后的每个区间的差值相等。
诡秘愚者
·
2022-08-18 07:19
Python
概率论
机器学习
算法
python利用pd.cut()和pd.qcut()对数据进行
分箱
操作
目录1.cut()可以实现类似于对成绩进行优良统计的功能,来看代码示例。2.qcut()可以生成指定的箱子数,然后使每个箱子都具有相同数量的数据1.cut()可以实现类似于对成绩进行优良统计的功能,来看代码示例。假如我们有一组学生成绩,我们需要将这些成绩分为不及格(0-59)、及格(60-70)、良(71-85)、优(86-100)这几组。这时候可以用到cut()importnumpyasnpim
·
2022-06-15 12:23
ML:机器学习模型的稳定性分析简介、常见的解决方法之详细攻略
机器学习模型的稳定性分析简介、常见的解决方法之详细攻略目录ML:机器学习模型的稳定性分析简介、常见的解决方法1、增强稳健性的通用方法2、提高模型稳定性—适合泛线性模型(如逻辑回归)—幅度过大的变量进行
分箱
处理
一个处女座的程序猿
·
2022-06-14 09:12
DataScience
ML
机器学习
人工智能
特征工程之数据预处理
编号处理补充知识点:pandas库中的replace()函数3重复值、缺失值及异常值处理3.1重复值处理3.2缺失值处理3.3异常值处理4数据标准化4.1min-max标准化4.2Z-score标准化5数据
分箱
QYiRen
·
2022-06-06 07:17
数据分析与挖掘
学习
python
数据分析
数据挖掘
机器学习
[机器学习与scikit-learn-32]:算法-回归-普通线性模型拟合非线性分布数据-
分箱
文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客本文网址:https://blog.csdn.net/HiWangWenBing/article/details/123562666目录前言:第1章
分箱
机制
分箱
的本质
文火冰糖的硅基工坊
·
2022-06-04 07:35
机器学习
算法
scikit-learn
分箱
Pandas对数值进行
分箱
操作的4种方法总结
分箱
是一种常见的数据预处理技术有时也被称为分桶或离散化,他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中,我们将讨论使用pythonPandas库对数值进行
分箱
的4种方法。
·
2022-05-30 14:36
论文阅读:基于 LSTM 的船舶航迹预测
预测模型结构和流程3.实验结果4.有趣的想法1.摘要2.预测模型结构和流程(1)输入与输出输出:(t+1)时刻的经度和纬度(预测目标)输入:t时刻以及前(n-1)时刻的经度、纬度、航速、航向(2)数据预处理采用“
分箱
志远1997
·
2022-05-21 11:20
船舶航迹预测
LSTM
三次样条插值
船舶航迹预测
归一化
异常值剔除
Pandas 对数值进行
分箱
操作的4种方法总结对比
分箱
是一种常见的数据预处理技术有时也被称为分桶或离散化,他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中,我们将讨论使用pythonPandas库对数值进行
分箱
的4种方法。
·
2022-05-03 11:27
Pandas数据处理加速技巧汇总
目录数据准备日期时间数据优化数据的简单循环循环.itertuples()和.iterrows()方法.apply()方法.isin()数据选择.cut()数据
分箱
Numpy方法处理处理效率比较HDFStore
·
2022-04-18 15:09
python数据分析的一些基础性知识(二)
(1)
分箱
操作(离散化处理)cut()函数把数值分段,pandas.cut(x,bins,right=True,labels=None,...)x:需要处理的数据,必
WiningQ
·
2022-04-07 07:46
python
数据分析
sklearn
数据可视化总结——matplotlib、seaborn
seaborn基本参数直方图和密度曲线图密度曲线图毛毯图散点图catplot()如果需要看清每个数据点,可以使用swarmplot箱线图catplot()散点图矩阵小提琴图条形图catplot()使用条形显示每个
分箱
器中的观察计数
墨夜之枫
·
2022-04-02 07:46
python数据分析与可视化
matplotlib
seaborn
python机器学习基础01——sklearn开启
文章目录机器学习开发流程特征工程字符串特征化onehot编码文本特征化jieba分词数值型数据预处理归一化标准化特征选择Filter过滤式(方差过滤)PCA降维WOE&IV编码
分箱
WOEIV数据集数据集划分数据集接口介绍机器学习开发流程
友培
·
2022-03-29 15:21
python
机器学习
sklearn
【金融风控-贷款违约预测】Task3 特征工程篇
学习目标2、内容介绍3、特征预处理3.1关于异常值的补充3.1.1异常值检测3.1.2检测异常的方法一:**均方差**3.1.3检测异常的方法二:**箱型图**3.1.4异常值处理:3.2数据分桶3.2.1
分箱
方法
urnotZoey
·
2022-03-25 07:27
比赛
天池
机器学习
机器学习
python
数据挖掘
基于机器学习与深度学习的金融风控贷款违约预测
任务分析2.数据属性3.评价指标4.问题归类5.整体思路二、数据可视化分析1.总体数据分析2.数值型数据分析3.非数值型数据分析4.多变量分布与相关性分析三、数据清洗与特征工程1.数据清洗与特征构造2.数据
分箱
上山打老虎D
·
2022-03-25 07:04
数据挖掘导论
数据挖掘
数据分析
聚类
分类算法
机器学习
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他