Captainphiora

金融风控数据挖掘-Task2

金融风控数据挖掘-Task2

一、学习知识点概要
二、学习内容
- 1、导入数据分析及可视化过程需要的库
- 2、读取文件
- 3、数据集的总体了解
- 4、分析特征、处理特征
- 5、数值型变量分析
- 6、分别对离散型和连续型变量进行分析
- 7、非数值型变量
- 8、用pandas_profiling生成数据报告
三、学习问题与解答
- 1、关于print(f'')
- 2、关于to_dict
- 3、关于pandas_profiling
四、学习思考与总结

一、学习知识点概要

初步认识python并且了解pandas、numpy、seaborn等数据挖掘中较为常用的库。

二、学习内容

1、导入数据分析及可视化过程需要的库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import sklearn
import warnings
warnings.filterwarnings('ignore')
# 通过警告过滤器进行控制，忽略警告错误的输出。

2、读取文件

data_train=pd.read_csv('train.csv')

data_test_A=pd.read_csv('testA.csv')

# 通过nrows参数，设置读取文件的前多少行，nrows>0
data_train_sample=pd.read_csv('train.csv',nrows=5)

#设置chunksize参数，来控制每次迭代数据的大小
i = 0  # 控制输出
chunker = pd.read_csv("train.csv",chunksize=5)
for item in chunker:
    print(type(item))
    #
    print(len(item))
    i+=1
    if i >= 4:   # 由于数据量过大，限制输出4条就跳出循环
        break
    #5
#     chunker表示将train分为五行每份的dataframe

3、数据集的总体了解

# shape读取行列
data_test_A.shape
data_train.shape
# columns返回列名
data_train.columns
#info()了解数据类型 
data_train.info()
# 查看各个特征的基本统计量
data_train.describe()
# numpy append 将一个数组附加到另一个数组的尾部
data_train.head(3).append(data_train.tail(3))
# 查看数据集中特征值缺失值以及唯一值等
# 简单理解为print(f'{}')花括号内可以使用函数
# pandas中isnull()判断缺失值
print(f'There are {data_train.isnull().any().sum()} columns in train dataset with missing values.')

4、分析特征、处理特征

# 查找缺失率大于50%的特征
have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
have_null_fea_dict
# pandas中to_dict()  返回字典词典
# DataFrame.to_dict (self, orient='dict',* into=)*                 --- 官方文档
# orient ='dict'，是函数默认的，转化后的字典形式：{column(列名) : {index(行名) : value(值) )}}
have_null_fea_dict
fea_null_moreThanHalf = {
     }
for key,value in have_null_fea_dict.items():
    if value > 0.5:
        fea_null_moreThanHalf[key] = value
fea_null_moreThanHalf
# 具体查看缺失特征及缺失率
# nan可视化
# 既可以横向比较也可以纵向比较，用于考虑删除或填充缺失值
missing = data_train.isnull().sum()/len(data_train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()
# 查看训练集测试集中特征属性只有一值的特征
one_value_fea_train = [col for col in data_train.columns if data_train[col].nunique() <= 1]
one_value_fea_test_A = [col for col in data_test_A.columns if data_test_A[col].nunique() <= 1]
print(f'{one_value_fea_train}{one_value_fea_test_A}')
print(f'There are {len(one_value_fea_train)} columns in train dataset with one unique value.')
print(f'There are {len(one_value_fea_test_A)} columns in testA dataset with one unique value.')
# 查看特征的数值类型以及对象类型有哪些
# pandas select_dtypes
# DataFrame.select_dtypes(include=None, exclude=None)
numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)
numerical_fea
# filter()函数用于过滤序列，过滤掉不符合条件的元素，返回符合条件的元素组成新列表。
# filter(function,iterable)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))
category_fea

5、数值型变量分析

# 数值型变量分析，数值型肯定是包括连续型变量和离散型变量的
# 划分数值型变量中的连续变量和离散型变量
# 过滤数值型类别特征
def get_numerical_serial_fea(data,feas):
    numerical_serial_fea = []
    numerical_noserial_fea = []
    for fea in feas:
        temp = data[fea].nunique()
        if temp <= 10:
            numerical_noserial_fea.append(fea)
            continue
        numerical_serial_fea.append(fea)
    return numerical_serial_fea,numerical_noserial_fea
numerical_serial_fea,numerical_noserial_fea = get_numerical_serial_fea(data_train,numerical_fea)

# 连续型
numerical_serial_fea
# 离散型
numerical_noserial_fea

6、分别对离散型和连续型变量进行分析

# 离散型
# pandas  value_counts() 一种查看表格某列中有多少个不同值的快捷方法，并计算每个不同值有在该列中有多少重复值，这里给出部分代码示例
data_train['term'].value_counts()#离散型变量
data_train['policyCode'].value_counts()#离散型变量，无用，全部一个值
data_train['n11'].value_counts()#离散型变量，相差悬殊
#连续型
# 每个数字特征得分布可视化
# col_wrap限制网格列的个数
f = pd.melt(data_train, value_vars=numerical_serial_fea)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, "value")
# 查看某一个数值型变量的分布，查看变量是否符合正态分布，如果不符合正太分布的变量可以log化后再观察下是否符合正态分布。
# 如果想统一处理一批数据变标准化 必须把这些之前已经正态化的数据提出
# 正态化的原因：一些情况下正态非正态可以让模型更快的收敛，一些模型要求数据正态（eg. GMM、KNN）,保证数据不要过偏态即可，过于偏态可能会影响模型预测结果

#Ploting Transaction Amount Values Distribution
plt.figure(figsize=(16,12))
plt.suptitle('Transaction Values Distribution', fontsize=22)
plt.subplot(221)
sub_plot_1 = sns.distplot(data_train['loanAmnt'])
sub_plot_1.set_title("loanAmnt Distribuition", fontsize=18)
sub_plot_1.set_xlabel("")
sub_plot_1.set_ylabel("Probability", fontsize=15)

plt.subplot(222)
sub_plot_2 = sns.distplot(np.log(data_train['loanAmnt']))
sub_plot_2.set_title("loanAmnt (Log) Distribuition", fontsize=18)
sub_plot_2.set_xlabel("")

7、非数值型变量

category_fea
data_train['grade'].value_counts()
data_train['earliesCreditLine'].value_counts()
# 变量分布可视化
# 单一变量分布可视化
plt.figure(figsize=(8, 8))
sns.barplot(data_train["employmentLength"].value_counts(dropna=False)[:20],
            data_train["employmentLength"].value_counts(dropna=False).keys()[:20])
plt.show()

# 根绝y值不同可视化x某个特征的分布
# 首先查看类别型变量在不同y值上的分布
train_loan_fr = data_train.loc[data_train['isDefault'] == 1]
train_loan_nofr = data_train.loc[data_train['isDefault'] == 0]
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 8))
train_loan_fr.groupby('grade')['grade'].count().plot(kind='barh', ax=ax1, title='Count of grade fraud')
train_loan_nofr.groupby('grade')['grade'].count().plot(kind='barh', ax=ax2, title='Count of grade non-fraud')
train_loan_fr.groupby('employmentLength')['employmentLength'].count().plot(kind='barh', ax=ax3, title='Count of employmentLength fraud')
train_loan_nofr.groupby('employmentLength')['employmentLength'].count().plot(kind='barh', ax=ax4, title='Count of employmentLength non-fraud')
plt.show()

# 其次查看连续型变量在不同y值上的分布
fig, ((ax1, ax2)) = plt.subplots(1, 2, figsize=(15, 6))
data_train.loc[data_train['isDefault'] == 1] \
    ['loanAmnt'].apply(np.log) \
    .plot(kind='hist',
          bins=100,
          title='Log Loan Amt - Fraud',
          color='r',
          xlim=(-3, 10),
         ax= ax1)
data_train.loc[data_train['isDefault'] == 0] \
    ['loanAmnt'].apply(np.log) \
    .plot(kind='hist',
          bins=100,
          title='Log Loan Amt - Not Fraud',
          color='b',
          xlim=(-3, 10),
         ax=ax2)

total = len(data_train)
total_amt = data_train.groupby(['isDefault'])['loanAmnt'].sum().sum()
plt.figure(figsize=(12,5))
plt.subplot(121)##1代表行，2代表列，所以一共有2个图，1代表此时绘制第一个图。
plot_tr = sns.countplot(x='isDefault',data=data_train)#data_train‘isDefault’这个特征每种类别的数量**
plot_tr.set_title("Fraud Loan Distribution \n 0: good user | 1: bad user", fontsize=14)
plot_tr.set_xlabel("Is fraud by count", fontsize=16)
plot_tr.set_ylabel('Count', fontsize=16)
for p in plot_tr.patches:
    height = p.get_height()
    plot_tr.text(p.get_x()+p.get_width()/2.,
            height + 3,
            '{:1.2f}%'.format(height/total*100),
            ha="center", fontsize=15) 
    
percent_amt = (data_train.groupby(['isDefault'])['loanAmnt'].sum())
percent_amt = percent_amt.reset_index()
plt.subplot(122)
plot_tr_2 = sns.barplot(x='isDefault', y='loanAmnt',  dodge=True, data=percent_amt)
plot_tr_2.set_title("Total Amount in loanAmnt  \n 0: good user | 1: bad user", fontsize=14)
plot_tr_2.set_xlabel("Is fraud by percent", fontsize=16)
plot_tr_2.set_ylabel('Total Loan Amount Scalar', fontsize=16)
for p in plot_tr_2.patches:
    height = p.get_height()
    plot_tr_2.text(p.get_x()+p.get_width()/2.,
            height + 3,
            '{:1.2f}%'.format(height/total_amt * 100),
            ha="center", fontsize=15)

#转化成时间格式  issueDateDT特征表示数据日期离数据集中日期最早的日期（2007-06-01）的天数
data_train['issueDate'] = pd.to_datetime(data_train['issueDate'],format='%Y-%m-%d')
startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
data_train['issueDateDT'] = data_train['issueDate'].apply(lambda x: x-startdate).dt.days

#转化成时间格式
data_test_A['issueDate'] = pd.to_datetime(data_train['issueDate'],format='%Y-%m-%d')
startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
data_test_A['issueDateDT'] = data_test_A['issueDate'].apply(lambda x: x-startdate).dt.days

plt.hist(data_train['issueDateDT'], label='train');
plt.hist(data_test_A['issueDateDT'], label='test');
plt.legend();
plt.title('Distribution of issueDateDT dates');

# 掌握透视图，更好地了解数据
#透视图 索引可以有多个，“columns（列）”是可选的，聚合函数aggfunc最后是被应用到了变量“values”中你所列举的项目上。
pivot = pd.pivot_table(data_train, index=['grade'], columns=['issueDateDT'], values=['loanAmnt'], aggfunc=np.sum)

8、用pandas_profiling生成数据报告

import pandas_profiling
pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")

三、学习问题与解答

1、关于print(f’’)

简单理解为print(f’{}’)花括号内可以使用函数。

2、关于to_dict

pandas 中的to_dict 可以对DataFrame类型的数据进行转换。
pandas to_dict 的用法

3、关于pandas_profiling

文化水平有限，只能说这个库真的很厉害，几乎可以说它两行代码就能解决整个EDA的过程。

四、学习思考与总结

第一次使用jupyter进行python的学习，发现jupyter是一个很好的开发工具。只需要在Windows命令行输入jupyter notebook便可以在默认浏览器打开一个在线的IDE。jupyter的每个cell能够单独进行运算，非常适合于代码的调试，在熟悉快捷键后甚至不需要使用鼠标,对于python初学者而言十分友好。假如我们使用VScode开发一个完整的脚本，变量会随着代码执行的结束而从内存中释放，如果我们想看中间的变量或者结构，我们只能通过断点或者输出日志信息的方式进行调试，这样无疑是非常繁琐的，如果一个程序运行很多这种方式还可行，如果运行时间长达几个小时，这样我们调试一圈耗费的时间就太长了。而在jupyter notebook中我们可以把代码分隔到不同的cell里逐个进行调试，我们可以交互式地在不同cell里获取到我们想要测试的变量值和类型。它甚至支持Markdown，也就是说它的cell不仅支持代码的编写，也支持数学公式的编辑等等，还有类似于浏览器扩展的插件提供使用。

你可能感兴趣的:(金融风控)

安心联车辆管理系统在汽车金融领域的应用安心联-车辆监控管理系统汽车金融人工智能
安心联车辆管理系统在汽车金融领域的应用主要体现在通过智能化监控与数据分析技术，提升金融风控能力、优化资产管理和降低运营风险。以下从核心功能、技术赋能和实际场景三个方面展开分析：一、核心功能适配金融场景车辆资产动态监控实时定位与电子围栏：系统基于北斗/GPS双模定位技术，可实时追踪车辆位置，并设置电子围栏限制车辆行驶区域。若车辆驶出授权范围（如贷款合同约定的使用区域），系统立即触发报警并留存轨迹证据
《AI赋能行业实战：‌揭秘企业数字化转型最佳实践，‌落地案例深度解析！‌》 ---- 总目录 shiter 人工智能系统解决方案与技术架构人工智能大数据 AI
文章大纲金融行业落地实践浅析基于PySpark进行信用卡评分--实战案例迁移学习小样本金融风控生物信息识别大健康行业落地实践浅析传统行业深度融合升级如何深度参与创业？物联网行业案例浅析智慧园区案例浅析计算机视觉应用案例计算机视觉入门学习国外的资源国内的资源YOLO学习modelzoo计算机视觉基础目标检测YOLOv5YOLOv8自动缺陷检测(AutoDefectClassification）、零件
.NET/C#大型项目研发必备(5)--Web服务/WebApi的负载均衡 DeveloperSharp 负载均衡负载均衡器 web api 微服务
前言：本系列文章适合有初/中级.NET知识的同学阅读。（1）本系列文章，旨在讲述研发一个中大型项目所需要了解的一系列“基本构件”，并提供这些“基本构件”的【最简单】、【最快速】使用方法！！（并不深究技术原理）（2）通过阅读本系列文章，能让你在正规“项目研发”方面快速入门+进阶，并能达成“小团队构建大网站”的目的。（3）本系列文章采用的技术，已成功应用到人工智能、产业互联网、社区电商、游戏、金融风控
Datawhale零基础入门金融风控Task1 赛题理解一缕阳光lyz python
Task1赛题理解Tip:本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场——零基础入门金融风控之贷款违约预测挑战赛。赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。项目地址：http
零基础入门金融风控-贷款违约预测Task2 数据分析一缕阳光lyz 数据分析数据挖掘
Task2数据分析此部分为零基础入门金融风控的Task2数据分析部分，带你来了解数据，熟悉数据，为后续的特征工程做准备，欢迎大家后续多多交流。赛题：零基础入门数据挖掘-零基础入门金融风控之贷款违约目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工
梯度提升树系列9——GBDT在多任务学习中的应用 theskylife 数据挖掘学习数据挖掘机器学习 python 人工智能
目录写在开头1.多任务学习的基础知识1.1多任务学习的概念和优势1.1.1概念1.1.2优势1.2GBDT在多任务学习中的角色1.2.1GBDT的基本原理1.2.2GBDT在多任务学习中的应用2.实际应用案例和最佳实践2.1如何设计多任务学习模型2.2成功案例分享2.2.1推荐系统2.2.2金融风控2.2.3自然语言处理（NLP）3.挑战与解决方案3.1面临的技术挑战和解决策略3.1.1挑战1：任
基于Neo4j图数据库实现系统架构可视化文景大大
一、图数据库简介图数据库是NoSQL领域中的一种，在处理相关联的大数据方面比关系型数据库天然具有优势，近年来在知识图谱、金融风控、社交关系等场景中发挥了重要的角色功能。同时，图数据库在AI领域，天然适合诸如记忆提取、关联推理、归纳探索等场景，成为了人工智能领域不可缺少的部分。Neo4J是比较通用和常见的图数据库，具有社区版和企业版之分，普通学习使用免费的社区版即可。Neo4J还提供了一个Web访问
金融信贷风控业务详解 RobinCode 风控系统金融 java
前言Hi，大家好。今天我要根据以往的工作经验做一个全新的业务——金融风控、信贷风控等风控场景。带大家以全新的角度了解风控，包括风控信贷业务讲解、风控决策树、风控决策流、特征工程、三方数据对比和风控系统搭建等一系列知识。早期的信贷风控做法客户申请：客户需要填写详尽的信贷申请表，提供个人信息、财务状况、工作情况等。信誉评估：银行或信贷机构的工作人员会检查客户的信用历史，包括信用报告、历史债务和还款纪录
解释性AI（XAI）技术和方法李建军软件使用人工智能
可解释模型的实际应用：医疗诊断：在医疗领域中，决策树或规则集可用于构建简单的疾病诊断系统，如基于患者的症状、年龄和病史数据建立决策流程图，每一步骤都对应一个明确的医学判断标准。金融风控：逻辑回归模型应用于信贷审批时，系数权重揭示了哪些客户特征对违约概率的影响最大。例如，高负债与低收入的组合可能具有很高的风险权重，从而影响最终的贷款决策。局部解释工具的使用：LIME的应用：对于复杂的机器学习分类器预
查大数据检测到风险等级太高是怎么回事? 2401_82630523 大数据信用报告大数据查询平台
随着金融风控越来越多元化，大数据作为新兴的技术被运用到贷前风控中去了，不少人也了解过自己的大数据，但是由于相关知识不足，看不懂报告，在常见的问题中，大数据检测到风险等级太高是怎么回事呢?小易大数据小编为大家详细介绍讲讲。大数据风险等级高的原因主要有以下几点：一、申贷次数多，频率高在大数据报告中，对风险的划分中，多头借贷风险是有非常重要的分量。如果检测大数据发现风险等级高，多头风险一定是要先查明的，
产品经理应该懂的人工智能知识敲代码的小小酥人工智能产品经理人工智能
一、人工智能产品“三要素”算法、数据、计算能力是人工智能产品的三要素。二、人工智能产品的应用人工智能普遍应用的产品或服务可分为三大类：第一类是语音和文字处理，例如人工智能写新闻稿、机器人客服等；第二类是图像和视觉，例如自动驾驶、医疗影像诊断、机器人分拣、人脸识别等；第三类是大数据分析和预测，例如交互搜索引擎、智能推荐引擎、金融风控，健康风险管理系统等。三、机器学习处理过程（1）原始数据采集原始数据
大数据信用报告在线查询平台哪个好? 2401_82630523 大数据信用报告大数据查询平台大数据报告
随着大数据技术在金融风控的运用，大数据信用越来越被人熟知，由于线下没有查询大数据信用的地方，想要查询大数据信用报告只有在线上查询，那大数据信用报告在线查询平台哪个好呢?本文贷你一起去了解市面上比较好的三个平台。大数据信用报告在线查询平台：一、贝融助手：推荐指数★★☆优势：一站式服务：贝融助手提供一站式大数据查询服务，包括个人大数据报告、小微企业大数据信用报告、家政报告等等。劣势：需要下载APP比较
AIGC时代：大模型ChatGPT的技术实现原理、行业实践以及商业变现途径 AI周红伟 chatgpt AIGC 机器学习深度学习人工智能
大数据与人工智能实战专家—周红伟老师法国科学院数据算法博士/曾任猪八戒大数据科学家/曾任马上消费金融风控负责人课程背景2023年，以ChatGPT为代表的接近人类水平的对话机器人，AIGC不断刷爆网络，其强大的内容生成能力给人们带来了巨大的震撼。学术界和产业界也都形成共识：AIGC绝非昙花一现，其底层技术和产业生态已经形成了新的格局。就内容生产而言，AIGC作为新的生产力引擎，让我们从过去的PGC
深掘开源安全需求，破解开源治理难题开源网安开源安全产品面面观安全开源开源软件软件成分分析 sca
当下，中国金融科技行业在数字支付、数字信贷、金融风控等领域取得了很多创新成果，大幅提升了金融数字化和智能化水平，已经在金融科技的全球竞争中走在前列。在此进程中，开源技术发挥了不可或缺的重要作用，根据我国金融行业开源技术应用社区调研结果显示，金融机构中超过90%的企业引入了开源软件，近四成金融机构使用超过1000个开源软件。开源技术的广泛应用，不仅加速了数字产品的研发周期，降低了创新成本，还以社区协
机器学习算法决策树小森( ﹡ˆoˆ﹡ ) 机器学习算法决策树
决策树的介绍决策树是一种常见的分类模型，在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分，这种思想是人类处理问题时的本能方法。例如在婚恋市场中，女方通常会先询问男方是否有房产，如果有房产再了解是否有车产，如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。决策树的主要优点：具有很好的解释性，模型可以生成可以理解的规则。可以发现特征的重要程度
探索智能巡检机器人深度学习的奥秘超维机器人机器人深度学习人工智能
机器人深度学习（RobotDeepLearning）是指利用深度学习技术，使机器人能够从大量数据中学习和提取特征，进而实现自主感知、决策和行动的能力。通过深度学习算法，机器人可以从传感器获取的数据中自动学习模式和规律，不断优化自身的行为和性能，从而更加智能地应对各种复杂环境和任务。机器学习技术已经成为人工智能领域的关键组成部分，在图像识别、语音识别、自然语言处理、推荐系统、金融风控、医疗诊断等各个
金融风控Task2-数据分析 sunflowers11 天池
目的EDA（ExploratoryDataAnalysis）价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.了解变量间的相互关系、变量与预测值之间的存在关系。为特征工程做准备内容介绍数据总体了解：读取数据集并了解数据集大小，原始特征维度；通过info熟悉数据类型；粗略查看数据集中各特征基本统计量；缺失值和唯一值：查看数据缺失
规则引擎的行业概况 define_us java 云计算开发语言
主要应用规则引擎使用于规则复杂度中等（状态语义的规则少）。如果状态语义非常复杂，那么对用户而言，使用规则引擎的成本就会和使用代码类似规则数量多规则变化频繁的场景。最典型的场景就是金融风控&其他风控领域。风控：规则数据比较多，而且牵扯到用户核心敏感数据，会涉及外部数据采集，当天实时数据累计等，不能进行T+1的预计算。特别是金融风控领域。社交网站过滤等。比如UGC。每天大量的新增规则和配置。营销：相对
Task2 数据分析 (1) __y__
Task2数据分析此部分为零基础入门金融风控的Task2数据分析部分，带你来了解数据，熟悉数据，为后续的特征工程做准备，欢迎大家后续多多交流。赛题：零基础入门数据挖掘-零基础入门金融风控之贷款违约目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工
一文梳理金融风控建模全流程(Python) 风控小兵突击智能风控 python 数据分析算法机器学习数据挖掘概率论
▍目录一、简介风控信用评分卡简介Scorecardpy库简介二、目标定义与数据准备目标定义数据准备三、安装scorecardpy包四、数据检查五、数据筛选六、数据划分七、变量分箱卡方分箱手动调整分箱八、建立模型相关性分析多重共线性检验VIFKS和AUC评分映射PSI稳定性指标九、关键指标说明WOE值IV值逻辑回归KS值PSI▍风控信用评分卡简介通过运用数据挖掘算法，信贷风控系统可以像个"预言家"一
风控case demo总结 MusicDancing 读书笔记大数据
参考：金融风控项目(数据分析最后阶段精华总结很久!)_风控漏斗-CSDN博客1.信贷常识信贷业务(贷款业务)通过放款收回本金和利息，扣除成本后获得利润。贷款平台预测有信贷需求用户的还款情况，然后将本金借贷给还款概率大的用户；风控则是对用户的信用风险进行管理与规避，对于预测信用较差的人，不向其放款，即便放款，也会是较小的贷款额度和较高的利率。信贷领域有两类风险：信用风险(信用评分系统)：借款人的的还
贷款违约预测-Task5 模型融合致Great
Task5模型融合Tip:此部分为零基础入门金融风控的Task5模型融合部分，欢迎大家后续多多交流。赛题：零基础入门数据挖掘-零基础入门金融风控之贷款违约预测项目地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl比赛地址：https://tianchi.ali
人工智能助力金融风控：科技防范风险新利器 21CN科技人工智能科技
随着金融行业不断发展，金融风险的管理和防范也变得日益复杂。在这个背景下，人工智能（AI）作为一种强大的技术工具，正逐渐崭露头角，成为金融风控领域的新利器。本文将深入探讨人工智能在金融风控中的应用，以及其在防范各类风险方面的独特优势。人工智能在金融风控的应用场景人工智能技术在金融领域的应用早已超越了简单的数据分析和处理。从风险识别、信用评估到欺诈检测，人工智能通过强大的算法和模型，实现了在大数据背景
深度学习常用代码总结(k-means, NMS) BIT_Legend 深度学习--基本工具深度学习 kmeans 人工智能 python
目录一、k-means算法二、NMS一、k-means算法k-means是一种无监督聚类算法，常用的聚类算法还有DBSCAN。k-means由于其原理简单，可解释强，实现方便，收敛速度快，在数据挖掘、数据分析、异常检测、模式识别、金融风控、数据科学、智能营销和数据运营等领域有着广泛的应用。具体实现步骤为：设定K个类别的中心的初值；计算每个样本到K个中心的距离，按最近距离进行分类；以每个类别中样本的
金融风控AI—评分卡模型算法(1) hexter
一、概述办理过信用卡的朋友知道，开卡需要先申请（筛选好坏用户），可能还会根据你的信用情况会有不同的额度。这就是银行的信用风险计量体系。对于信用卡有4类评分卡：1）申请评分卡（A卡）2）行为评分卡（B卡）3）催收评分卡（C卡）4）欺诈评分卡（F卡）这些评分卡算法一样，只是训练的数据不同，所用的参数也就不同。蚂蚁金服的芝麻信用也是这样的。二、模型开发模型的开发主要包含以下几大部分工作：数据获取、数据预
Python金融风控模型案例实战大全 python机器学习建模论文复现 python风控模型人工智能 python 风控模型案例风控
大家好，我是Toby老师，今天介绍《Python金融风控模型案例实战大全》。1.《Python金融风控模型案例实战大全》程覆盖多个核心知识点，包括风控建模全流程知识介绍，信用评分卡，信用评分卡知识包含个人信用评分卡和企业信用评分卡知识；集成树算法xgboost，lightgbm，catboost，神经网络算法，多个异常值检测算法，多个变量筛选算法，数据清洗全流程等，可用于kaggle竞赛或银行模型
python风控建模实战（分类器模型+回归模型） python机器学习建模 python风控模型机器学习统计模型算法 python 数据挖掘
在全球数字经济时代，有一种金融优势，那就是基于消费者大数据的纯信用！我们不妨称之为数据信用，它是一种面向未来的财产权，它是数字货币背后核心的抵押资产，它决定了数字货币时代信用创造的方向、速度和规模。一句话，谁掌握了数据信用，谁就控制了数字货币的发行权！数据信用判断依靠的就是金融风控模型。数据信用判断依靠的就是金融风控模型。更准确的说谁能掌握风控模型知识，谁就掌握了数字货币的发行权！欢迎各位同学学习
贷款违约预测-Task2 数据分析致Great
Task2数据分析此部分为零基础入门金融风控的Task2数据分析部分，带你来了解数据，熟悉数据，为后续的特征工程做准备，欢迎大家后续多多交流。赛题：零基础入门数据挖掘-零基础入门金融风控之贷款违约目的：1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工
拆东墙补西墙-中国金融风控多头借贷数据分析 python风控模型论文毕设数据分析数据分析数据挖掘
引言在中国的金融行业中，多头借贷是一个备受关注的话题。多头借贷是指一个借款人同时从多个金融机构借款，这种行为可能会增加借款人的还款压力，也会增加金融机构的风险。因此，对多头借贷的风险进行有效的监控和分析对于金融机构和监管部门来说至关重要。本文将对中国金融风控多头借贷数据进行分析，探讨多头借贷的特点、影响因素以及风险控制策略。定义多头借贷（MultiplatformLoan/multipleborr
金融风控项目实战-python 评分卡 python风控模型论文毕设数据分析 python 人工智能开发语言
信用风险计量模型可以包括跟个人信用评级，企业信用评级和国家信用评级。人信用评级有一系列评级模型组成，常见是A卡（申请评分卡）、B卡（行为模型）、C卡（催收模型）和F卡（反欺诈模型）。今天我们展示的是个人信用评级模型的开发过程，数据采用kaggle上知名的givemesomecredit数据集。一、建模流程典型的信用评分卡模型如图1-1所示。信用风险评级模型的主要开发流程如下：（1）获取数据，包括申
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他