wjzeroooooo

阿里云天池大数据长期赛：金融风控-贷款违约预测（含代码）

前言

一、赛题介绍

二、数据描述性统计

2.1.读取数据

2.2.查看重复值

2.3.统计目标变量比例

2.4.查看数据的统计量

2.5.统计每个变量的种类

2.6.查看训练集与测试集的特征分布是否一致

2.7 查看数据相关性

三、数据清洗

3.1.分类变量处理

3.1.1 grade及subGrade处理

3.1.2 employmentLength处理

3.1.3 issueDate及earliesCreditLine处理

3.2 数值变量填充

3.3 保存数据

四、特征探索

4.1 PCA主成分分析

4.2 Toad：基于 Python 的标准化评分卡模型

4.2.1 toad_quality

4.2.2 toad.selection.select

4.2.3 psi：比较训练集和测试集的变量分布之间的差异

五、数据建模

总结

前言

通过本次比赛的学习，让自己在数据分析及挖掘的技能上又有了进一步提高，虽然最终成绩只有0.7346，但这个过程的经验积累价值是不可估量的，本人是第一次处理这么大量的数据，自己摸索的同时，又不断学习许多前辈的经验，让自己在大数据处理方面又有了新的认知。

一、赛题介绍

赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景，解决实际问题，帮助竞赛新人进行自我练习、自我提高。

该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

数据变量特征解释如下

二、数据描述性统计

2.1.读取数据

import pandas as pd     # 数据分布统计
df=pd.read_csv("/train.csv")
test=pd.read_csv("/testA.csv")
df.shape

(800000, 47)  训练集有80万个样本，47个变量

2.2.查看重复值

df[df.duplicated()==True]#打印重复值

0 rows × 47 columns 无重复值

2.3.统计目标变量比例

(df['isDefault'].value_counts()/len(df)).round(2)

0    0.8
1    0.2

目标变量比例1：4，样本类别不平衡

2.4.查看数据的统计量

df.describe().T

n系列特征都有缺失，贷款金额及年收入等涉及金额的数据标准差都比较大，波动性大。

2.5.统计每个变量的种类

df.nunique()
df=df.drop(['id','policyCode'],axis=1) # 删除ID列及只有一个值的policyCode列

2.6.查看训练集与测试集的特征分布是否一致

# 分离数值变量与分类变量
Nu_feature = list(df.select_dtypes(exclude=['object']).columns)  # 数值变量
Ca_feature = list(df.select_dtypes(include=['object']).columns)
# 查看数值型训练集与测试集分布
Nu_feature.remove('isDefault') # 移除目标变量
# 画图
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
plt.figure(figsize=(30,30))
i=1
for col in Nu_feature:
    ax=plt.subplot(8,5,i)
    ax=sns.distplot(df[col],color='violet')
    ax=sns.distplot(test[col],color='lime')
    ax.set_xlabel(col)
    ax.set_ylabel('Frequency')
    ax=ax.legend(['train','test'])
    i+=1
plt.show()

由于变量较多，只展示了部分变量，分布是一致的，如果训练集与测试集分布不一致，会影响模型泛化性能，就好比训练的是老人的特征，结果是预测小孩的特征。

2.7 查看数据相关性

plt.figure(figsize=(10,8))
train_corr=df.corr()
sns.heatmap(train_corr,vmax=0.8,linewidths=0.05,cmap="Blues")

部分特征相关性比较高，目标变量与特征变量之间没有特别高的相关性

三、数据清洗

3.1.分类变量处理

Ca_feature:['grade', 'subGrade', 'employmentLength', 'issueDate', 'earliesCreditLine']

3.1.1 grade及subGrade处理

from sklearn.preprocessing import LabelEncoder     
lb = LabelEncoder()                               
cols = ['grade','subGrade']
for j in cols:
    df[j] = lb.fit_transform(df[j])
df[cols].head() 

#grade及subGrade是有严格的字母顺序的，与测试集相对应，可以直接用编码转换，转换结果如下
  grade	subGrade
0	4	  21
1	3	  16
2	3	  17
3	0	  3
4	2	  11

3.1.2 employmentLength处理

# 年限转化为数字，在进行缺失值填充
df['employmentLength']=df['employmentLength'].str.replace(' years','').str.replace(' year','').str.replace('+','').replace('< 1',0)

# 随机森林填补年限缺失值 由于分类变量只有年限有缺失，所以这样填充
from sklearn.tree import DecisionTreeClassifier   
DTC = DecisionTreeClassifier()
empLenNotNull = df.employmentLength.notnull()
columns = ['loanAmnt','grade','interestRate','annualIncome','homeOwnership','term','regionCode'] 
# regionCode变量加入后，准确度从0.85提升至0.97 
DTC.fit(df.loc[empLenNotNull,columns], df.employmentLength[empLenNotNull])
print(DTC.score(df.loc[empLenNotNull,columns], df.employmentLength[empLenNotNull]))
# DTC.score：0.9828872204324179

# 填充
for data in [df]:
    empLen_pred = DTC.predict(data.loc[:,columns])   # 对年限数据进行预测
    empLenIsNull = data.employmentLength.isnull()    # 判断是否为空值，isnull返回的是布尔值
    data.employmentLength[empLenIsNull] = empLen_pred[empLenIsNull] # 如果是空值进行填充

# 转化为整数
df['employmentLength']=df['employmentLength'].astype('int64')

3.1.3 issueDate及earliesCreditLine处理

import datetime
df['issueDate']=pd.to_datetime(df['issueDate'])
df['issueDate_year']=df['issueDate'].dt.year.astype('int64')
df['issueDate_month']=df['issueDate'].dt.month.astype('int64')
df['earliesCreditLine']=pd.to_datetime(df['earliesCreditLine'])  # 先在EXCEL上转化为日期
df['earliesCreditLine_year']=df['earliesCreditLine'].dt.year.astype('int64')
df['earliesCreditLine_month']=df['earliesCreditLine'].dt.month.astype('int64')
df=df.drop(['issueDate','earliesCreditLine'],axis=1)
# issueDate及earliesCreditLine两个变量将日期分解，分别提取‘年’和‘月’并转化为整数便于计算，由于测试集这两个变量的‘日’都是1，对目标变量没有影向，所以训练集不提取，提取完后将这两个原始变量删除

3.2 数值变量填充

df[Nu_feature] = df[Nu_feature].fillna(df[Nu_feature].median())  
# 考虑平均值易受极值影响，数值变量用中位数填充

3.3 保存数据

df.to_csv("/df2.csv")

说明：测试集也需要做相同的处理

四、特征探索

4.1 PCA主成分分析

from sklearn.decomposition import PCA
pca = PCA()
X1=df2.drop(columns='isDefault')
df_pca_train = pca.fit_transform(X1)
pca_var_ration = pca.explained_variance_ratio_
pca_cumsum_var_ration = np.cumsum(pca.explained_variance_ratio_)
print("PCA 累计解释方差")
print(pca_cumsum_var_ration)
x=range(len(pca_cumsum_var_ration))
plt.scatter(x,pca_cumsum_var_ration)
###################
PCA 累计解释方差
[0.6785479  0.96528967 0.99287836 0.99667955 0.9999971  0.99999948
 0.99999985 0.99999993 0.99999995 0.99999996 0.99999998 0.99999998
 0.99999999 0.99999999 0.99999999 1.         1.         1.
 1.         1.         1.         1.         1.         1.
 1.         1.         1.         1.         1.         1.
 1.         1.         1.         1.         1.         1.
 1.         1.         1.         1.         1.         1.
 1.         1.         1.        ]

可以看到前两个变量累计就达到接近1的方差贡献率，降维效果明显，但不适用于建模。

4.2 Toad：基于 Python 的标准化评分卡模型

4.2.1 toad_quality

import toad
toad_quality = toad.quality(df2, target='isDefault', iv_only=True)
# 计算各种评估指标，如iv值、gini指数，entropy熵，以及unique values，结果以iv值排序
# 	             iv
subGrade	    0.485106565
interestRate	0.463530061
grade	        0.463476859
term	        0.172635079
ficoRangeLow	0.125252862
ficoRangeHigh	0.125252862
dti	            0.072902752
verificationStatus	0.054518912
n14	            0.045646121
loanAmnt	    0.040412211
installment	    0.039444828
title	        0.034895535
issueDate_year	0.034170341
homeOwnership	0.031995853
n2	            0.031194387
n3	            0.031194387
annualIncome	0.030305725
n9	            0.029678353
employmentTitle	0.028019829
revolUtil	    0.025677543

上面展示了IV值大于0.02的特征，IV值小于0.02的特征对目标变量几乎没有作用，本人已测试仅用上述特征建模，模型效果没有全部特征好

4.2.2 toad.selection.select

selected_data, drop_lst= toad.selection.select(df2,target = 'isDefault', empty = 0.5, iv = 0.02, corr=0.7,return_drop=True) 
# 筛选空值率>0.5，IV<0.02，相关性大于0.7的特征
# (800000, 15) 保留了15个特征
# 以下是删除的特征，通过return_drop=True显示
   {'empty': array([], dtype=float64),
   'iv': array(['employmentLength', 'purpose', 'postCode', 'regionCode',
        'delinquency_2years', 'openAcc', 'pubRec', 'pubRecBankruptcies',
        'revolBal', 'totalAcc', 'initialListStatus', 'applicationType',
        'n0', 'n1', 'n4', 'n5', 'n6', 'n7', 'n8', 'n10', 'n11', 'n12',
        'n13', 'issueDate_month', 'earliesCreditLine_year',
        'earliesCreditLine_month'], dtype=object),
   'corr': array(['n9', 'grade', 'n3', 'installment', 'ficoRangeHigh',
          'interestRate'], dtype=object)}

通过筛选的特征用于建模，效果也不好

4.2.3 psi：比较训练集和测试集的变量分布之间的差异

psi = toad.metrics.PSI(df2,testA)   # psi没有大于0.25的，都比较稳定
psi.sort_values(0,ascending=False)
##############部分结果展示##############
revolBal                   2.330739e-01
installment                1.916890e-01
employmentTitle            1.513944e-01
employmentLength           6.919465e-02
annualIncome               4.075954e-02
dti                        2.810131e-02
title                      1.875967e-02

特征工程是机器学习中不可或缺的一部分，也是十分庞杂的工程，本人也只是做了简单的尝试。

五、数据建模

本人对比了xgboost及catboost，最终选择了catboost，尝试结果如下：

RandomForestClassifier+xgboost	AUC 测试0.721/线上0.71
xgboost+toad	AUC 测试0.722
catboost+toad	AUC 测试0.727
catboost+类别变量	AUC 测试0.736/线上0.72
catboost+5KFold+500iterations	AUC 测试0.734/线上0.728
catboost+3KFold+300iterations+增加类别变量	AUC 测试0.738/线上0.7346

from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split  
from catboost import CatBoostClassifier
from sklearn.model_selection import KFold
train=pd.read_csv("/df2.csv")
testA2=pd.read_csv("/testA.csv")
# 选取相关变量做分类变量并转化为字符串格式
col=['grade','subGrade','employmentTitle','homeOwnership','verificationStatus','purpose','issueDate_year','postCode','regionCode','earliesCreditLine_year','issueDate_month','earliesCreditLine_month','initialListStatus','applicationType']
for i in train.columns:
    if i in col:
        train[i] = train[i].astype('str')
for i in testA2.columns:
    if i in col:
        testA2[i] = testA2[i].astype('str')
# 划分特征变量与目标变量
X=train.drop(columns='isDefault')
Y=train['isDefault']
# 划分训练及测试集
x_train,x_test,y_train,y_test=train_test_split(X,Y,test_size=0.2,random_state=123)
# 模型训练
clf=CatBoostClassifier(
            loss_function="Logloss",
            eval_metric="AUC",
            task_type="CPU",
            learning_rate=0.1,
            iterations=300,
            random_seed=2022,
            od_type="Iter",  
            depth=7) 
result = []
mean_score = 0
n_folds=3
kf = KFold(n_splits=n_folds ,shuffle=True,random_state=2022)
for train_index, test_index in kf.split(X):
    x_train = X.iloc[train_index]
    y_train = Y.iloc[train_index]
    x_test = X.iloc[test_index]
    y_test = Y.iloc[test_index]
    clf.fit(x_train,y_train,verbose=300,cat_features=col)
    y_pred=clf.predict_proba(x_test)[:,1]
    print('验证集auc:{}'.format(roc_auc_score(y_test, y_pred)))
    mean_score += roc_auc_score(y_test, y_pred) / n_folds
    y_pred_final = clf.predict_proba(testA2)[:,-1]
    result.append(y_pred_final)
# 模型评估
print('mean 验证集Auc:{}'.format(mean_score))
cat_pre=sum(result)/n_folds  
# 结果
0:	total: 3.13s	remaining: 15m 35s
299:	total: 9m 15s	remaining: 0us
验证集auc:0.7388007571702323
0:	total: 2.08s	remaining: 10m 20s
299:	total: 9m 45s	remaining: 0us
验证集auc:0.7374681864389327
0:	total: 1.73s	remaining: 8m 38s
299:	total: 9m 22s	remaining: 0us
验证集auc:0.7402961974320663
mean 验证集Auc:0.7388550470137438

说明：catboost能高效合理地处理类别型特征，只需要使用cat_features 参数指定分类特征即可，加入的类别特征越多，计算也越耗时，但效果也有一定提升。可以看出3次交叉验证跑完就耗时接近半小时，还只是在iterations=300的情况下，由于本人PC能力有限，所以参数方面就没有过多的调整测试，对于大数据目标变量的预测，交叉验证是必不可少的，可以通过训练集与测试集的不同划分，让模型进行更多的学习，同时通过每一次的预测结果最后平均，使结果更加稳定。

总结

1.关于样本平衡的问题，imbalanced_ensemble是个不错的尝试，该库有很多平衡样本的方法，本人已经试过OverBoostClassifier、BorderlineSMOTE、SPE的方法来平衡类别，过采样容易增加噪声，导致训练集表现不错，测试集一般，同时会导致小样本量预测失准，降采样容易导致对大样本量学习不足，但并不代表平衡样本的方法就不适用，还需要不断摸索。

2.对于缺失值的问题，一般都是数值型变量用中位数填充，类别变量用众数填充，还可以通过回归模型选取相关变量进行预测，可能会有惊喜。

3.此类风控预测如果能够结合业务人员的经验对变量进行筛选和补充，相信会有不一样的结果。

4.关于特征降维还有很多方法可以尝试，PCA只是其中一种，特征工程也是一个庞杂的体系，需要不断学习。

5.关于模型调参，可以适当提高预测精度，如果时间允许，可以组合测试参数。

6.参赛的过程大于结果，从中学到的知识和经验会为我今后大数据处理打下基础。

Django学习笔记 mengmwng Django django 学习笔记
学习视频来源：最新Python的web开发全家桶代码仓库：https://gitee.com/m_engmeng/django-learning1.创建项目Django中项目会有一些默认的文件和文件夹1.1在终端打开终端进入某个目录(项目放在哪里)输入命令——创建项目(最后一个参数是项目名)django-adminstartprojectmysite继续输入——创建app（最后一个参数是app所处
【python GUI编码入门-04】使用Tkinter实现拖放操作：打造交互式GUI的秘诀木头左 python办公自动化 python
哈喽，大家好，我是木头左！理解拖放操作的基础在开始编码之前，需要了解拖放操作的基本概念。简单来说，拖放是一种用户通过鼠标移动对象（如文件、图标或窗口中的组件）并将其放置在新位置的操作。在Tkinter中，这涉及到几个关键步骤：捕获拖动事件、更新对象位置以及处理放置事件。环境搭建与基础组件确保你的Python环境中安装了Tkinter。大多数Python发行版默认包含Tkinter，但如果没有，你可
Pygubu：Tkinter界面设计的得力助手牧怡泳
Pygubu：Tkinter界面设计的得力助手pygubuAsimpleGUIbuilderforthepythontkintermodule项目地址:https://gitcode.com/gh_mirrors/py/pygubuPygubu，一个专为Python开发者打造的轻量级GUI构建器，采用Python编程语言实现。它简化了基于Tkinter模块的图形用户界面的创建过程，让快速原型设计和
python3+TensorFlow 2.x 基础学习（一）刀客123 python学习 tensorflow 学习人工智能
目录TensorFlow2.x基础1、安装TensorFlow2.x2、TensorFlow2.x基础概念2、1EagerExecution2、2TensorFlow张量（Tensor）3、使用Keras构建神经网络模型3、1构建Sequential模型3、2编译模型1、Optimizer（优化器）2、Loss（损失函数）3、Metrics（评估指标）3、3训练模型3、4评估模型3、5预测4、使用
数据结构与算法再探（二）栈与队列的应用刀客123 数据结构与算法数据结构算法
目录栈应用举例std::stack的基本操作：队列实现栈c++版单队列方式python3应用实例（一）：括号匹配C++栈C++非栈方式python实现实例(二）：后缀表达式求值c++实现python实现队列的应用队：std::queue基本操作栈实现队列队列应用举例：1、约瑟夫问题数组实现：队列实现：双向链表2、单调队列-滑动窗口里的最大值C++python3总结栈应用举例栈是操作受限的线性表，典
Java 大视界 -- Java 大数据中的自然语言生成技术与实践（63）青云交大数据新视界 Java 大视界大数据自然语言生成基于规则模型基于统计模型基于深度学习模型新闻写作智能客服
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
[Windows][Python] GUI设计 BennyCP [跨平台语言]Python
MakeaGUIonWindowsXSetuppythonInstallpipcurlhttps://bootstrap.pypa.io/get-pip.py-oget-pip.pypythonget-pip.pyInstallPyinstallerpipinstallPyInstallerWriteaGUIcodeimportwxapp=wx.App()win=wx.Frame(None,tit
动态规划详解-最小路径和问题【python】数据分析螺丝钉 LeetCode刷题与模拟面试动态规划算法 leetcode python 数据结构
作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。会一些的技术：数据分析、算法、SQL、大数据相关、python欢迎加入社区：码上找工作作者专栏每日更新：LeetCode解锁1000题:打怪升级之旅python数据分析可视化：企业实战案例备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级1.问题介绍和应用场景最小路径和问题是一个常见的动态规划问
Python使用 try-except 捕获与处理异常大数据张老师 Python程序设计 python
使用try-except捕获与处理异常在Python中，try-except语句是用于捕获和处理异常的主要工具。当程序运行过程中发生错误时，try-except结构可以有效地防止程序崩溃，并允许开发者为错误提供适当的解决方案。这种机制非常适合用来处理那些不可预测的情况，例如用户输入错误、文件丢失或计算错误等。通过使用try-except结构，程序可以在出现错误时继续运行，而不是突然终止。这种方式可
python----try-except语句吉730 大数据
try:#将可能出现问题的代码，放到try的代码块中num01=int(input("number01:"))num02=int(input("number02:"))result=num01/num02exceptValueError:#except错误类型:捕获异常并解决问题print("字母和字符无法转成数字，请下次注意")exceptZeroDivisionErrorase:#ase:接收
用Python打造精彩动画与视频，6.3 项目案例分析蝴蝶江湖 python 开发语言
6.3项目案例分析在这一节中，我们将通过具体的项目案例，深入探索Manim的潜力，并展示如何使用Manim创建复杂且富有表现力的动画。这些案例将涵盖数学、物理以及其他科学领域，帮助您更好地理解和应用Manim。6.3.1案例一：展示数学定理frommanimimport*classPythagoreanTheorem(Scene):defconstruct(self):#创建一个直角三角形tria
python学opencv|读取图像（四十四）原理探究：bitwise_and()函数实现图像按位与运算西猫雷婶人工智能 opencv 人工智能计算机视觉
【1】引言前序学习进程中，已经掌握了两张图片按位与操作的基本技巧：python学opencv|读取图像（四十三）使用cv2.bitwise_and()函数实现图像按位与运算-CSDN博客【2】cv2.bitwise_and()函数实现图像按位与运算原理【2.1】图像运算在前述学习过程中，我们只是使用了cv2.bitwise_and()函数，其实未曾深入探究其根本原理。为实现原理探索，直接使用彩色图
python如何代替arduino_用电脑Python控制Arduino weixin_39980809
python指令：importserial#导入串口通讯库importtimeser=serial.Serial("com4",9600,timeout=1)demo1=b"0"demo2=b"1"while1:c=input('请输入指令:')if(c=='0'):ser.write(demo1)if(c=='1'):ser.write(demo2)Arduino指令voidsetup(){Se
python和arduino哪个好_Arduino各开发板的比较 weixin_39796855
本帖最后由亚伦安娜于2017-2-2616:18编辑查了好久，发现除了奈何等等几位大神总结过arduino各板子之间的性能、差异，没有很新的分析文章，在此斗胆写一篇测评。亚伦安娜写以方便刚刚开始学Arduino的朋友买到合适的开发板。Arduino系列开发板实在太多，本人水平不高、能力有限，仅以9款开发板进行说明，有错误的地方请给予支出，万分感谢。不是数据控的可以直接看最后的总结，数据资料大部分来
python实现websocket_基于Python实现WebSocket握手过程 weixin_39757040
importsocketimportbase64importhashlibdefget_headers(data):“””将请求头格式化成字典:paramdata::return:“””header_dict={}data=str(data,encoding=’utf-8′)header,body=data.split(‘\r\n\r\n’,1)header_list=header.split(‘
用python做一个上位机串口通信_使用python指令控制Arduino控件 weixin_39631261
当我们实现两个代码之间的通信时，使用串口通信是非常方便的，比如使用python指令控制Arduino控件的开关。这里有两个重要的环节：串口通信和上位机控制。一、串口通信串行接口简称串口，也称串行通信接口或串行通讯接口（通常指COM接口），是采用串行通信方式的扩展接口。串行接口(SerialInterface)是指数据一位一位地顺序传送，其特点是通信线路简单，只要一对传输线就可以实现双向通信（可以直
python 异常 try-except句型 tanyjin Python python 异常
1.句型try:表达式1（如果表达式，可以成功执行，则执行，跳到finally语句）exceptExpectErrorType,Argument:（表达式1没有做成功，且正好是ExpectErrorType的错误情况，则执行）表达式2（如何处理这种异常情况）else:（trysucc&&上面except语句任一满足）之外的情况处理方法.....finally:....无论什么情况都会的处理2.ex
2021-10-08 用Python写的Linux下的转换word的docx文件为pdf文件，并使用Docker容器自动化部署 Amoor123 值得收藏的Python小技巧 docker python linux
文档层级完整项目资源代码先上源代码程序的基本思路是在数据库中存储文件名和他的MD5信息，校验这两个数据，如果数据库里面没有就转换，如果有就不转换，如果文件名有但MD5不同，就要删除原有的数据条目，避免word文档回到旧版本时转换不了importsubprocess#fromwin32com.clientimportgencache#fromwin32com.clientimportconstant
python模块websockets，浏览器与服务器之间的双向通信局外人LZ python python 开发语言
一、简介WebSocket是一种在Web浏览器和服务器之间进行实时双向通信的协议。它通过建立一条持久的连接，允许服务器主动向客户端推送数据，实现实时性和双向通信的能力。与传统的HTTP请求-响应模式不同，WebSocket提供了一个长时间运行的连接，可以在客户端和服务器之间进行双向通信。这意味着服务器可以主动向客户端发送数据，而不需要客户端发起请求。这种实时性和双向通信的特性使得WebSocket
Python_time库、直接动手 #Python python time
time库1.预知：单行动态刷新刷新的关键是\r刷新的本质是：用后打印的字符覆盖之前的字符不能换行：print()需要被控制要能回退：打印后光标回退之前的位置\r例：importtimeforiinrange(101):print(“\r{:3}%”.format(i),end=“”)time.sleep(0.1)#end=””表示将字符串最后的默认”/n”变成””(空),即不会换行2.定义:ti
python之time库 qq_44659804 python python 开发语言
python之time库time库time.strftime()的格式化示例time.time()示例time.localtime()示例time.gmtime()示例time.ctime()示例time.asctime()示例time.strftime()示例time.strptime()示例time.sleep()time库Python中内置了一些与时间处理相关的库，如time、datatim
Pandas读写JSON文件的终极指南与实战技巧read_json、to_json 步入烟尘 Python超入门指南全册 pandas json python 文件处理实战技巧
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
【python学习】一篇带你玩转 Python JSON 操作的终极指南：dump、dumps、load、loads 全解析 NLP仙人 python python 学习 json
在现代编程中，JSON(JavaScriptObjectNotation)是一种广泛使用的数据交换格式。在Python中，处理JSON数据是一项常见的任务，Python提供了强大的json模块来轻松地进行JSON编码和解码。本文将详细介绍json.dump、json.dumps、json.load和json.loads四个函数的用法，并通过代码示例帮助你掌握这些工具。json.dump和json.
使用Python轻松控制Arduino的宝藏库：Python Arduino Command API 尚舰舸Elsie
使用Python轻松控制Arduino的宝藏库：PythonArduinoCommandAPI去发现同类优质开源项目:https://gitcode.com/1、项目介绍你是否曾因反复上传Arduino代码到板子上而感到困扰？PythonArduinoCommandAPI是一个轻量级的Python库，它通过标准串行接口，无论是有线还是无线连接，让你能直接与Arduino微控制器进行通信。这个库采用
Java 大视界 -- Java 大数据中的知识图谱构建与应用（62）青云交大数据新视界 Java 大视界大数据知识图谱信息抽取知识融合智能搜索智能推荐风险评估
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
【2024最新】Arduino通过Python进行串口通信控制电机 YLCHUP Arduino python 单片机开发语言 c++arduino 人工智能硬件工程
1.背景最近想研究一下用Python控制Arduino的技术，通过上网查询，发现可以用Python中的serial库来实现和Arduino主板的串口通信，从而控制Arduino。特此记录一下这个小项目的过程及出现的问题。2.基础准备主板：ArduinoAVR开发板配件：LED灯、按钮、电机Python版本：Python3.8.1所需类库：Python-serial（安装：命令行输入pipinsta
Python读取JSON文件 UIEdit python json 前端 Python
在Python中，我们可以使用内置的json模块来读取和解析JSON文件。JSON（JavaScriptObjectNotation）是一种常用的数据交换格式，它以易于阅读和编写的文本形式存储数据。下面是使用Python读取JSON文件的详细步骤。步骤1:导入所需模块首先，我们需要导入Python的json模块，该模块提供了处理JSON数据的函数和方法。importjson步骤2:打开JSON文件
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解 Eastmount Python从零到壹 python 目标检测 ImageAI 图像是被基础系列
欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
Python 读取Json的方法 AresGod python python json
一种直接用open的方法importjsonld=json.load(open(r’D:\temp\in.json’))另外一种方法importjsonf=file(r’D:\temp\in.json’))ld=json.load(f)这两种方法都可以直接对文件进行解析而对于字符串的解析，就要用到loadsfoo=‘{“age”:38}’my_json=json.loads(foo)
Python之time时间库 CodeDevMaster Python python 后端
time时间库概述获取当前时间time库datetime库区别时间元组处理获取时间元组的各个部分时间戳和时间元组的转换格式化时间格式化时间解析时间格式符号说明暂停程序计时操作简单计时高精度计时计时器类的实现UTC时间操作time库datetime库概述time是Python标准库中的一个模块，用于处理时间相关的操作。它提供了各种函数来获取当前时间、格式化时间、进行时间的转换和计算等。首先，需要导入
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

阿里云天池大数据长期赛：金融风控-贷款违约预测（含代码）

前言

前言

一、赛题介绍

二、数据描述性统计

2.1.读取数据

2.2.查看重复值

2.3.统计目标变量比例

2.4.查看数据的统计量

2.5.统计每个变量的种类

2.6.查看训练集与测试集的特征分布是否一致

2.7 查看数据相关性

三、数据清洗

3.1.分类变量处理

3.1.1 grade及subGrade处理

3.1.2 employmentLength处理

3.1.3 issueDate及earliesCreditLine处理

3.2 数值变量填充

3.3 保存数据

四、特征探索

4.1 PCA主成分分析

4.2 Toad： 基于 Python 的标准化评分卡模型

4.2.1 toad_quality

4.2.2 toad.selection.select

4.2.3 psi：比较训练集和测试集的变量分布之间的差异

五、数据建模

总结

你可能感兴趣的:(大数据,Python,数据挖掘,数据分析,数据挖掘)

4.2 Toad：基于 Python 的标准化评分卡模型