高羊羊羊羊羊杨

Python案例分析之客户信贷预测模型

阅读提示

本文将通过逻辑回归算法实现用户信贷预测模型的建立，本次实验涉及到数据清洗、建模、预测三部分，希望各位读者能有所收获，感谢阅读。

一、项目解读

对年轻人来说，还花呗可以说是每个月必备的一项任务了，很有可能刚到手的工资还花呗就已经花去了大半。那么在这个快节奏的时代中，有时候我们需要支配一些资金去满足某些需求，但又因为囊中羞涩一时无法拿出太大的数额，为了解决这中尴尬的局面，信贷机构悄然产生了。

信贷业务又称为信贷资产或贷款业务，是商业银行最重要的资产业务，通过放款收回本金和利息，扣除成本后获得利润，所以信贷是商业银行的主要赢利手段。
由于放款脱离了银行的控制，不能按时收回本息的风险较大，所以对信贷应在遵守合同法和贷款通则的基础上，建立严格的贷款制度，其主要内容是：建立贷款关系，贷款申请，贷前调查，贷款审批及发放，贷后检查，贷款收回与展期，信贷制裁等制度。

1.1 逻辑回归算法

1.1.1 Logistic函数

Logistic回归模型中的因变量只有1和0（发生于不发生）两种。假设在p个独立自变量x1，x2…xp作用下，y取1的概率是p = P（y = 1|X）取0的概率是1-p，取1和取0的概率之比为
$\frac{p}{1-p}$
称为事件的优势比（odds），对odds取自然对数得Logistic变换
$ln(\frac{p}{1-p}) 称为①$
令①=z，则
$\frac{1}{1+e^{z}}$
称为Logistic函数

如图：

1.1.2Logistic回归建模步骤

a、根据分析目的设置指标变量(因变量和自变量),然后收集数据，根据收集到的数据，对特征再次进行筛选

b、y取1的概率是p= P(y= 1|X)，取0概率是1-p。用
$ln(\frac{p}{1-p})$
和自变量列出线性回归方程，估计出模型中的回归系数
c、进行模型检验。模型有效性的检验指标有很多，最基本的有正确率，其次有混淆矩阵、ROC曲线、KS值等。

d、模型应用:输入自变量的取值，就可以得到预测变量的值，或者根据预测变量的值去控制自变量的取值。

实例：

年龄	教育	工龄	地址	收入	负债率	信用卡负债	其他负债	违约
41	3	17	12	176.00	9.30	11.36	5.01	1
27	1	10	6	31.00	17.30	1.36	4.00	0

需要数据集请私聊我

利用Scikit-Learn对这个数据进行逻辑回归分析。首先进行特征筛选，特征筛选的方法有很多，主要包含在Scikit_Learn 的feature_ selection 库中，比较简单的有通过F检验(f_ regression)来给出各个特征的F值和p值，从而可以筛选变量(选择F值大的或者p值小的特征)。其次有递归特征消除( Recursive Feature Elimination, RFE)和稳定性选择(StabilitySelection)等比较新的方法。这里使用了稳定性选择方法中的随机逻辑回归进行特征筛选，然后利用筛选后的特征建立逻辑回归模型，输出平均正确率。

逻辑回归代码

# -*- coding: utf-8 -*-
# 逻辑回归 自动建模
import pandas as pd

# 参数初始化
filename = '../data/bankloan.xls'
data = pd.read_excel(filename)
x = data.iloc[:, :8].as_matrix()
y = data.iloc[:, 8].as_matrix()

from sklearn.linear_model import LogisticRegression as LR
from stability_selection.randomized_lasso import RandomizedLogisticRegression as RLR

rlr = RLR()  # 建立随机逻辑回归模型，筛选变量
rlr.fit(x, y)  # 训练模型
rlr.get_support()  # 获取特征筛选结果，也可以通过.scores_方法获取各个特征的分数
print(u'通过随机逻辑回归模型筛选特征结束。')
print(u'有效特征为：%s' % ','.join(data.columns[rlr.get_support()]))
x = data[data.columns[rlr.get_support()]].as_matrix()  # 筛选好特征

lr = LR()  # 建立逻辑货柜模型
lr.fit(x, y)  # 用筛选后的特征数据来训练模型
print(u'逻辑回归模型训练结束。')
print(u'模型的平均正确率为：%s' % lr.score(x, y))  # 给出模型的平均正确率，本例为81.4%

结果：

通过随机逻辑回归模型筛选特征结束。
有效特征为：工龄，地址，负债率，信用卡负债
逻辑回归模型训练结束。
模型的平均正确率为：0.814285714286

1.2 客户逾期还款业务

在本文中，将通过对收集到的贷款机构数据集进行清洗与建模，预测用户是否具有还款能力并判断是否贷款给该用户，本文将从数据清洗、数据挖掘、数据建模三个方面进行一个小小的实战操作。

1.3 数据源内容解读

数据集是Lending Club平台产生借贷的业务数据，共有52个变量，39522条记录。

让我们先看一下数据集是什么样子

可以看到数据样本中有很多很多列属性，而每一列都代表什么特征呢？

这里我选取了一部分进行汉化

而在我们真正进行建模的时候，并不是所有的属性都会用到，我们需要先对数据进行预处理。

1.4 Python主要数据预处理函数

在数据挖掘中，海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据，严重影响到数据挖掘建模的执行效率，甚至可能导致挖掘结果的偏差，所以进行数据清洗就显得尤为重要，数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理，该过程就是数据预处理。数据预处理一方面是要提高数据的质量，另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现，在数据挖掘的过程中，数据预处理工作量占到了整个过程的60%。

数据预处理的主要内容包括：数据清洗、数据集成、数据变换和数据规约

函数名	函数功能	所属拓展库
interpolate	一维、高维数据插值	Scipy
unique	去除数据中的重复元素，得到单值元素列表，它是对象的方法名	Pandas/Numpy
isnull	判断是否为空	Pandas
notnull	判断是否非空	Pandas
PCA	对指标变量矩阵进行主成分分析	Scikit-Learn
random	生成随机矩阵	Numpy

1.4.1 interpolate

功能： interpolate是Scipy的一一个子库，包含了大量的插值函数，如拉格朗日插值、样条插值、高维插值等。使用前需要用from scipy.interpolate import *引入相应的插值函数，可以根据需要到官网查找对应的函数名。

使用格式：

f = scipy.interpolate.lagrange(x,y)

这里仅仅展示了一维数据的拉格朗日插值的命令，其中x, y为对应的自变量和因变量数据。插值完成后，可以通过f(a) 计算新的插值结果。类似的还有样条插值、多维数据插值等，此处不一一展示。

1.4.2 unique

**功能: ** 去除数据中的重复元素，得到单值元素列表。它既是Numpy库的一个函数(np.unique（）),也是Series对象的一个方法。

使用格式：

np.unique（D），D是一维数据，可以是list、array、Series
D.unique（），D是Pandas的Series对象

实例：

求向量A中的单值元素，并返回相关索引

D = pd.Series([1, 1, 2, 3, 5])
print(D.unique())
print(np.unique(D))

结果：

[1 2 3 5]
[1 2 3 5]

Process finished with exit code 0

1.4.3 isnull / notnull

功能： 判断每个元素是否空值 / 非空值

使用格式： D.isnull（）/ D.notnull（）。这里的D要求是Series对象，返回一个布尔Series。可以通过D [ D.isnull（）]或D[D.notnull（）]找出D中的空值 / 非空值。

1.4.4andom

功能: random是Numpy的一个子库(Python本身也自带了random,但Numpy的更加强大)，可以用该库下的各种函数生成服从特定分布的随机矩阵，抽样时可使用。

使用格式

np.random.randn(k, m, n,…生成一个k * m * n *… 随机矩阵，其元素均匀分布在区间(0,1)上
np.random.randn(k, m, n…)_.生成一个k * m * n * …随机矩阵，其元素服从标准正态分布

1.4.5 PCA

功能： 对指标变量矩阵进行主成分分析,使用前需要用from sklearn.decomposition import PCA引入该函数。

使用格式: model = PCA（）。注意，Scikit-Learn 下的PCA是一个建模式的对象，也就是说，一般的流程是建模，然后是训练model.fit(D)，D为要进行主成分分析的数据矩阵，训练结束后获取模型的参如.components_获取特征向量，以及.explained_ variance. _ratio_获取各个属性的贡献率等。

实例：

使用PCA()对一个10 * 4 维的随机矩阵进行主成分分析

from sklearn.decomposition import PCA

D = np.random.randn(10, 4)
pca = PCA()
pca.fit(D)
PCA(copy=True, n_components=None, whiten=False)
print(pca.components_)  # 返回模型的各个特征向量
print("*" * 50)
print(pca.explained_variance_ratio_)  # 返回各个成分个字的方差百分比

结果：

[[-0.73391691  0.22922579 -0.13039917  0.62595332]
 [-0.41771778  0.57241446 -0.02724733 -0.70506108]
 [ 0.22012336  0.49807219  0.80277934  0.24293029]
 [-0.48828633 -0.60968952  0.58120475 -0.22815825]]
**************************************************
[0.50297117 0.28709267 0.14575757 0.06417859]

Process finished with exit code 0

二、数据预处理

首先，去掉一些明显没用的特征，如desc，url,并将剩下特征保存到一个新的csv文件中。（也可以使用replace()参数）

2.1 调用warnings包，屏蔽报红

import warnings
warnings.filterwarnings('ignore') #忽视

2.2 筛选特征值

分析数据集，显示数据标签，挑选我们不需要的特征
这里先做一个约定，2万行数据中，如果空白值超过一半，则剔除掉这些列
thresh = half_count：剔除

import pandas as pd

loans_2020 = pd.read_csv('LoanStats3a.csv', skiprows=1) #第一行是字符串，所以要skiprows=1跳过第一行
half_count = len(loans_2020) / 2 # 4万行除以2 = 19767.5行

loans_2020 = loans_2020.dropna(thresh=half_count, axis=1)
loans_2020 = loans_2020.drop(['desc', 'url'],axis=1) #按照列中，删除描述和URL链接
loans_2020.to_csv('loans_2020.csv', index=False) #追加到“loans_2007.csv”文件 ， index=False表示不加索引

这里我们对处理好的数据进行展示

import pandas as pd

loans_2020 = pd.read_csv("loans_2020.csv")
print("数据展示:第一行 \n",loans_2020.iloc[0])

数据展示:第一行 
 id                                1077501
member_id                      1.2966e+06
loan_amnt                            5000
funded_amnt                          5000
funded_amnt_inv                      4975
term                            36 months
int_rate                           10.65%
installment                        162.87
grade                                   B
sub_grade                              B2
emp_title                             NaN
emp_length                      10+ years
home_ownership                       RENT
annual_inc                          24000
verification_status              Verified
issue_d                            Dec-11
loan_status                    Fully Paid
pymnt_plan                              n
purpose                       credit_card
title                            Computer
zip_code                            860xx
addr_state                             AZ
dti                                 27.65
delinq_2yrs                             0
earliest_cr_line                   Jan-85
inq_last_6mths                          1
open_acc                                3
pub_rec                                 0
revol_bal                           13648
revol_util                         83.70%
total_acc                               9
initial_list_status                     f
out_prncp                               0
out_prncp_inv                           0
total_pymnt                       5863.16
total_pymnt_inv                   5833.84
total_rec_prncp                      5000
total_rec_int                      863.16
total_rec_late_fee                      0
recoveries                              0
collection_recovery_fee                 0
last_pymnt_d                       Jan-15
last_pymnt_amnt                    171.62
last_credit_pull_d                 Nov-16
collections_12_mths_ex_med              0
policy_code                             1
application_type               INDIVIDUAL
acc_now_delinq                          0
chargeoff_within_12_mths                0
delinq_amnt                             0
pub_rec_bankruptcies                    0
tax_liens                               0
Name: 0, dtype: object

shape[1]代表有多少列 ,shape[0]代表有多少行

print("原始列数={}".format(loans_2020.shape[1]))

原始列数=  52

通常来说，样本中的id 和 member_id属性对银行评定是否放贷并没有任何影响，这只是用户所特有的标识；而funded_amnt (期望贷款的数目)和 funded_amnt_inv（实际贷到的数目）显然与我们要做的预测也没什么关系。在判断一个特征值是否有用时要结合很多实际情况进行分析。这里不做过多讨论，为了实验方便我们选择舍弃这些属性列。

'''
id：用户ID
#member_id：会员编号
funded_amnt：承诺给该贷款的总金额
funded_amnt_inv：投资者为该贷款承诺的总金额
grade：贷款等级。贷款利率越高，则等级越高
sub_grade：贷款子等级
emp_title：工作名称
issue_d：贷款月份
'''
loans_2020 = loans_2020.drop(["id", "member_id", "funded_amnt", "funded_amnt_inv", "grade", "sub_grade", "emp_title", "issue_d"], axis=1)

在这里我们看一下用户当前贷款的状态

#loan_status：Fully Paid:全部还清  Charged Off:没有按时还款  

loans_2020['loan_status']

0         Fully Paid
1        Charged Off
2         Fully Paid
3         Fully Paid
4            Current
            ...     
39530     Fully Paid
39531            NaN
39532            NaN
39533            NaN
39534            NaN
Name: loan_status, Length: 39535, dtype: object

继续剔除不需要的属性列

#zip_code：常用的邮编
#out_prncp和out_prncp_inv都是一样的：总资金中剩余的未偿还本金
#out_prncp_inv：实际未偿还的本金
#total_rec_prncp：迄今收到的本金

loans_2020 = loans_2020.drop(["zip_code", "out_prncp", "out_prncp_inv", "total_pymnt", "total_pymnt_inv", "total_rec_prncp"], axis=1)

#total_rec_int：迄今收到的利息
#recoveries：是否收回本金
#collection_recovery_fee：收集回收费用
#last_pymnt_d：最近一次收到还款的时间
#last_pymnt_amnt：全部的还款的时间


#保留候选特征
loans_2020 = loans_2020.drop(["total_rec_int", "total_rec_late_fee", "recoveries", "collection_recovery_fee", "last_pymnt_d", "last_pymnt_amnt"], axis=1)
print(loans_2020.iloc[0])#第一行数据

loan_amnt                            5000
term                            36 months
int_rate                           10.65%
installment                        162.87
emp_length                      10+ years
home_ownership                       RENT
annual_inc                          24000
verification_status              Verified
loan_status                    Fully Paid
pymnt_plan                              n
purpose                       credit_card
title                            Computer
addr_state                             AZ
dti                                 27.65
delinq_2yrs                             0
earliest_cr_line                   Jan-85
inq_last_6mths                          1
open_acc                                3
pub_rec                                 0
revol_bal                           13648
revol_util                         83.70%
total_acc                               9
initial_list_status                     f
last_credit_pull_d                 Nov-16
collections_12_mths_ex_med              0
policy_code                             1
application_type               INDIVIDUAL
acc_now_delinq                          0
chargeoff_within_12_mths                0
delinq_amnt                             0
pub_rec_bankruptcies                    0
tax_liens                               0
Name: 0, dtype: object

那么经过初步筛选后，剩下了多少特征列呢？

print("现存列数 = ",loans_2020.shape[1])

现存列数 =  32

确定当前贷款状态（label值）

2.3 LabelEncoder 和 OneHotEncoder

在进行Python数据处理的时候，我们想要将繁杂的数据特征变成简单、容易识别的编码，Python为我们提供了两个非常好用的方法。

通俗来说
LabelEncoder 是对不连续的数字或者文本进行编号

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit([1,5,67,100])
le.transform([1,1,100,67,5])

print(le.transform([1,1,100,67,5]))


#得到 [0 0 3 2 1] 分别对应每个数字出现的位置

OneHotEncoder 用于将表示分类的数据扩维

from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
ohe.fit([[1],[2],[3],[4]])
ohe.transform(([2],[3],[1],[4])).toarray()

print(ohe.transform(([2],[3],[1],[4])).toarray())

# 得到
		[[0. 1. 0. 0.]
		 [0. 0. 1. 0.]
		 [1. 0. 0. 0.]
		 [0. 0. 0. 1.]]

那么对我们拿到的数据集该如何处理呢？

print(loans_2020['loan_status'].value_counts())#计算该列特征的属性的个数


'''
Fully Paid：批准了客户的贷款，可看做 1
Charged Off：没有批准了客户的贷款，可看做 0
Late (16-30 days) ：延期了16-30 days
Late (31-120 days)：延期了31-120 days ，所以这些都不确定的属性，相当于“取保候审”
'''

Fully Paid            33693
Charged Off            5612
Current                 201
Late (31-120 days)       10
In Grace Period           9
Late (16-30 days)         5
Default                   1
Name: loan_status, dtype: int64

二分类

#要做一个二分类，用0 1 表示
loans_2020 = loans_2020[(loans_2020['loan_status'] == "Fully Paid") |
                        (loans_2020['loan_status'] == "Charged Off")]
status_replace = {
    #特征当做key，value是0和1
    "loan_status": {
        #第一个键值改为1 ，第二个键值改为0
        "Fully Paid": 1, #支付
        "Charged Off": 0,#未支付
    }
}

loans_2020 = loans_2020.replace(status_replace)  #replace：执行的是查找并替换的操作

在进行编码后，数据变成了这个样子

loans_2020['loan_status']

0        1
1        0
2        1
3        1
5        1
        ..
39526    1
39527    1
39528    1
39529    1
39530    1
Name: loan_status, Length: 39305, dtype: int64

2.4 去掉特征中只有一种属性的列

#在原始数据中的特征值或者属性里都是一样的，对于分类模型的预测是没有用的
orig_columns = loans_2020.columns  #展现出所有的列
drop_columns = []  #初始化空值

for col in orig_columns:
    # dropna()先删除空值，再去重算唯一的属性
    col_series = loans_2020[col].dropna().unique()  #去重唯一的属性
    if len(col_series) == 1:  #如果该特征的属性只有一个属性，就给过滤掉该特征
        drop_columns.append(col)
        
loans_2020 = loans_2020.drop(drop_columns, axis=1)
print(drop_columns)
print("--------------------------------------------")
print(loans_2020.shape)
loans_2020.to_csv('filtered_loans_2020.csv', index=False

这时只剩下39305行，24列数据了

['initial_list_status', 'collections_12_mths_ex_med', 'policy_code', 'application_type', 'acc_now_delinq', 'chargeoff_within_12_mths', 'delinq_amnt', 'tax_liens']
--------------------------------------------
(39305, 24)

注：
当我们筛选出特征和标签后，就可以丢给scikit-learn了吗？

当然是不行的，还需要做缺失值、字符值、标点符号、%号、str等值得处理。

2.5 处理缺失值

import pandas as pd

loans = pd.read_csv('filtered_loans_2020.csv')
null_counts = loans.isnull().sum()  #用pandas的isnull统计一下每列的缺失值并作累加
print(null_counts) 

#对于每列中缺失的情况不是很大，大多数是很好的数据，删掉几个列也无可厚非(对于样本大)，或者是只删除缺失值，或者用均值、中位数和众数补充

loan_amnt                  0
term                       0
int_rate                   0
installment                0
emp_length              1073
home_ownership             0
annual_inc                 0
verification_status        0
loan_status                0
pymnt_plan                 0
purpose                    0
title                     11
addr_state                 0
dti                        0
delinq_2yrs                0
earliest_cr_line           0
inq_last_6mths             0
open_acc                   0
pub_rec                    0
revol_bal                  0
revol_util                50
total_acc                  0
last_credit_pull_d         1
pub_rec_bankruptcies     449
dtype: int64

从统计出的结果可以看出title和revol_util相对于数据总量来说较少，可以直接去掉缺失值所在的行。

而pub_rec_bankruptcies中的缺失值较多，说明该数据统计的情况较差，在本文中直接将此特征删除即可。

loans = loans.drop("pub_rec_bankruptcies", axis=1)
loans = loans.dropna(axis=0) 

#用dtypes类型统计有多少个是object、int、float类型的特征
print(loans.dtypes.value_counts())

删除后，统计各类型是特征的数目

object     12
float64    10
int64       1
dtype: int64

2.6数据类型的转换

由于sk-learn库不接受字符型的数据，所以还需将上面特征中12个字符型的数据进行处理。

#Pandas里select_dtypes只选定“object”的类型str，只选定字符型的数据

object_columns_df = loans.select_dtypes(include=["object"])
print(object_columns_df.iloc[0])

处理思路
term：分期多少个月
int_rate：利息，10.65%，后面还要去掉%
emp_length：超过10年的看做是10，9年看做是9…
home_ownership：房屋所有权，是租的、自己的、还是抵押掉了，使用用0 1 2来代替

term                     36 months
int_rate                    10.65%
emp_length               10+ years
home_ownership                RENT
verification_status       Verified
pymnt_plan                       n
purpose                credit_card
title                     Computer
addr_state                      AZ
earliest_cr_line            Jan-85
revol_util                  83.70%
last_credit_pull_d          Nov-16
Name: 0, dtype: object

'''
查看指定标签的属性，并记数
home_ownership：房屋所有权
verification_status：身份保持证明
emp_length：工作时长
term：贷款分期的时间
addr_state：地址邮编
'''


cols = [
    'home_ownership', 'verification_status', 'emp_length', 'term', 'addr_state'
]
for c in cols:
    print(loans[c].value_counts())

RENT        18237
MORTGAGE    17035
OWN          2805
OTHER          96
NONE            1
Name: home_ownership, dtype: int64
Not Verified       16182
Verified           12251
Source Verified     9741
Name: verification_status, dtype: int64
10+ years    8794
< 1 year     4492
2 years      4339
3 years      4052
4 years      3397
5 years      3262
1 year       3182
6 years      2201
7 years      1747
8 years      1463
9 years      1245
Name: emp_length, dtype: int64
 36 months    27980
 60 months    10194
Name: term, dtype: int64
CA    6876
NY    3644
FL    2739
TX    2657
NJ    1799
IL    1478
PA    1470
VA    1355
GA    1342
MA    1278
OH    1176
MD    1019
AZ     824
WA     788
CO     758
NC     739
CT     725
MI     688
MO     654
MN     589
NV     477
SC     457
OR     431
WI     429
AL     424
LA     422
KY     320
OK     292
KS     257
UT     248
AR     233
DC     211
RI     196
NM     180
HI     168
WV     167
NH     160
DE     109
MT      78
WY      78
AK      77
SD      61
VT      54
MS      19
TN      16
ID       6
IA       5
NE       1
Name: addr_state, dtype: int64

显示purpose和title属性

#"purpose"和"title"表达的意思相近，且从输出结果可以看出"title"所含的属性较多，可以将其舍弃掉
print(loans["purpose"].value_counts())#purpose：你贷款时的目的是什么，买房还是买车，还是其他消费

print("------------------------------------------------")

print(loans["title"].value_counts())#title：跟purpose一样，贷款的目的，选一个就行了

debt_consolidation    18057
credit_card            4927
other                  3761
home_improvement       2846
major_purchase         2103
small_business         1745
car                    1489
wedding                 924
medical                 665
moving                  551
house                   364
vacation                347
educational             300
renewable_energy         95
Name: purpose, dtype: int64
------------------------------------------------
Debt Consolidation                  2122
Debt Consolidation Loan             1670
Personal Loan                        625
Consolidation                        502
debt consolidation                   483
                                    ... 
Unexpected Legal Fees-Short Term       1
Payoff The cards                       1
increasing membership                  1
Silver products                        1
Getting back on the road!!             1
Name: title, Length: 18933, dtype: int64

将工作年限 LabelEncoder


'''
jemp_length设置为字典，emp_length当做key ，value里还是字典
"10+ years": 10...
"9 years" : 9...
...
调用replace函数进行替换操作
在利息这列，有符号%，使用astype()处理
'''

mapping_dict = {
    "emp_length": {
        "10+ years": 10,
        "9 years": 9,
        "8 years": 8,
        "7 years": 7,
        "6 years": 6,
        "5 years": 5,
        "4 years": 4,
        "3 years": 3,
        "2 years": 2,
        "1 year": 1,
        "< 1 year": 0,
        "n/a": 0
    }
}

# 删除：last_credit_pull_d：LC撤回最近的月份   
#earliest_cr_line：第一次借贷时间
#addr_state：家庭邮编
#title：URL的标题
loans = loans.drop(
    ["last_credit_pull_d", "earliest_cr_line", "addr_state", "title"], axis=1)
#rstrip：删除 string 字符串末尾的指定字符
loans["int_rate"] = loans["int_rate"].str.rstrip("%").astype("float")
#revol_util：透支额度占信用比例
loans["revol_util"] = loans["revol_util"].str.rstrip("%").astype("float")
loans = loans.replace(mapping_dict)

mapping_dict

{'emp_length': {'10+ years': 10,
  '9 years': 9,
  '8 years': 8,
  '7 years': 7,
  '6 years': 6,
  '5 years': 5,
  '4 years': 4,
  '3 years': 3,
  '2 years': 2,
  '1 year': 1,
  '< 1 year': 0,
  'n/a': 0}}

剩余的其他字符型特征，此处选择使用pandas的get_dummies()函数，直接映射为数值型。

print(loans)

       loan_amnt        term  int_rate  installment  emp_length  \
0         5000.0   36 months     10.65       162.87          10   
1         2500.0   60 months     15.27        59.83           0   
2         2400.0   36 months     15.96        84.33          10   
3        10000.0   36 months     13.49       339.31          10   
4         5000.0   36 months      7.90       156.46           3   
...          ...         ...       ...          ...         ...   
39300    12000.0   36 months      9.33       383.45           2   
39301     4000.0   36 months      8.07       125.48           4   
39302     9000.0   36 months     10.59       292.91           1   
39303    10000.0   36 months      8.38       315.12           0   
39304    12000.0   36 months      9.96       386.99          10   

      home_ownership  annual_inc verification_status  loan_status pymnt_plan  \
0               RENT     24000.0            Verified            1          n   
1               RENT     30000.0     Source Verified            0          n   
2               RENT     12252.0        Not Verified            1          n   
3               RENT     49200.0     Source Verified            1          n   
4               RENT     36000.0     Source Verified            1          n   
...              ...         ...                 ...          ...        ...   
39300           RENT     68640.0        Not Verified            1          n   
39301           RENT     21600.0        Not Verified            1          n   
39302           RENT     25920.0        Not Verified            1          n   
39303           RENT    107000.0        Not Verified            1          n   
39304       MORTGAGE    100000.0        Not Verified            1          n   

                  purpose    dti  delinq_2yrs  inq_last_6mths  open_acc  \
0             credit_card  27.65          0.0             1.0       3.0   
1                     car   1.00          0.0             5.0       3.0   
2          small_business   8.72          0.0             2.0       2.0   
3                   other  20.00          0.0             1.0      10.0   
4                 wedding  11.20          0.0             3.0       9.0   
...                   ...    ...          ...             ...       ...   
39300  debt_consolidation   7.47          2.0             0.0       8.0   
39301  debt_consolidation  10.33          0.0             1.0       6.0   
39302      major_purchase   5.56          0.0             2.0       7.0   
39303      small_business   2.28          0.0             2.0       4.0   
39304  debt_consolidation   8.17          0.0             2.0      14.0   

       pub_rec  revol_bal  revol_util  total_acc  
0          0.0    13648.0        83.7        9.0  
1          0.0     1687.0         9.4        4.0  
2          0.0     2956.0        98.5       10.0  
3          0.0     5598.0        21.0       37.0  
4          0.0     7963.0        28.3       12.0  
...        ...        ...         ...        ...  
39300      0.0    11370.0        41.6       22.0  
39301      0.0     3737.0        55.8       11.0  
39302      0.0     6353.0        39.5        8.0  
39303      0.0    15043.0        65.2       25.0  
39304      0.0    25413.0        45.2       26.0  

[38174 rows x 19 columns]

查看指定标签的属性，并记数

'''
home_ownership：房屋所有权
verification_status：身份保持证明
emp_length：客户公司名称
purpose：贷款的意图
term：贷款分期的时间
'''

cat_columns = ["home_ownership", "verification_status", "emp_length", "purpose", "term"]
dummy_df = pd.get_dummies(loans[cat_columns])

#concat() 方法用于连接两个或多个数组
loans = pd.concat([loans, dummy_df], axis=1)

loans = loans.drop(cat_columns, axis=1)

#pymnt_plan 指示是否已为贷款实施付款计划 ，里面都为N，删掉这一列
loans = loans.drop("pymnt_plan", axis=1)
loans.to_csv('cleaned_loans_2020.csv', index=False)

总结：
什么时候用OneHotEncoder独热编码和LabelEncoder标签编码？

特征的属性小于等于3 ，用OneHotEncoder，比如：天气、性别，属于无序特征

特征的属性大于3，用LabelEncoder，比如：星期属于有序型

数据类型转换

import pandas as pd
loans = pd.read_csv("cleaned_loans_2020.csv") # 清洗完的数据拿过来，现在的数据要么是float类型和int类型
print(loans.info())


RangeIndex: 38174 entries, 0 to 38173
Data columns (total 37 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   loan_amnt                            38174 non-null  float64
 1   int_rate                             38174 non-null  float64
 2   installment                          38174 non-null  float64
 3   annual_inc                           38174 non-null  float64
 4   loan_status                          38174 non-null  int64  
 5   dti                                  38174 non-null  float64
 6   delinq_2yrs                          38174 non-null  float64
 7   inq_last_6mths                       38174 non-null  float64
 8   open_acc                             38174 non-null  float64
 9   pub_rec                              38174 non-null  float64
 10  revol_bal                            38174 non-null  float64
 11  revol_util                           38174 non-null  float64
 12  total_acc                            38174 non-null  float64
 13  home_ownership_MORTGAGE              38174 non-null  int64  
 14  home_ownership_NONE                  38174 non-null  int64  
 15  home_ownership_OTHER                 38174 non-null  int64  
 16  home_ownership_OWN                   38174 non-null  int64  
 17  home_ownership_RENT                  38174 non-null  int64  
 18  verification_status_Not Verified     38174 non-null  int64  
 19  verification_status_Source Verified  38174 non-null  int64  
 20  verification_status_Verified         38174 non-null  int64  
 21  purpose_car                          38174 non-null  int64  
 22  purpose_credit_card                  38174 non-null  int64  
 23  purpose_debt_consolidation           38174 non-null  int64  
 24  purpose_educational                  38174 non-null  int64  
 25  purpose_home_improvement             38174 non-null  int64  
 26  purpose_house                        38174 non-null  int64  
 27  purpose_major_purchase               38174 non-null  int64  
 28  purpose_medical                      38174 non-null  int64  
 29  purpose_moving                       38174 non-null  int64  
 30  purpose_other                        38174 non-null  int64  
 31  purpose_renewable_energy             38174 non-null  int64  
 32  purpose_small_business               38174 non-null  int64  
 33  purpose_vacation                     38174 non-null  int64  
 34  purpose_wedding                      38174 non-null  int64  
 35  term_ 36 months                      38174 non-null  int64  
 36  term_ 60 months                      38174 non-null  int64  
dtypes: float64(12), int64(25)
memory usage: 10.8 MB
None

三、模型训练

前面花费了大量的时间在进行数据处理，这足以说明在机器学习中数据准备的工作有多重要，有了好的数据才能预测出好的分类结果，对于二分类问题，一般情况下，首选逻辑回归。
首先定义模型效果的评判标准。根据贷款行业的实际情况，在这里我们假设将钱借给了没有还款能力的人，结果损失一千，将钱借给了有偿还能力的人，从每笔中赚0.1的利润，而其余情况收益为零，就相当于预测对十个人才顶上预测错一个人的收益，所以精度不再适用于此模型，为了实现利润最大化，不仅要求模型预测recall率较高，同时是需要要让fall-out率较低，故这里采用两个指标TPR(true positive rate)和FPR(false positive rate)。

#LR不是回归而是分类，用它进行训练
from sklearn.linear_model import LogisticRegression # 分类

lr = LogisticRegression() # 调用逻辑回归的算法包
cols = loans.columns # 4万行 * 24列的样本

train_cols = cols.drop("loan_status") # 删除loan_status这一列,因为我们想要将他作为目标值

features = loans[train_cols] # 23列的特征矩阵
target = loans["loan_status"] # 作为标签矩阵

lr.fit(features, target) #开始训练
predictions = lr.predict(features) # 开始预测

3.1 查看预测结果

predictions[:10] #0:代表没有偿还  1:代表偿还

#结果
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int64)

lr.predict_proba(features)#lr的概率模型

#结果
#前面是没有能力偿还的概率，后面是有能力偿还的概率
   array([[0.23940129, 0.76059871],
           [0.35607142, 0.64392858],
           [0.32106074, 0.67893926],
           ...,
           [0.30770809, 0.69229191],
           [0.10258821, 0.89741179],
           [0.09494366, 0.90505634]])

3.2 逻辑回归的超参数

lr

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

3.3 分析需求

目的是赚取有能力偿还贷款的客户的利息

第一个实际值为0，客户不会还钱，模型预测客户能还钱，为1 ，假设系统贷给了客户1000块钱，但是一分都没还，说明预测错了为阴性，赔了1000块钱
第二个实际值为1，客户有偿还能力，模型预测客户有能力偿还，就挣了客户的利息钱，1000*0.1 =100块钱
第三个实际值为0，本来客户是不还钱的，模型预测不还钱，并且没有贷款给他
第四个客户能还钱，模型预测客户不能还，没有贷款给他

3.4 建立混淆矩阵

import pandas as pd
#接下来就是如何算4个指标 fp tp fn tn

print("----------------------------------------")
# 假正类（False Positive，FP）：将负类预测为正类
fp_filter = (predictions == 1) & (loans["loan_status"] == 0)
fp = len(predictions[fp_filter])
print(fp)
print("----------------------------------------")


# 真正类（True Positive，TP）：将正类预测为正类
tp_filter = (predictions == 1) & (loans["loan_status"] == 1)
tp = len(predictions[tp_filter])
print(tp)
print("----------------------------------------")


# 假负类（False Negative，FN）：将正类预测为负类
fn_filter = (predictions == 0) & (loans["loan_status"] == 1)
fn = len(predictions[fn_filter])
print(fn)
print("----------------------------------------")

# 真负类（True Negative，TN）：将负类预测为负类
tn_filter = (predictions == 0) & (loans["loan_status"] == 0)
tn = len(predictions[tn_filter])
print("----------------------------------------")
print(tn)

#结果

    ----------------------------------------
    5355
    ----------------------------------------
    32786
    ----------------------------------------
    23
    ----------------------------------------
    10
    ----------------------------------------

这里有个问题：
最终拿什么衡量指标来评价模型？

这个数据集后续观察是不平衡的，借钱的有6个，不借钱的有1个，借钱的样本本来就多，不借钱的样本本来就少，相当于7个人来了，有6个人借给他了（定为1），有1个人没借给他（定为0），7个样本的错误率为1/7 ，准确率为6/7 ，用”精度“衡量的时候看一下图例：

第一个实际值为0，没有偿还能力，模型预测客户为1 ，代表不能还，赔1000块钱
后面的实际值为1，代表有偿还能力，模型借给他1000块钱，挣了个利息钱100块
最终-1000 + 600 = -400 用”精度“来衡量最终还是会赔钱的，因为数据集能还钱的样本很多，显然这样是不合理的，所以就不考虑”精度“了。

所以这里我们建立混淆矩阵

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_predict

lr = LogisticRegression()
predictions = cross_val_predict(lr, features, target, cv=10) # Kfold = 10(交叉验证)
predictions = pd.Series(predictions)
print(predictions[:1000])

0      1
1      1
2      1
3      1
4      1
      ..
995    1
996    1
997    1
998    1
999    1
Length: 1000, dtype: int64

# 假正类（False Positive，FP）：将负类预测为正类
fp_filter = (predictions == 1) & (loans["loan_status"] == 0)
fp = len(predictions[fp_filter])


# 真正类（True Positive，TP）：将正类预测为正类
tp_filter = (predictions == 1) & (loans["loan_status"] == 1)
tp = len(predictions[tp_filter])



# 假负类（False Negative，FN）：将正类预测为负类
fn_filter = (predictions == 0) & (loans["loan_status"] == 1)
fn = len(predictions[fn_filter])



# 真负类（True Negative，TN）：将负类预测为负类
tn_filter = (predictions == 0) & (loans["loan_status"] == 0)
tn = len(predictions[tn_filter])

$\frac{truepositives}{falsepositives + truepositives}$
$\frac{falsepositives}{falsepositives + truepositives}$

真正率TPR: 是指客户的实际值为1，有偿还能力，模型预测也为1，说明这些客户群体越来越多，挣的利息也越来越多（我们想让TRP越高越好）

本质上期望TPR越高越好，FPR越低越好

tpr = tp / float((tp + fn))
fpr = fp / float((fp + tn))


print(tpr) #真正率
print(fpr) #假正率
print(predictions[:20])

0.9991160961931177
0.998695246971109
0     1
1     1
2     1
3     1
4     1
5     1
6     1
7     1
8     1
9     1
10    1
11    1
12    1
13    1
14    1
15    1
16    1
17    1
18    1
19    1
dtype: int64

从得到的结果中发现前20个人几乎都是有能力还款且贷款给他们了，说明来一个人基本都会判断为可以借钱，那显然模型就完全没有分类的意义。

这时候我们就要考虑一个重要的问题了：权重

为什么会出现这种情况？

问题就出在了前面的数据集中，比如说数据是6:1，绝大多数是1，小部分是0，样本不均衡的情况下，导致分类器错误的认为把所有的样本预测为1，因为负样本少，我们需要进行 “数据增强”。

对数据来说，一部分是6份，另一部分是1份，把6份的权重设置为1，把1份的权重设置为6，设置权重项来进行衡量，把不均衡的样本变得均衡，加了权重项，让正样本对结果的影响小一些

3.5 考虑权重后使用逻辑回归训练

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_predict

"""
class_weight：可以调整正反样本的权重
balanced:希望正负样本平衡一些的
"""
lr = LogisticRegression(class_weight="balanced")
predictions = cross_val_predict(lr, features, target, cv=10)
predictions = pd.Series(predictions)

# False positives.
fp_filter = (predictions == 1) & (loans["loan_status"] == 0)
fp = len(predictions[fp_filter])

# True positives.
tp_filter = (predictions == 1) & (loans["loan_status"] == 1)
tp = len(predictions[tp_filter])

# False negatives.
fn_filter = (predictions == 0) & (loans["loan_status"] == 1)
fn = len(predictions[fn_filter])

# True negatives
tn_filter = (predictions == 0) & (loans["loan_status"] == 0)
tn = len(predictions[tn_filter])

# Rates
tpr = tp / float((tp + fn))
fpr = fp / float((fp + tn))

print(tpr)#真正率
print()
print(fpr)#假正率
print()
print(predictions[:20])

0.5273248194093084 #真正率

0.33401677539608576 #假正率

0     0
1     1
2     0
3     1
4     1
5     0
6     0
7     0
8     0
9     1
10    1
11    0
12    0
13    1
14    0
15    0
16    1
17    1
18    1
19    0
dtype: int64

3.6 自定义权重后使用逻辑回归训练

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_predict

"""
权重项可以自己定义的
0代表5倍的
1代表10倍的
"""
penalty = {
    0: 5, #这里设置为5倍
    1: 1
}

lr = LogisticRegression(class_weight=penalty)
# kf = KFold(features.shape[0], random_state=1)
kf = 10
predictions = cross_val_predict(lr, features, target, cv=kf)
predictions = pd.Series(predictions)

# False positives.
fp_filter = (predictions == 1) & (loans["loan_status"] == 0)
fp = len(predictions[fp_filter])

# True positives.
tp_filter = (predictions == 1) & (loans["loan_status"] == 1)
tp = len(predictions[tp_filter])

# False negatives.
fn_filter = (predictions == 0) & (loans["loan_status"] == 1)
fn = len(predictions[fn_filter])

# True negatives
tn_filter = (predictions == 0) & (loans["loan_status"] == 0)
tn = len(predictions[tn_filter])

# Rates
tpr = tp / float((tp + fn))
fpr = fp / float((fp + tn))

print(tpr)
print()
print(fpr)

0.7041360602273766 # 真正率

0.5237651444547996 # 假正率

四、总结

为什么会出现上面极其离谱的现象呢？

这是由于我们的样本是很不均衡的，这就容易导致我们构建的分类器把所有样本都归为样本量较大的那一个类。解决的方法有很多，其中一个是进行数据增强，就是把少的样本增多，但是要添加的数据要么是收集的，要么是自己造的，所以这项工作还是挺难的。所以将考虑权重，将少的样本的权重增大，期望模型能够达到比较均衡的状态。

对上述模型的预测结果进行简单的分析，发现错误率和正确率都达到99.9%，错误率太高，通过观察预测结果发现，模型几乎将所有的样本都判断为正例，通过对原始数据的了解，分析造成该现象的原因是由于政府样本数量相差太大，即样本不均衡造成模型对正例样本有所偏重，这里采用对样本添加权重值的方式进行调整，首先采用默认的均衡调整。

本文中的案例不是着重给出一个正确率的预测模型，只是给出使用机器学习建模的一般流程。

分为两大部分：数据处理和模型学习

第一部分需要大量的街舞知识对原始数据进行清理及特征提取

第二部分模型学习，涉及长时间的模型参数调整，调整方向和策略需要根据经验来灵活调整。

当模型效果不理想时，可以考虑的调整策略：

1、调节正负样本的权重参数。

2、更换模型算法。

3、同时几个使用模型进行预测，然后取去测的最终结果。

4、使用原数据，生成新特征。

5、调整模型参数

★至此，本文已经将客户贷款预测案例简单讲解完毕，希望各位读者能从文中真正的学到一些东西，最重要的还是面对不同案例时候灵活的应用所知所学，感谢阅读！

你可能感兴趣的:(Python)

python：使用gdal和numpy进行遥感时间序列最大值合成 _养乐多_ python处理遥感数据 python numpy 开发语言
作者：CSDN@_养乐多_本文将介绍使用python编程语言，进行遥感数据时间序列最大值合成的代码。代码中使用了numpy和gdal，通过numpy广播机制实现时间序列最大值合成，并以NDVI时间序列数据为例。代码方便易运行，逻辑简单，速度快。只需要输入单波段遥感数据，就可输出最大值合成影像。输入输出如下图所示，文章目录一、完整代码一、完整代码importosimportglobimportnum
YOLOv8实例分割训练自己的数据集 NoContours YOLO python 开发语言
转载https://blog.csdn.net/m0_51530640/article/details/1299752571.利用labelme进行数据标注1.1Labelme安装方法首先安装Anaconda，然后运行下列命令：####################forPython2####################condacreate--name=labelmepython=2.7s
青少年Python趣学编程：用代码开启无限可能【文末好书推荐】一键难忘好书推荐 python pygame 开发语言
文章目录青少年Python趣学编程：用代码开启无限可能1.为什么选择Python？2.从小游戏开始：让编程变得有趣3.学习编程的关键步骤4.提供项目和挑战：激发创造力《青少年Python趣学编程（微课视频版）》【好书推荐】购书链接本书特色✨内容亮点配套资源适用人群青少年Python趣学编程：用代码开启无限可能在当今数字化的时代，编程已成为一种基础技能，尤其对于青少年来说，学习编程不仅能帮助他们理解
智联招聘爬虫 m0_74823878 面试学习路线阿里巴巴爬虫
使用Python和Selenium进行招聘信息爬取在当今数字化时代，数据已成为企业决策的重要依据。对于人力资源部门或求职者而言，获取最新的招聘信息至关重要。然而，手动浏览和收集招聘信息不仅耗时费力，而且效率低下。为了解决这个问题，我们可以使用Python和Selenium库来自动化这一过程，实现从招聘网站上批量爬取招聘信息。准备工作在开始之前，你需要确保已经安装了以下库：Python（建议版本3.
Mac M1安装Python---kalrry kalrry Python python macos 开发语言
MacM1安装Python---kalrry一、准备二、安装三、配置环境变量1、配置环境2、测试3、pip3与pip建立软链接四、参考备份一、准备Python3.9.1发布后开始支持苹果M1和macOS11BigSur也就是我们要下载3.9.1以后的版本，最好选择最新稳定版python官网下载python阿里网盘下载—sa65二、安装双击正常一路next安装即可三、配置环境变量1、配置环境命令行输
记录一次M1芯片Mac折腾安装Python3的过程 Onemud macos python linux
记录一次M1芯片Mac折腾安装Python3的过程前言：是要用python搞一个跟url接口交互的脚本，来配合做服务迁移工作，但在开发和测试脚本是让python环境卡住了脖（电脑装了很多个python，并且多版本间管理的比较混乱）所以想先调试好一个版本能用就好；并且脚本用到requests库，需要给python安装一下。总结两件事：装好python3.9，得能用给python3.9装上reques
python正态检验_Python检验数据是否正态分布 weixin_39748858 python正态检验
在对数据进行处理前，有事需要判断数据是否呈正态分布，比如线性回归，比如使用3-sigma判断数据是否异常。常用的正态分布检测方法：Shapiro-WilktestShapiro-Wilktest是一种在频率上统计检验中检验正态性的方法。该检验的零检验是样本$x_1,\cdots,x_n$来自于一个正态分布的母体。这个检验的统计量是：$$W=\frac{(\sum_{i=1}^{n}a_{i}x_{
python爬取pdf_python爬取在线教程转成pdf weixin_39842237 python爬取pdf
1、网站介绍之前再搜资料的时候经常会跳转到如下图所示的在线教程：01.教程样式包括一些github的项目也纷纷将教程链接指向这个网站。经过一番查找，该网站是一个可以创建、托管和浏览文档的网站，其网址为：https://readthedocs.org。在上面可以找到很多优质的资源。该网站虽然提供了下载功能，但是有些教程并没有提供PDF格式文件的下载，如图：02.下载该教程只提供了HTML格式文件的下
Python常见库的使用浪子西科 Python python 开发语言
文章目录人工智能与机器学习1.NumPy2.Pandas3.Scikit-learn4.TensorFlow5.PyTorch数据可视化1.Matplotlib2.Seaborn网络请求与爬虫1.Requests2.Scrapy自动化测试1.unittest2.pytest自然语言处理1.NLTK2.SpaCy数据库操作1.SQLite32.SQLAlchemy日期和时间处理1.datetime2
python 绘制正态分布图点云侠 CloudCompare python 开发语言算法 3d
目录一、概述二、代码实现三、结果展示一、概述在Python中，可以使用numpy库中的normal()函数或random.normal()方法生成正态分布的随机数，同时也利用scipy库的norm.pdf()函数来计算正态分布的概率密度函数。二、代码实现importnumpyasnpimportmatplotlib.pyplotaspltfromscipy.statsimportnorm#创建
服务器/mac m1配置python环境 LoveSeven.Lin macos python 开发语言
目录服务器配置环境一、安装miniconda二、创建环境三、激活环境四、conda安装Macm1配置环境一、安装Miniforge3二、创建环境三、激活环境四、安装tensorflow五、测试运行服务器配置环境一、安装miniconda#step1:获取安装shell脚本文件wgethttps://repo.continuum.io/miniconda/Miniconda3-latest-Linu
Mac M1芯片通过源码安装Python2.7.x 乌萨奇敲代码 macos python
文章目录MacM1芯片通过源码安装Python2.7.x1.下载源码2.安装依赖3.配置环境4.配置编译选项5.编译6.验证安装MacM1芯片通过源码安装Python2.7.x首先，由于AppleM1芯片使用的是ARM架构，已经不支持Python2.7.x了，所以需要利用Rosetta手动编译Python2.7.x，这里以安装Python2.7.17为例。1.下载源码首先，从Python官方网站下
在Mac M1上安装Python 3并设置环境变量 JieLun_C macos python 开发语言 Python
在MacM1上安装Python3并设置环境变量MacM1是基于AppleSilicon芯片的新一代Mac电脑。如果你是MacM1用户，并且想要安装Python3并设置环境变量，那么你来对地方了。本文将为你提供详细的步骤和相应的源代码。以下是在MacM1上安装Python3并设置环境变量的步骤：步骤1：安装HomebrewHomebrew是一个流行的包管理器，可以帮助我们在Mac上安装各种软件包。打
基于Python的PDF文件自动下载爬虫技术——详细教程与实例 Python爬虫项目 2025年爬虫实战项目 python pdf 爬虫开发语言信息可视化
1.引言在信息时代，许多网站提供了PDF格式的文档，如新闻报道、学术论文、合同文件等。对于科研人员或数据分析师来说，批量下载和分析这些PDF文件是非常有用的。Python作为一种高效且易于学习的编程语言，在网络数据抓取（即爬虫技术）方面拥有强大的库和工具，使得自动化下载网站中的PDF文件变得十分简单。在本篇博客中，我们将详细介绍如何使用Python爬虫技术抓取网页中的所有PDF文件，并自动下载到本
Python 从基础到进阶（一套打通）浪子西科 Python python 开发语言
文章目录一、Python入门1.1Python简介1.2安装PythonWindowsLinuxmacOS1.3第一个Python程序交互式环境脚本文件二、Python基础语法2.1变量和数据类型变量数据类型数字类型字符串类型（str）布尔类型（bool）2.2运算符算术运算符比较运算符逻辑运算符位运算符2.3控制流语句条件语句循环语句`for`循环`while`循环三、Python数据结构3.1
安装Miniconda3-Python 3.8环境管理工具 Lemaden
本文还有配套的精品资源，点击获取简介：Miniconda3-py38_4.11.0-Windows-x86_64.zip提供了一个针对Python3.8版本的轻量级Miniconda发行版，适用于64位Windows系统。它包括Python解释器、Conda包管理器和基本科学计算库，支持创建独立的Python环境。此版本的Conda包管理器版本号为4.11.0。用户可以通过安装后使用Conda命令
kitti数据集【图片、点云、IMU、GPS】话题发布（kitti2bag方式+python源码方式） liiiuzy ROS学习 python
kitti数据集传感器话题发布一、前期准备工作kitti数据集转bag安装vscode新建工作环境安装opencv-python二、发布图片三、发布点云数据四、整理前两次的代码五、添加汽车图片和摄像头视角常规写法优化写法六、发布IMU七、发布GPS一、前期准备工作kitti数据集转bag如果只是想把kitti数据集转成bag，直接用kiiti2bag指令就可以完成，教程在下面链接中。后文是详细的代
深入探讨Conda：Python环境与包管理器一休哥助手 python conda python 开发语言
目录引言Conda概述什么是CondaConda的优势Conda的安装与配置安装Conda配置CondaConda常用命令环境管理命令
CSDN 博客文章：Genesis 安装指南与环境配置（Python 3.9+） qq_27492797 python 开发语言
引言随着人工智能和机器学习的蓬勃发展，各式各样的框架和工具如雨后春笋般涌现，为科研人员和开发者的创新之路提供强大支持。今天，我们聚焦于Genesis——一个在物理模拟、计算机图形学以及机器人领域展现出卓越潜力的先进平台。需要特别说明的是，目前Genesis项目中备受期待的对话式生成AI接口，当前仍处于概念展示阶段，仅存在于PPT之中，尚未对外开放，大家在关注其发展时需留意这一情况。本文将着重介绍如
星河飞雪网络安全学习笔记-安全见闻1-3 芝士布偶网络安全
安全见闻-了解安全知识编程语言日常编程语言C语言：一种通用的、面向过程的编程语言，广泛运用于系统软件呵呵嵌入式开发C++：面向对象的编程语言，常用于游戏开发、高性能计算等领域Java：一种广泛使用的面向对象编程语言、具有跨平台性、应用于企业级应用开发等Python（萌新推荐）：简洁易学，拥有丰富的库，适用于数据分析、人工智能、web开发等Javascript：主要用于网页前端开发，也可用于服务器端
【肝帝一周总结：全网最全最细】十万字python教程，学不会找我！教到你会为止！！内容超多，建议收藏慢慢看！川川菜鸟 python全栈基础教程系列 python pycharm 2021最新教案
文章目录推荐：个人推荐学习系列，推荐的一定是好的！0、源码下载地址一、内容过多，前言一定要看二、python入门三、python缩进四、Python注释1.单行注释2.多行注释五、Python变量1.变量定义理解2.变量名命名3.分配多个值4.输出变量5.全局变量与局部变量，全局关键字6.练习题六、Python数据类型1.置数据类型2.获取数据类型3.设置数据类型4.设置特定数据类型6.练习题七、
【Python爬虫(79)】解锁区块链+爬虫：数据采集的未来新范式奔跑吧邓邓子 Python爬虫 python 爬虫区块链开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、区块链原理与分布式账本技术2.1区块链核心概念2.2分
【Python爬虫(80)】当Python爬虫邂逅边缘计算：探索数据采集新境界奔跑吧邓邓子 Python爬虫 python 爬虫边缘计算开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、边缘计算：概念与架构剖析2.1边缘计算的概念2.2边缘
Python--内置函数与推导式（下）索然无味io Python安全开发 python 开发语言 windows 网络安全 web安全笔记学习
3.内置函数数学运算类函数说明示例abs绝对值abs(-10)→10pow幂运算pow(2,3)→8sum求和sum([1,2,3])→6divmod返回商和余数divmod(10,3)→(3,1)数据转换类#进制转换print(bin(10))#'0b1010'print(hex(255))#'0xff'#字符与编码转换print(ord('A'))#65print(chr(97))#'a'迭代
Python命令速查 hongyuT python Python
什么也不做donothingpass安装依赖sudoapt-getinstall-fpip更换源pipinstallpackage_name-ihttps://pypi.tuna.tsinghua.edu.cn/simplepip安装pip：python2.x:sudoaptinstallpython-pippython3.x:sudoaptinstallpython3-pip升级pip：pyth
在 Linux 系统上编译安装高版本 Python perfect12312645 python
在Linux系统上进行软件安装时，我们经常会面临各种挑战，其中一个典型的情况就是官网不再提供所需软件的二进制包，这时我们就不得不进行编译安装。本文将为你详细展示如何在CentOS7.6系统上完成高版本Python的编译安装，并涵盖了一系列前置依赖的安装、高版本OpenSSL的编译安装以及相关的环境配置过程，帮助你克服可能遇到的困难。一、实验环境说明本次实验使用的系统是CentOS7.6，你可以通过
Linux系统上安装Python详细步骤 InjeProgram linux python 服务器
在Linux系统上安装Python是非常简单的过程。下面将提供详细的步骤，以帮助你完成安装并开始使用Python。步骤1：检查系统首先，我们需要检查系统上是否已经安装了Python。打开终端并输入以下命令：python--version如果系统中已经安装了Python，将显示已安装的版本号。如果没有安装Python或者版本过低，我们需要继续以下步骤。步骤2：安装依赖在安装Python之前，我们需要
【Python爬虫(36)】深挖多进程爬虫性能优化：从通信到负载均衡奔跑吧邓邓子 Python爬虫 python 爬虫性能优化开发语言多进程负载均衡
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、优化进程间通信以减少开销2.1共享内存的运用2.2优化
【leetcode刷题版】回溯算法学废了wuwu 算法 leetcode python
系列文章目录文章目录系列文章目录背景知识一、组合二、组合优化三、电话号码的字母组合四、组合总和五、组合总和Ⅱ六、分割回文串七、复原IP地址八、子集九、子集（需要去重）十、非递减子序列十一、全排列十一、全排列Ⅱ十二、重新安排行程（难）十三、N皇后十四、解数独背景知识回溯算法是一种通过试错来解决问题的算法。它会在解决问题的过程中剪枝，以避免无效搜索。在Python中实现回溯算法通常涉及以下几个步骤：定
用Python爬取B站视频的实践与技术分析（通俗易懂）  笔记 python 开发语言 c语言课程设计前端
标题：用Python爬取B站视频的实践与技术分析摘要：本论文介绍了如何使用Python编写网络爬虫程序来爬取B站（哔哩哔哩）视频的实际步骤和技术细节。通过发送网络请求和解析网页内容，我们可以获取到视频的标题和链接。本文将详细解释爬取B站视频的过程，并提供通俗易懂的代码示例，旨在帮助读者理解爬虫技术并能够自己动手实践。引言：随着网络视频的普及，越来越多的用户在B站上观看和分享视频内容。然而，有时我们
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "test@gmail.com"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

Python案例分析之客户信贷预测模型

阅读提示

目录

一、项目解读

1.1 逻辑回归算法

1.1.1 Logistic函数

1.1.2Logistic回归建模步骤

1.2 客户逾期还款业务

1.3 数据源内容解读

1.4 Python主要数据预处理函数

1.4.1 interpolate

1.4.2 unique

1.4.3 isnull / notnull

1.4.4andom

1.4.5 PCA

二、数据预处理

2.1 调用warnings包，屏蔽报红

2.2 筛选特征值

2.3 LabelEncoder 和 OneHotEncoder

2.4 去掉特征中只有一种属性的列

2.5 处理缺失值

2.6数据类型的转换

三、模型训练

3.1 查看预测结果

3.2 逻辑回归的超参数

3.3 分析需求

3.4 建立混淆矩阵

3.5 考虑权重后使用逻辑回归训练

3.6 自定义权重后使用逻辑回归训练

四、总结

你可能感兴趣的:(Python)