扔出去的回旋镖

ccc-sklearn-5-逻辑回归

1.逻辑回归概述

逻辑回归的本质是一个返回对数几率的，在线性数据上表现优异的分类器，它主要被应用在金融领域。即求解能够让模型对数据拟合程度最高的参数θ值，以此构建预测函数 y(x)，然后将特征矩阵输入预测函数来计算出逻辑回归的结果y。逻辑回归也可以做多分类。

逻辑回归的联系函数Sigmoid
用于将线性回归方程z变换为g(z)，并且g(z)的值分布与（0,1）之间，方程式如下：
$g(z)=\frac{1}{1+e^{-z}}$

说明：

S型函数，能将任何实数映射到（0,1）区间
可以当做归一化的一种方法，与MinMaxSclaer的区别在于不能缩放到0和1只能趋近
为什么该模型实际被称为“对数几率回归”，下图可以看到y（x）的形似几率取对数本质为线性回归z

几率说明：
几率odds的本质是 $\frac{p}{1-p}$ ，p为事件发生的概率

其他说明：

逻辑回归对线性关系的拟合效果非常好，计算速度很快。但是如果数据是非线性的，那么千万不要用逻辑回归
逻辑回归分类结果不是固定的0和1，而是小数形式呈现的类似概率数字

一直以来，人们都是以返回概率的方式来理解逻辑回归。可以说逻辑回归返回的数字，即便本质上不是概率，却有着概率的各种性质，可以被当成是概率来看待和使用。

2.sklearn中的逻辑回归

逻辑回归相关的类	说明
linear_model.LogisticRegression	逻辑回归分类器（又叫logit回归，最大熵分类器）
linear_model.LogisticRegressionCV	带交叉验证的逻辑回归分类器
linear_model.logistic_regression_path	计算Logistic回归模型以获得正则化参数的列表
linear_model.SGDClassifier	利用梯度下降求解的线性分类器（SVM，逻辑回归等等）
linear_model.SGDRegressor	利用梯度下降最小化正则化后的损失函数的线性回归模型
metrics.log_loss	对数损失，又称逻辑损失或交叉熵损失

其他会涉及的类	说明
metrics.confusion_matrix	混淆矩阵，模型评估指标之一
metrics.roc_auc_score	ROC曲线，模型评估指标之一
metrics.accuracy_score	精确性，模型评估指标之一

二元逻辑回归的损失函数
使用损失函数来衡量参数θ的模型拟合训练集时产生的信息损失的大小，从而衡量参数θ的优劣。损失函数越小，说明模型在训练集上表现越优异，拟合越充分，参数就优秀。我们也追求损失函数最小的参数θ。其极大似然估计的推导式为：
$J(θ)=-\sum_{i=1}^{m}(y_i*log(y_θ(x_i))+(1-y_i)*log(1-y_θ(x_i)))$
其中θ表示求解出的一组参数，m是样本个数， $y_i$ 是样本i的真实标签， $y_θ(x_i))$ 是样本i基于参数θ计算的逻辑回归返回值， $x_i$ 是样本i各个特征的取值。

说明：

由于追求损失函数的最小，可能导致过拟合；对于过拟合的控制可以通过正则化来实现
对于没有求解参数需求的模型没有损失函数，如KNN，决策树等

二元逻辑回归损失函数的数学解释，公式推导
二元逻辑回归标签服从伯努利分布（0-1分布），将一个特征向量为x，参数为θ的模型中一个样本的预测情况如下表示：

假设样本i的真实标签 $y_i$ 为1，如果P1为1，就代表样本i的标签预测与真实值一致。此时对于单样本i来说，模型的预测就是完全准确；同样，如果P1此时为0 ，那么模型预测就完全错误。对于两种取值的概率整合可以定义如下等式：
$P(\hat{y}|x_i,\theta)=P_1^{y_i}*P_0^{1-y_i}$
这个式子同时表示了P1和P0，当真实标签yi为1,1-yi为0，P0的0次方就是1，结果就等于P1，如果P1确实为1则模型的拟合效果很好。同理，当yi为0时，结果为P0，如果P0非常接近1，则模型的效果很好，损失很小。所以，我们总是希望 $P(\hat{y}|x_i,\theta)$ 的值等于1，即它的最大值。从而将模型拟合最小化损失问题转换成对函数求解极值的问题。对于一个训练集的m个样本，所有样本在特征矩阵X和参数θ组成的预测函数中，预测所有可能的 $\hat{y}$ 的概率P为：

对于概率P取对数：

结果为交叉熵函数，添加符号将极大值问题转为极小值问题，让θ称为函数自变量，即得到损失函数J(θ):

说明：

推导过程即为极大似然法
对于 $P(\hat{y_i}|x_i,\theta)$ ,如果θ已知，xi未知，便称P是在探索不同特征取值下获取所有可能 $\hat{y_i}$ 的可能性，即概率，研究自变量与因变量之间的关系。如果特征向量xi已知，参数θ未知，便称P是在探索不同参数下获取所有可能 $\hat{y_i}$ 的可能性，这种可能性被称为似然，研究参数取值与因变量之间的关系。

正则化参数penalty &C
常用L1正则化和L2正则化，通过在损失函数后加上参数向量θ的L1范式和L2范式的倍数来实现。增加的范式被称为“正则项”/“惩罚项”。损失函数改变，基于损失函数的最优化来求解的参数取值必然改变，以此调节模型的拟合程度，L1、L2范式表示如下：

J(θ)为损失函数，C为用来控制正则化程度的参数，n是方程中特征的总数，j代表每个参数，j>=1

也可以写作：

参数	说明
penalty	可以输入"l1"或"l2"来指定使用哪一种正则化方式，不填写默认"l2"。注意，若选择"l1"正则化，参数solver仅能够使用求解方式”liblinear"和"saga“ 若使用“l2”正则化，参数solver中所有的求解方式都可以使用。
C	C正则化强度的倒数，必须是一个大于0的浮点数，不填写默认1.0，默认正则项与损失函数的比值是1：1。 C越小，损失函数会越小，模型对损失函数的惩罚越重，正则化的效力越强，参数θ会逐渐被压缩得越来越小

L1正则化会将参数压缩为0，L2正则只会让参数尽量小，不会取到0。即L1正则化本质是特征选择，掌管参数的“稀疏性”，通过减少特征个数防止过拟合。L2正则化会尽量让每个特征都对模型有贡献，但携带信息少且对模型贡献不大的参数会非常接近0。通常要优先考虑L2正则化

L1与L2正则化曲线实例
步骤一：导入库和数据

from sklearn.linear_model import LogisticRegression as LR
from sklearn.datasets import load_breast_cancer
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

data = load_breast_cancer()
X = data.data
y = data.target
X.shape

步骤二：实例化模型，并查看L1、L2正则化后特征对应参数

lrl1 = LR(penalty="l1",solver="liblinear",C=0.5,max_iter=1000)
lrl2 = LR(penalty="l2",solver="liblinear",C=0.5,max_iter=1000)

lrl1 = lrl1.fit(X,y)
lrl1.coef_
lrl2 = lrl2.fit(X,y)
lrl2.coef_

步骤三：比较两者在训练集合测试集上的准确率

l1 = []
l2 = []
l1test = []
l2test = []

Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.3,random_state=420)

for i in np.linspace(0.05,1,19):
    lrl1 = LR(penalty="l1",solver="liblinear",C=i,max_iter=1000)
    lrl2 = LR(penalty="l2",solver="liblinear",C=i,max_iter=1000)
    
    lrl1 = lrl1.fit(Xtrain, Ytrain)
    l1.append(accuracy_score(lrl1.predict(Xtrain),Ytrain))
    l1test.append(accuracy_score(lrl1.predict(Xtest),Ytest))
    lrl2 = lrl2.fit(Xtrain, Ytrain)
    l2.append(accuracy_score(lrl2.predict(Xtrain),Ytrain))
    l2test.append(accuracy_score(lrl2.predict(Xtest),Ytest))
    
graph = [l1,l2,l1test,l2test]
color = ['green','black','lightgreen','gray']
label = ['L1','L2','L1test','L2test']

plt.figure(figsize=(6,6))
for i in range(len(graph)):
    plt.plot(np.linspace(0.05,1,19),graph[i],color[i],label=label[i])
plt.legend(loc=4)
plt.show()

在这个数据集中，两则正则化结果区别不大。随着C的增大，正则化强度越来越小，模型在训练集和测试集的表现都变好，但C大于0.8后开始下降，也就是出现的过拟合。

3.逻辑回归中的特征工程

由于我们需要通过逻辑回归的结果来判断什么样的特征与分类结果相关，因此我们希望保留特征的原貌。PCA和SVD的降维结果是不可解释的，所以一般逻辑回归汇总不使用PCA和SVD

embedded嵌入法SelectFromModel
步骤一：导入库和数据

from sklearn.linear_model import LogisticRegression as LR
from sklearn.datasets import load_breast_cancer
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectFromModel

data = load_breast_cancer()
data.data.shape

步骤二：简单对比嵌入法提取的特征和全部特征的效果

LR_ = LR(solver="liblinear",C=0.9,random_state=420)
cross_val_score(LR_,data.data,data.target,cv=10).mean()

X_embedded = SelectFromModel(LR_,norm_order=1).fit_transform(data.data,data.target)
X_embedded.shape
cross_val_score(LR_,X_embedded,data.target,cv=10).mean()

说明：

SelectFromModel类中的参数threshold是嵌入法的阈值，表示删除所有参数的绝对值低于这个阈值的特征。默认None，可以绘制threshold的学习曲线，观察不同threshold下模型的变化。可以使用模型属性.coef_（衡量特征的重要程度和贡献度）中生成的各个特征的系数来进行选择。

步骤三：绘制threshold的学习曲线

fullx = []
fsx = []
threshold = np.linspace(0,abs((LR_.fit(data.data,data.target).coef_)).max(),20)
k=0
for i in threshold:
    X_embedded = SelectFromModel(LR_,threshold=i).fit_transform(data.data,data.target)
    fullx.append(cross_val_score(LR_,data.data,data.target,cv=5).mean())
    fsx.append(cross_val_score(LR_,X_embedded,data.target,cv=5).mean())
    print((threshold[k],X_embedded.shape[1]))
    k+=1
    
plt.figure(figsize=(20,5))
plt.plot(threshold,fullx,label="full")
plt.plot(threshold,fsx,label="feature selection")
plt.xticks(threshold)
plt.legend()
plt.show()

随着threshold越来越大，被删除的特征越来越多，模型的效果也越来越差，说明调整该参数比较无效。

步骤四：绘制C的学习曲线

fullx = []
fsx = []
C = np.arange(0.01,10.01,0.5)

for i in C:
    LR_ = LR(solver="liblinear",C=i,random_state=420)
    fullx.append(cross_val_score(LR_,data.data,data.target,cv=10).mean())
    X_embedded = SelectFromModel(LR_,norm_order=1).fit_transform(data.data,data.target)
    fsx.append(cross_val_score(LR_,X_embedded,data.target,cv=10).mean())

print(max(fsx),C[fsx.index(max(fsx))])
    
plt.figure(figsize=(20,5))
plt.plot(C,fullx,label="full")
plt.plot(C,fsx,label="feature selection")
plt.xticks(C)
plt.legend()
plt.show()

继续细化最大值6.01左右的图像

fullx = []
fsx = []
C = np.arange(6.05,7.05,0.005)

for i in C:
    LR_ = LR(solver="liblinear",C=i,random_state=420)
    fullx.append(cross_val_score(LR_,data.data,data.target,cv=10).mean())
    X_embedded = SelectFromModel(LR_,norm_order=1).fit_transform(data.data,data.target)
    fsx.append(cross_val_score(LR_,X_embedded,data.target,cv=10).mean())

print(max(fsx),C[fsx.index(max(fsx))])
    
plt.figure(figsize=(20,5))
plt.plot(C,fullx,label="full")
plt.plot(C,fsx,label="feature selection")
plt.xticks(C)
plt.legend()
plt.show()

使用返回的效果最好的C值代入模型

LR_ = LR(solver="liblinear",C=6.079999999999999,random_state=420)
cross_val_score(LR_,data.data,data.target,cv=10).mean()

LR_ = LR(solver="liblinear",C=6.079999999999999,random_state=420)
X_embedded = SelectFromModel(LR_,norm_order=1).fit_transform(data.data,data.target)
cross_val_score(LR_,X_embedded,data.target,cv=10).mean()

X_embedded.shape

可以看到，在特征减少的情况下，准确率得到了提高。效果明显

其他的特征处理方法

系数累加法：找出曲线由锐利变平滑的转折点，转折点之前被累加的特征都是需要的，转折点之后的都不需要。相对麻烦，要提前对特征系数进行排序并确保排序后各系数对应的初始位置
包装法：直接设定需要的特征个数，具体参考数据预处理和特征工程

4.梯度下降

逻辑回归目的是求解能让损失函数 $J(\theta)$ 最小化的θ值。对于二元逻辑回归，可以采用梯度下降、坐标下降、牛顿法求解。

梯度下降求解逻辑回归
梯度是一个向量，既有大小又有方向。大小就是偏导数组成的向量的大小；方向是损失函数值变化最快的方向

想像小球从高处滚下到最低点的过程，小球坐标 $θ_1,θ_2,J)$ 梯度向量的方向就是每次滚动的方向；由于每次位置都会发生变化，即每次滚动方向也不同。所以梯度下降，其实就是在众多 $θ_1,θ_2]$ 可能的值中遍历，一次次求解坐标点的梯度向量，不断让损失函数的取值逐渐逼近最小值，再返回这个最小值对应的参数取值 $θ_1^*,θ_2^*]$ 的过程。

说明：

在多元函数上对各个自变量求偏导，并以向量的形式写出来，就是梯度。对于损失函数 $J(θ_1,θ_2)$ 来说，自变量是逻辑回归预测函数 $y_θ(x)$ 的参数θ1，θ2，在损失函数上对θ1，θ2求偏导，得到梯度向量 $grad J(θ_1，θ_2)$
逻辑回归损失函数表示如下：
$J(\theta)=-\sum_{i=1}^{m}(y_i*log(y_\theta(x_i))+(1-y_i)*log(1-y_\theta(x_i)))$
对函数上自变量θ求偏导，可以得到梯度向量在第j组坐标点上的表示形式：
$\frac{\partial}{\partial\theta_j}J(\theta)=d_j=\sum_{i=i}^{m}(y_\theta(x_i)-y_i)x_{ij}$

只要给定一组θ的取值再代入特征矩阵，就能求出一组θ下的预测结果，结合真实标签向量y，可以获得θj取值下的梯度向量，大小表示为dj。遍历θ的过程表示为：
$θ_{j+1}=θ_j-\alpha*d_j=θ_j-\alpha*\sum_{i=i}^{m}(y_θ(x_i)-y_i)x_{ij}$
$\alpha$ 为步长，控制每走一步后θ的变化，从而影响迭代后的梯度大小和方向。

步长概念
步长不是物理距离，也不是梯度下降过程中距离的直接变化，它是梯度向量的大小d上的一个比例，影响参数θ每次迭代后改变的部分。

从A运动到B，参数向量θ的变化为 $θ_a-θ_b$ ，根据梯度向量迭代公式为步长*梯度向量的大小，为二维平面三角形中的邻边。损失函数减少的量， $J(θ_b)-J(θ_a)$ 是二维平面三角形中的对边。
步长可以调节损失函数下降的速率，在损失函数降低的方向上，步长越长，θ的变动就越大。

逻辑回归中用参数max_iter代替步长，它表示最大迭代次数

max_iter实例

l2 = []
l2test = []

Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y,test_size=0.3,random_state=420)
for i in np.arange(1,201,10):
    lrl2 = LR(penalty="l2",solver="liblinear",C=0.9,max_iter=i)
    lrl2 = lrl2.fit(Xtrain,Ytrain)
    l2.append(accuracy_score(lrl2.predict(Xtrain),Ytrain))
    l2test.append(accuracy_score(lrl2.predict(Xtest),Ytest))

graph = [l2,l2test]
color = ["black","gray"]
label = ["L2","L2test"]
plt.figure(figsize=(20,5))
for i in range(len(graph)):
    plt.plot(np.arange(1,201,10),graph[i],color[i],label=label[i])
plt.legend(loc=4)
plt.xticks(np.arange(1,201,10))
plt.show()

warinning是指函数没有收敛，可以增大max_iter。实际情况中以预测效果为基准。

二元回归与多元回归：solver & multi_class

首先理解一对多和多对多
OvR：某种分类看作1，其他都为0
MvM：某些分类看作1，其他都为0

multi_class
auto：表示根据分类情况和其他参数来确定分类问题的类型。默认
multinomial：表示处理多分类问题，solver是“liblinear”时不可用

solver

简单对比“multinomial”和“over”

from sklearn.datasets import load_iris
iris = load_iris()

for multi_class in ('multinomial','auto'):
    clf = LR(solver='sag',max_iter=100,random_state=42,
             multi_class=multi_class).fit(iris.data,iris.target)
    print("training score: %.3f (%s)"%(clf.score(iris.data,iris.target),multi_class))

5.银行评分卡实例

项目介绍
评分卡在银行的借贷中经常使用，通过对客户的信用大小评分来区分风险用户与和正常用户，对于评分卡的完整模型的开发，需要有以下流程：

本次项目核心在数据清洗与模型开发！

导入库与数据

%matplotlib inline
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression as LR

data = pd.read_csv(r"./data/rankingcard.csv",index_col=0)
data.head()

步骤一.数据的初步探索

data.shape

data.info()

11个特征的解释说明：

特征/标签	含义
SeriousDlqin2yrs	出现 90 天或更长时间的逾期行为
RevolvingUtilizationOfUnsecuredLines	贷款以及信用卡可用额度与总额度比例
age	借款人借款年龄
NumberOfTime30-59DaysPastDueNotWorse	过去两年内出现35-59天逾期但是没有发展得更坏的次数
DebtRatio	每月偿还债务，赡养费，生活费用除以月总收入
MonthlyIncome	月收入
NumberOfOpenCreditLinesAndLoans	开放式贷款和信贷数量
NumberOfTimes90DaysLate	过去两年内出现90天逾期或更坏的次数
NumberRealEstateLoansOrLines	抵押贷款和房地产贷款数量，包括房屋净值信贷额度
NumberOfTime60-89DaysPastDueNotWorse	过去两年内出现60-89天逾期但是没有发展得更坏的次数
NumberOfDependents	家庭中不包括自身的家属人数（配偶，子女等）

步骤二.数据预处理

2.1去重并恢复索引

data.drop_duplicates(inplace=True)
data.info()

data.index = range(data.shape[0])
data.info()

第一张图为没有恢复索引的效果
2.2平均值填补NumberOfDependents
由于NumberOfDependents缺的很少，所以直接用平均值来进行填充处理

data.isnull().sum()/data.shape[0]
data["NumberOfDependents"].fillna(int(data["NumberOfDependents"].mean()),inplace=True)
data.info()

2.3逻辑森林填充MonthlyIncome
在实际情况中如此大量的数据缺失肯定需要我们与相关业务进行沟通解决。这里采用其他特征值预测的思想来填补这个缺失的特征。

#X 要填充的特征矩阵 y 完整的无缺失值的标签  to_fill 要填补的那一列缺失值
def fill_missing_rf(X,y,to_fill):
    df = X.copy()
    fill = df.loc[:,to_fill]
    df = pd.concat([df.loc[:,df.columns != to_fill],pd.DataFrame(y)],axis=1)
    #划分训练集合测试集
    Ytrain = fill[fill.notnull()]
    Ytest = fill[fill.isnull()]
    Xtrain = df.iloc[Ytrain.index,:]
    Xtest = df.iloc[Ytest.index,:]
    #用随机森林回归来填补缺失值
    from sklearn.ensemble import RandomForestRegressor as rfr
    rfr = rfr(n_estimators=100)
    rfr = rfr.fit(Xtrain,Ytrain)
    Ypredict = rfr.predict(Xtest)
    return Ypredict

X = data.iloc[:,1:]
y = data["SeriousDlqin2yrs"]
X.shape

y_pred =fill_missing_rf(X,y,"MonthlyIncome")
data.loc[data.loc[:,"MonthlyIncome"].isnull(),"MonthlyIncome"]=y_pred
data.info()

2.4处理描述性错误的异常值

上面数据可以看出，年龄最小值出现了问题。还有NumberOfTimes90DaysLate这类特征中也出现了不符合常理的数字，这些都需要进行处理

(data["age"] == 0).sum()
data = data[data["age"]!=0]

data[data.loc[:,"NumberOfTime60-89DaysPastDueNotWorse"]> 90].count()
data  = data[data.loc[:,"NumberOfTime60-89DaysPastDueNotWorse"] < 90]
data.index=range(data.shape[0])
data.info()

由于异常特征值数量都很少，所以这里就直接删除了

2.5处理样本不均衡的问题

n_sample = X.shape[0]
n_1_sample = y.value_counts()[1]
n_0_sample = y.value_counts()[0]
print('样本个数：{}; 1占{:.2%}; 0占{:.2%}'.format(n_sample,n_1_sample/n_sample,n_0_sample/n_sample))

违约的人毕竟只是极少数人，样本统计肯定会出现不均衡的情况，这里采用上采样（这里不进行解释）的方法来平衡样本

import imblearn
from imblearn.over_sampling import  SMOTE

sm = SMOTE(random_state=42)
X,y = sm.fit_resample(X,y)
n_sample_ =X.shape[0]
pd.Series(y).value_counts()
n_1_sample = pd.Series(y).value_counts()[1]
n_0_sample = pd.Series(y).value_counts()[0]
print('样本个数：{}; 1占{:.2%}; 0占{:.2%}'.format(n_sample,n_1_sample/n_sample,n_0_sample/n_sample))

2.6 划分训练集和数据集并保存方便后续使用

from sklearn.model_selection import train_test_split
X = pd.DataFrame(X)
y = pd.DataFrame(y)

X_train, X_vali, Y_train, Y_vali = train_test_split(X,y,test_size=0.3,random_state=420)
model_data = pd.concat([Y_train, X_train],axis=1)
model_data.index = range(model_data.shape[0])
model_data.columns = data.columns
vali_data = pd.concat([Y_vali, X_vali], axis=1)
vali_data.index = range(vali_data.shape[0])
vali_data.columns = data.columns

model_data.to_csv(r"./data/model_data.csv")
vali_data.to_csv(r"./data/vali_data.csv")

到这里，数据预处理就做完了

步骤三：分箱操作

分箱是制作评分卡最核心的步骤，本质就是离散化连续变量，让拥有不同属性的人被分为不同的类别，类似于聚类

如何判断合适的分箱个数

离散化连续变量必然伴随信息的损失，IV(information value)定义特征信息量对预测函数贡献的衡量值
$\sum_{i=1}^{N}(good\%-bad\%)*{WOE}_i$
N表示特征分箱个数，good%代表标签为0的优质客户占整个特征中所有优质客户的比例，bad%是这个箱子中的坏客户占整个特征中所有坏客户的比例，而 $WOE_i$ (weight of Evidence),写作：
$WOE_i=ln(\frac{good\%}{bad\%})$

IV	特征对预测函数的贡献
< 0.03	特征几乎不带有效信息，对模型没有贡献，这种特征可以被删除
0.03 ~ 0.09	有效信息很少，对模型的贡献度低
0.1 ~ 0.29	有效信息一般，对模型的贡献度中等
0.3 ~ 0.49	有效信息较多，对模型的贡献度较高
>=0.5	有效信息非常多，对模型的贡献超高并且可疑

箱子越多，信息损失越多，IV必然越小；所以分箱时应该计算每个特征在每个箱子数目下的WOE值，利用IV值的曲线，找出合适的分箱个数

说明：

期望的分箱效果：组间差异大，组内差异小。使用卡方检验两个箱子的相似性，并合并差异性很小的箱子
特征分箱的基本过程：
1.首先将连续变量分成一组数量较多的分类型变量
2.确保每一组中都包含有2种类别的样本，这是为了IV值的计算
3.对相邻组卡方检验，对检验结果P值很大的组合并，知道数据中组的数量小于设定的N箱为止
4.让一个特征分别分成[2,3,4…20]箱，观察每个分享个数下的IV值如何变化，找出最合适的分享个数
5.分享完毕后，计算每个箱的WOE值，观察分箱效果
最后对各个特征进行分箱，观察每个特征的IV值，以此挑选特征

3.1 等频分箱（针对age）

model_data["qcut"], updown = pd.qcut(model_data["age"], retbins=True, q=20)
#retbins：True，同时返回索引和箱子的Series
#model_data:每个样本所分的箱子  updown：所有箱子的上下限

#统计每个分箱中0,1数量
cnt_y0 = model_data[model_data["SeriousDlqin2yrs"] == 0].groupby(by="qcut").count()["SeriousDlqin2yrs"]
cnt_y1 = model_data[model_data["SeriousDlqin2yrs"] == 1].groupby(by="qcut").count()["SeriousDlqin2yrs"]
cnt_y0
#分别为每个区间上界，下界，0出现次数，1出现次数
num_bins = [*zip(updown,updown[1:],cnt_y0,cnt_y1)]
num_bins
#zip按照最短列进行结合

3.2确保IV值计算合并分箱

for i in range(20):
    if 0 in num_bins[0][2:]:
        num_bins[0:2] = [(
            num_bins[0][0],
            num_bins[1][1],
            num_bins[0][2]+num_bins[1][2],
            num_bins[0][3]+num_bins[1][3])]
        continue
    for i in range(len(num_bins)):
        if 0 in num_bins[i][2:]:
            num_bins[i-1:i+1] = [(
                num_bins[i-1][0],
                num_bins[i][1],
                num_bins[i-1][2]+num_bins[i][2],
                num_bins[i-1][3]+num_bins[i][3])]
            break
        else:
            break

这个案例不需要，基本思想就是如果第一次不行，就往后合并；之后的向前合并即可
3.3定义WOE和IV函数

def get_woe(nums_bins):
    columns = ["min","max","count_0","count_1"]
    df = pd.DataFrame(nums_bins,columns=columns)
    
    df["total"] = df.count_0 + df.count_1
    df["percentage"] = df.total / df.total.sum()
    df["bad_rate"] = df.count_1 / df.total
    df["good%"] = df.count_0 / df.count_0.sum()
    df["bad%"] = df.count_1 / df.count_1.sum()
    df["woe"] = np.log(df["good%"] / df["bad%"])
    return df

def get_iv(df):
    rate = df["good%"] - df["bad%"]
    iv = np.sum(rate * df.woe)
    return iv

注意区分bad_rate和bad%，分别是一个箱中坏样本占的比例以及一个箱中坏样本占整个特征中坏样本的比例

3.4卡方检验，合并箱体，绘制IV曲线

num_bins_ = num_bins.copy()
import matplotlib.pyplot as plt
import scipy

IV = []
axisx = []

while len(num_bins_) > 2:
    pvs = []
    for i in range(len(num_bins_)-1):
        x1 = num_bins_[i][2:]
        x2 = num_bins_[i+1][2:]
        pv = scipy.stats.chi2_contingency([x1,x2])[1]
        pvs.append(pv)
        
    i = pvs.index(max(pvs))
    num_bins_[i:i+2] = [(
        num_bins_[i][0],
        num_bins_[i+1][1],
        num_bins_[i][2]+num_bins_[i+1][2],
        num_bins_[i][3]+num_bins_[i+1][3])]
    
    bins_df = get_woe(num_bins_)
    axisx.append(len(num_bins_))
    IV.append(get_iv(bins_df))
    
plt.figure()
plt.plot(axisx,IV)
plt.xticks(axisx)
plt.xlabel("number of box")
plt.ylabel("IV")
plt.show()

一般选择下降趋势变化最大的，这张图可以选择4箱作为分箱结果
3.5 箱子合并函数

def get_bin(num_bins_,n):
    while len(num_bins_) > n:
        pvs = []
        for i in range(len(num_bins_)-1):
            x1 = num_bins_[i][2:]
            x2 = num_bins_[i+1][2:]
            pv = scipy.stats.chi2_contingency([x1,x2])[1]
            pvs.append(pv)
            
        i = pvs.index(max(pvs))
        num_bins_[i:i+2] = [(
            num_bins_[i][0],
            num_bins_[i+1][1],
            num_bins_[i][2]+num_bins_[i+1][2],
            num_bins_[i][3]+num_bins_[i+1][3])]
        
    return num_bins_

afterbins = get_bin(num_bins,4)

3.6将整个选择最佳分箱个数过程封装为函数

def graphforbestbin(DF, X, Y, n=5, q=20, graph=True):
    DF = DF[[X,Y]].copy()
    DF["qcut"],bins = pd.qcut(DF[X], retbins=True, q=q, duplicates="drop")
    cnt_y0 = DF.loc[DF[Y]==0].groupby(by="qcut").count()[Y]
    cnt_y1 = DF.loc[DF[Y]==1].groupby(by="qcut").count()[Y]
    num_bins = [*zip(bins,bins[1:],cnt_y0,cnt_y1)]
    
    for i in range(q):
        if 0 in num_bins[0][2:]:
            num_bins[0:2] = [(
                num_bins[0][0],
                num_bins[1][1],
                num_bins[0][2]+num_bins[1][2],
                num_bins[0][3]+num_bins[1][3])]
            continue
        for i in range(len(num_bins)):
            if 0 in num_bins[i][2:]:
                num_bins[i-1:i+1] = [(
                    num_bins[i-1][0],
                    num_bins[i][1],
                    num_bins[i-1][2]+num_bins[i][2],
                    num_bins[i-1][3]+num_bins[i][3])]
                break
            else:
                break
            
    def get_woe(nums_bins):
        columns = ["min","max","count_0","count_1"]
        df = pd.DataFrame(nums_bins,columns=columns)

        df["total"] = df.count_0 + df.count_1
        df["percentage"] = df.total / df.total.sum()
        df["bad_rate"] = df.count_1 / df.total
        df["good%"] = df.count_0 / df.count_0.sum()
        df["bad%"] = df.count_1 / df.count_1.sum()
        df["woe"] = np.log(df["good%"] / df["bad%"])
        return df

    def get_iv(df):
        rate = df["good%"] - df["bad%"]
        iv = np.sum(rate * df.woe)
        return iv
    
    IV = []
    axisx = []

    while len(num_bins) > n:
        pvs = []
        for i in range(len(num_bins)-1):
            x1 = num_bins[i][2:]
            x2 = num_bins[i+1][2:]
            pv = scipy.stats.chi2_contingency([x1,x2])[1]
            pvs.append(pv)

        i = pvs.index(max(pvs))
        num_bins[i:i+2] = [(
            num_bins[i][0],
            num_bins[i+1][1],
            num_bins[i][2]+num_bins[i+1][2],
            num_bins[i][3]+num_bins[i+1][3])]

        bins_df1 = pd.DataFrame(get_woe(num_bins))
        axisx.append(len(num_bins))
        IV.append(get_iv(bins_df1))
        
    if graph:
        plt.figure()
        plt.plot(axisx,IV)
        plt.xticks(axisx)
        plt.xlabel("number of box")
        plt.ylabel("IV")
        plt.show()
        
    return -1

3.7对所有特征都绘制IV曲线

model_data.columns

for i in model_data.columns[1:-1]:
    print(i)
    graphforbestbin(model_data,i,"SeriousDlqin2yrs",n=2,q=20)

选取特征绘制IV曲线正常：

选取特征绘制IV曲线不正常：

3.8对所有特征进行分箱的选择
分别可以自动分箱和观察后手动分箱

auto_col_bins = {"RevolvingUtilizationOfUnsecuredLines":6,
                 "age":5,
                 "DebtRatio":4,
                 "MonthlyIncome":3,
                 "NumberOfOpenCreditLinesAndLoans":5}
hand_bins = {"NumberOfTime30-59DaysPastDueNotWorse":[0,1,2,13]
             ,"NumberOfTimes90DaysLate":[0,1,2,17]
             ,"NumberRealEstateLoansOrLines":[0,1,2,4,54]
             ,"NumberOfTime60-89DaysPastDueNotWorse":[0,1,2,8]
             ,"NumberOfDependents":[0,1,2,3]} 
hand_bins = {k:[-np.inf,*v[:-1],np.inf] for k,v in hand_bins.items()}

bins_of_col ={}
for col in auto_col_bins:
    bins_df = graphforbestbin(model_data,col
                             ,"SeriousDlqin2yrs"
                             ,n=auto_col_bins[col]
                             ,q=20
                             ,graph=False)
    bins_list = sorted(set(bins_df["min"]).union(bins_df["max"]))
    bins_list[0],bins_list[-1] = -np.inf,np.inf
    bins_of_col[col] = bins_list
    bins_of_col.update(hand_bins)
    bins_of_col

步骤四：计算各箱的WOE并映射到数据中

4.1计算并存储每箱的woe值

def get_woe(df,col,y,bins):
    df = df[[col,y]].copy()
    df["cut"] = pd.cut(df[col],bins)
    bins_df = df.groupby("cut")[y].value_counts().unstack()
    woe = bins_df["woe"]=np.log(bins_df[0]/bins_df[0].sum()/(bins_df[1]/bins_df[1].sum()))
    return woe

woeall = {}
for col in bins_of_col:
    woeall[col] = get_woe(model_data,col,"SeriousDlqin2yrs",bins_of_col[col])

4.2将WOE映射到原始数据中

model_woe = pd.DataFrame(index=model_data.index)

for col in bins_of_col:
    model_woe[col] = pd.cut(model_data[col],bins_of_col[col]).map(woeall["col"])

model_woe["SeriousDlqin2yrs"] = model_data["SeriousDlqin2yrs"]

步骤五：建模与模型验证

5.1处理测试集数据并建模

vali_woe = pd.DataFrame(index=vali_data.index)
for col in bins_of_col:
    vali_woe[col] = pd.cut(vali_data[col],bins_of_col[col]).map(woeall[col])
vali_woe["SeriousDlqin2yrs"] = vali_data["SeriousDlqin2yrs"]
vali_X = vali_woe.iloc[:,:-1]
vali_y = vali_woe.iloc[:,-1]
X = model_woe.iloc[:,:-1]
y = model_woe.iloc[:,-1]

from sklearn.linear_model import LogisticRegression as LR
lr = LR().fit(X,y)
lr.score(vali_X,vali_y)

5.2绘制参数C的学习曲线

c_1 = np.linspace(0.01,1,20)

score = []
for i in c_1:
    lr = LR(solver='liblinear',C=i).fit(X,y)
    score.append(lr.score(vali_X,vali_y))
plt.figure()
plt.plot(c_2,score)
plt.show()

5.3 查看ROC曲线

import scikitplot as skplt

vali_proba_df = pd.DataFrame(lr.predict_proba(vali_X))
skplt.metrics.plot_roc(vali_y, vali_proba_df,
                        plot_micro=False,figsize=(6,6),
                        plot_macro=False)

步骤六：制作评分卡

评分卡公式如下：A、B是常数，分别为补偿和刻度，log（odds）表示一个人违约的可能性，也是参数
$S core = A - B * l o g (o dd s)$
A与B可以通过两个假设的分值代入求得：

某个特定违约概率下的预期分值
指定的违约概率翻倍的分数（PDO）

将所有特征的评分卡内容全部写入本地文件
6.1通过方程组（自己假设的）解AB

B = 20/np.log(2)
A = 600 + B*np.log(1/60)
 
B,A

6.2计算基础分base_score

base_score = A - B*lr.intercept_
base_score

6.3计算全部特征的评分卡并保存

file = "scoredata.csv"
with open(file,"w") as fdata:
    fdata.write("base_score,{}\n".format(base_score))
for i,col in enumerate(X.columns):
    score = woeall[col] * (-B*lr.coef_[0][i])
    score.name = "Score"
    score.index.name = col
    score.to_csv(file,header=True,mode="a")

终于做完了，呜呜呜呜呜~~~~~~~~~~~~~

其他附录表

逻辑回归参数表：

逻辑回归属性表：

逻辑回归接口列表

你可能感兴趣的:(sklearn,sklearn,逻辑回归)

金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
车辆检测与识别：车辆分类_（9）.车辆分类模型的评估与优化 zhubeibei168 机器人（二）分类数据挖掘人工智能计算机视觉机器学习视频监控
车辆分类模型的评估与优化在车辆检测与识别领域，车辆分类模型的评估与优化是确保模型性能和可靠性的关键步骤。本节将详细介绍如何评估车辆分类模型的性能，并提供一些优化技术，以提高模型的准确性和效率。模型评估指标1.准确率(Accuracy)准确率是最直观的评估指标，表示分类器正确分类的样本占总样本的比例。然而，在不平衡数据集上，准确率可能具有误导性。fromsklearn.metricsimportac
win7下python3.6通过pip安装scipy报错的解决办法青松一夏 python
一、问题描述通过pip方式安装了numpy和sklearn，但是sklearn需要依赖于scipy，但当通过pip方式安装scipy时，报错：numpy.distutils.system_info.NotFoundError:nolapack/blasresourcesfound按照网上的教程，并没有找到真正的解决办法，后来我是通过如下方式解决的。二、我的解决方案（1）首先卸载numpypipun
【python 机器学习】sklearn数据集的使用人才程序员 python 机器学习 sklearn 人工智能深度学习神经网络目标检测
文章目录sklearn数据集的使用1.`sklearn`内置数据集2.导入`sklearn`数据集3.加载和使用Iris数据集3.1加载数据3.2查看数据3.3使用数据集进行分类任务4.加载和使用Digits数据集4.1加载数据4.2查看数据4.3使用数据集进行分类任务5.加载和使用BreastCancer数据集5.1加载数据5.2查看数据5.3使用数据集进行分类任务6.总结sklearn数据集的
如果我想成为一名大数据和算法工程师，我需要学会哪些技能，获取大厂的offer 红豆和绿豆杂谈大数据算法
成为一名大数据和算法工程师并获取大厂Offer，需要掌握一系列核心技能，并具备丰富的项目经验与扎实的理论基础。以下是详细的技能要求和建议：---###**1.数学与理论基础**-**数学知识**：掌握线性代数、微积分、概率论和统计学，这些是设计和理解算法的基础。-**机器学习理论**：深入理解常见机器学习算法（如线性回归、逻辑回归、决策树、随机森林、SVM、K-means等），了解其原理、优缺点及
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
【sklearn 05】sklearn功能模块 @金色海岸 sklearn 人工智能 python
sklearn功能模块分类：识别某个对象属于那个类别回归：预测与对象相关联的连续值属性聚类：将相似对象自动分组降维：减少要考虑的随机变量的数量模型选择：比较、验证、选择参数和模型预处理：特征提取和归一化
【sklearn 07】sklearn工艺流程 @金色海岸人工智能 sklearn python 机器学习
01数据的获取02数据预处理03特征的提取04特征的选择05模型的训练06模型的评估07模型的优化
【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART） SmallBambooCode 机器学习人工智能 python 算法 scikit-learn 决策树机器学习 ai
importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifier,plot_tree#加载数据集iris=load_iri
【sklearn 03】逻辑回归、决策树、支持向量机 @金色海岸 sklearn 逻辑回归决策树
逻辑回归、决策树、支持向量机-逻辑回归logisticsregression（逻辑回归）算法是经典的分类算法，基本思想是构造一个概率的拟合函数。决策树决策树的基本思想是根据样例去推断其背后的树形知识表征支持向量机支持向量机SVM(supportvectormachine)的基本思想是寻找最大的间隔的分割超平面。离分割超平面最近的这些样本点称为支持向量机
机器学习 [白板推导]（三）[线性分类] 神齐的小马机器学习分类人工智能
4.线性分类4.1.线性分类的典型模型硬分类：输出结果只有0或1这种离散结果；感知机线性判别分析Fisher软分类：会输出0-1之间的值作为各个类别的概率；概率生成模型：高斯判别分析GDA、朴素贝叶斯，主要建模的是p(x⃗,y)p(\vec{x},y)p(x,y)概率判别模型：逻辑回归，主要建模的是p(y∣x⃗)p(y|\vec{x})p(y∣x)4.2.感知机4.2.1.基本模型模型：f(x
训练数据重复采样，让正负样本比例1：1 kimi-222 机器学习人工智能深度学习
详细解释resample函数：resample函数来自sklearn.utils，用于从数据集中重新抽样。replace=True表示允许重复抽样，即同一个样本可以被多次选中。n_samples指定抽样的数量。确保训练集数量相同：通过resample函数，你可以确保正训练集和负训练集的数量相同，即使其中一个集的数量小于另一个集的数量。如果n_train_num小于max_train_num，res
【sklearn 04】DNN、CNN、RNN @金色海岸 sklearn dnn cnn
DNNDNN（DeepNeuralNetworks，深度神经网络）是一种相对浅层机器学习模型具有更多参数，需要更多数据进行训练的机器学习算法CNNCNN（convolutionalNeuralNetworks，卷积神经网络）是一种从局部特征开始学习并逐渐整合的神经网络。卷积神经网络通过卷积层来进行特征提取，通过池化层进行降维，相比较全连接的神经网络，卷积神经网络降低了模型复杂度，减少了模型的参数，
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
新手村：混淆矩阵嘉羽很烦机器学习机器学习
新手村：混淆矩阵一、前置条件知识点要求学习资源分类模型基础理解分类任务（如二分类、多分类）和常见分类算法（如逻辑回归、决策树）。《Hands-OnMachineLearningwithScikit-Learn》Python基础熟悉变量、循环、函数、列表、字典等基本语法。《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基
【机器学习】skit-learn中LSI模型的实现一穷二白到年薪百万机器学习 python sklearn
参考文献[1]sklearn_api.lsimodel–ScikitlearnwrapperforLatentSemanticIndexing[2]Pythonmodels.LsiModel方法代码示例
机器学习_重要知识点整理嘉羽很烦机器学习机器学习
机器学习重要知识点整理一、数学与理论基础1.概率与统计术语作用使用场景概率分布描述随机变量的取值概率，如正态分布、二项分布。数据建模（如高斯分布假设）、生成模型（如贝叶斯网络）。贝叶斯定理计算条件概率，更新先验知识以获得后验概率。贝叶斯分类器、文本分类（如垃圾邮件检测）。最大似然估计（MLE）通过数据最大化似然函数，估计模型参数。线性回归、逻辑回归参数估计。假设检验判断假设是否成立（如t检验、卡方
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
无网络entos7报错ImportError: /lib64/libm.so.6: version `GLIBC_2.27‘ not found更新glibc 夏离网络
最近在尝试使用sklearn的升级版cuml，因为是一台没有连接互联网的gpu机器，所以构建cuml环境过程很坎坷，需要各种将各种whl包在线下载后上传到服务器中。当我终于解决完包的互相依赖问题后，在importcuml时候遇到一个错误：ImportError:/lib64/libm.so.6:version`GLIBC_2.27’notfound(requiredby/anaconda3/env
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
大模型开发教程：从零开始的入门指南！程序员二飞人工智能 java 数据库职场和发展深度学习
概述大模型开发教程引领人工智能领域前沿，从基础概念至实战项目，全面覆盖Python与深度学习框架使用，指导初学者构建线性回归、逻辑回归、神经网络等模型，深入探索图像分类、情感分析等复杂应用，为探索未来智能世界提供坚实基石。前排提示，文末有大模型AGI-CSDN独家资料包哦！二、基础知识2.1人工智能与深度学习的概念人工智能(AI)是计算机科学的一个分支，旨在使计算机能够执行通常需要人类智能的任务。
基于python的手写数字识别knn_用sklearn中的KNN实现Kaggle手写数字识别普和司
importcsvfromsklearnimportneighbors#导入训练数据和测试数据defloadData(filename1,filename2,trainDataSet,trainTargetSet,testDataSet):withopen(filename1,'r')ascsvfile1:lines1=csv.reader(csvfile1)dataSet=list(lines1
基于线性回归和多项式回归的完整代码 yzx991013 回归线性回归算法
‌1.导入必要库importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.linear_modelimportLinearRegressionfromsklearn.preprocessingimportPolynomialFeaturesfromsklearn.pipelineimportPipelinefromsklearn.metricsi
基于Pytorch深度学习——Softmax回归 EchoToMe 深度学习 pytorch 回归 python
本文章来源于对李沐动手深度学习代码以及原理的理解，并且由于李沐老师的代码能力很强，以及视频中讲解代码的部分较少，所以这里将代码进行尽量逐行详细解释并且由于pytorch的语法有些小伙伴可能并不熟悉，所以我们会采用逐行解释+小实验的方式来给大家解释代码大家都知道二分类问题我们在机器学习里面使用到的是逻辑回归这个算法，但是针对于多分类问题，我们常用的是Softmax技术，大家不要被这个名字给迷惑了，s
Bert的使用巨鹿.. 深度学习记录 bert 人工智能深度学习
一、Data.py#data负责产生两个dataloaderfromtorch.utils.dataimportDataLoader,Datasetfromsklearn.model_selectionimporttrain_test_split#给X,Y和分割比例，分割出来一个训练集和验证机的X,Yimporttorchdefread_file(path):data=[]label=[]with
sklearn 支持向量机实践总结可爱的红薯 python sklearn 支持向量机 python sklearn 支持向量机
转自http://www.cnblogs.com/pinard/p/6117515.html之前通过一个系列对支持向量机(以下简称SVM)算法的原理做了一个总结，本文从实践的角度对scikit-learnSVM算法库的使用做一个小结。scikit-learnSVM算法库封装了libsvm和liblinear的实现，仅仅重写了算法了接口部分。1.scikit-learnSVM算法库使用概述sciki
【面经&八股】搜广推方向：面试记录（九）秋冬无暖阳° 搜广推等—算法面经面试职场和发展
【面经&八股】搜广推方向：面试记录（九）文章目录【面经&八股】搜广推方向：面试记录（九）1.自我介绍2.科研-项目经历问答3.实习经历问答4.八股5.编程题6.反问1.自我介绍。。。。。。2.科研-项目经历问答挑了我的论文，一直揪着问，建议一定要熟悉自己的工作。3.实习经历问答这个基本上没问。4.八股写一下LR—逻辑回归损失公式：当y=1时，损失函数等于y_hat的负对数，即越接近1，损失越小；越
python搭建NPL模型的详细步骤和代码百锦再@新空间代码工作室包罗万象 python 开发语言 django flask pygame pip
目录**一、环境准备****二、数据准备****三、文本预处理****1.清理文本****四、特征工程****1.TF-IDF****2.Word2Vec****五、搭建NLP模型****1.逻辑回归****2.LSTM深度学习模型****六、使用预训练的BERT模型****七、模型评估****八、部署模型****总结**1.**人机交互的核心技术**2.**推动AI技术发展的动力**3.**广泛
加州房价数据集加载出错：无法获取数据，HTTP Error : Forbidden code_welike http 网络协议网络 python
加州房价数据集加载出错：无法获取数据，HTTPError:Forbidden在使用Python的sklearn库中，我们可以很方便地获取一些常用的数据集。在加载加州房价数据集时，有时会遇到“HTTPError:Forbidden”的错误提示，导致无法获取数据。这个问题的出现可能是因为我们的IP被限制了。那么该如何解决这个问题呢？解决方案：1.更换IP地址:首先，我们应该排除IP被限制的可能性。可以
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f