西西先生666

机器学习之金融风控

一、评分卡
- 1.1 评分卡原理
- 1.2 评分卡优缺点
- 1.3 评分卡模型搭建步骤
- 1.4 IV值和WOE值详解
- 1.5 评分卡转换
二、实现
- 2.1 数据导入与预处理
- 2.2 可视化分析
- 2.3 数据分箱-计算IV值和WOE值
- 2.4 baseline模型搭建与评估
- 2.5 评分卡转换
- 2.6 验证评分卡效果
- 2.7 总结
三、参考网址

一、评分卡

1.1 评分卡原理

根据风控时间点的”前中后”，一般风评分卡可以分为下面三类:
1）A卡（Application score card）：目的在于预测申请时（申请信用卡、申请贷款）对申请人进行量化评估；
2）B卡（Behavior score card）：目的在于预测使用时点（获得贷款、信用卡的使用期间）未来一定时间内逾期的概率；
3）C卡（Collection score card）：目的在于预测已经逾期并进入催收阶段后未来一定时间内还款的概率。

1.2 评分卡优缺点

优点：
1）易于使用。业务人员在操作时，只需要按照评分卡每样打分然后算个总分就能操作，不需要接受太多专业训练；
2）直观透明。客户和审核人员都能知道看到结果，以及结果是如何产生的；
3）应用范围广。如支付宝的芝麻信用分，或者知乎盐值。
缺点：
1）当信息维度高时，评分卡建模会变得非常困难；

1.3 评分卡模型搭建步骤

0.数据探究。研究数据都包含哪些信息；
1.样本选取。选取一定时间周期内该平台上的信贷样本数据，划分训练集和测试集；
2.变量选取。也就是特征筛选。需要一定的业务理解。一般这部分费时较久；
3.逻辑回归。根据筛选后的特征，构建逻辑回归模型；
4.评分卡转换。根据一定的公式转换；
5.验证并上线。验证评分卡效果，并上线持续监测。

1.4 IV值和WOE值详解

WOE：Weight of Evidence，即证据权重。WOE是对原始自变量的一种编码形式。
1）对变量进行WOE编码时，首先需要对变量进行分组处理（即离散化、分箱等操作），分组后，对于第 $i$ 组，WOE的计算公式为：
$WOE_i=ln(\frac{py_i}{pn_i})=ln(\frac{\frac{y_i}{y_T}}{\frac{n_i}{n_T}})\tag{1}$
2）其中 $py_i$ 是组中响应的客户数（ $y_i$ ，在风险模型中，对应违约的客户，即label=1的客户）占所有样本中所有响应客户（ $y_T$ ）的比例； $pn_i$ 是组中未响应的客户（ $n_i$ ，在风险模型中，对应未违约的客户，即label=0的客户）占所有样本中所有未响应客户（ $n_T$ ）的比例。
3）WOE越大，组中响应的客户比例和未响应客户比例之间的比值差异越大，则在这个分组里的样本响应的可能性就越大，WOE越小，差异越小，这个分组里的样本响应的可能性就越小。
IV：Information Value，即信息值或信息量。判断特征对结果的重要程度。
1）IV的计算公式为：
$\begin{aligned} IV_i&=(py_i-pn_i)*WOE_i\\ &=(py_i-pn_i)*ln(\frac{py_i}{pn_i})\\ &=(py_i-pn_i)*ln(\frac{\frac{y_i}{y_T}}{\frac{n_i}{n_T}})\tag{2} \end{aligned}$
有了一个变量的各个分组的 $IV_i$ 值，我们可以计算整个变量的IV值，如下所示：
$IV=\sum_i^n IV_i\tag{3}$
其中 $n$ 为变量分组的个数。
IV值缺点：不能自动处理变量的分组中出现响应比例为0或100%的情况。那么，遇到响应比例为0或者100%的情况，我们应该怎么做呢？建议如下：
（1）如果可能，直接把这个分组做成一个规则，作为模型的前置条件或补充条件；
（2）重新对变量进行离散化或分组，使每个分组的响应比例都不为0且不为100%，尤其是当一个分组个体数很小时（比如小于100个），强烈建议这样做，因为本身把一个分组个体数弄得很小就不是太合理。
（3）如果上面两种方法都无法使用，建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0，可以人工调整响应数为1，如果非响应数原本为0，可以人工调整非响应数为1。

1.5 评分卡转换

评分卡模型中不直接采用客户违约概率p，而是采用违约概率与正常概率之间的比值，称为odds，即
$odds=\frac{p}{1-p}\tag{4}$
$p=\frac{odds}{1+odds}\tag{5}$
为什么不直接采用p，而是采用odds呢？
1）根据逻辑斯蒂回归原理：
$p=\frac{1}{1+e^{-\theta^Tx}}\tag{6}$
经过变换可得：
$ln(\frac{p}{1-p})=\theta^Tx\tag{7}$
2）有了逻辑斯蒂的原理，我们可得：
$ln(odds)=\theta^Tx\tag{8}$
评分卡逻辑的背后是odds的变动与评分变动之间的映射（把odds映射为评分）,可以设计一个公式：
$Score=A-B*ln(odds)\tag{9}$
其中A、B是出常数，B前面取负号的原因在于：违约率越低，得分越高。
计算A、B的方法如下，首先包含2个假设：
1）基准分：当 $\theta_0$ 为某个比率时的得分 $P_0$ ，业界风控策略基准分都设置为500/600/650，基准分 $P_0$ 为：
$P_0=A-B*ln(\theta_0)\tag{10}$
2）PDO（point of double）：比率翻倍时分数的变动值，我们这里假设当odds翻倍时，分值减少50，则有：
$P_0-PDO=A-B*ln(2\theta_0)\tag{11}$
由公式(9)、(10)可得A、B的值为：
$B=\frac{PDO}{ln2}\tag{12}$
$A=P_0+B*ln(\theta_0)\tag{13}$
评分卡里每一个变量的每一个分箱有一个对应分值:
$Score=A-B\{\theta_0+\theta_1x_1+\theta_nx_n\}\tag{14}$
其中变量 $x_1, x_2$ 都是最终模型的输入变量。由于所有输入变量都进行了WOE编码，所以这些变量可以写为 $(\theta_i w_{ij})\delta_{ij}$ 的形式，其中 $w_{ij}$ 为第 $i$ 个特征的第 $j$ 个分箱的WOE值， $\delta_{ij}$ 是取值为0,1的变量，当 $\delta_{ij}=1$ 时，表示特征 $i$ 取第 $j$ 个分箱值， $\delta_{ij}=0$ 时，表示特征 $i$ 不取第 $j$ 个分箱值，最终得到评分卡模型为：
$Score=A-B\begin{Bmatrix} \theta_0\\ +(\theta_1 w_{11})\delta_{11}+(\theta_1 w_{12})\delta_{12}+...\\ ......\\ +(\theta_n w_{n1})\delta_{n1}+(\theta_n w_{n2})\delta_{n2}+... \end{Bmatrix}\tag{15}$

二、实现

2.1 数据导入与预处理

#导入所需要的包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
import seaborn as sns
import math
import warnings
warnings.filterwarnings('ignore')
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from sklearn.linear_model import LogisticRegression
import sklearn.metrics as metrics

#数据读取与展示
test=pd.read_csv('./data/give me some credit/cs-test.csv')
del test['Unnamed: 0'] #删除无用的列
train=pd.read_csv('./data/give me some credit/cs-train.csv')
del train['Unnamed: 0']
train.head()

变量SeriousDlqin2yrs是模型的label。其中1为坏，0为好。这个变量是意思是Serious Delinquent in 2 year,也就是2年内发生严重逾期,其中”严重“定义为逾期超过90天。例如你2019年4月1号是你的还款日，然后你在7月1号前都没还钱，那这时候逾期就超过90天了，你的数据标签就为1。

#查看数据是否缺失
train.info()

#数据描述性统计
train.describe()

#定义函数，计算缺失值及缺失比例
def cal_miss_value(df):
    null_val_sum=df.isnull().sum()
    null_df=pd.DataFrame({'Columns':null_val_sum.index,
                          'Number of null values':null_val_sum.values,
                          'Proportion':null_val_sum.values/len(df)})
    null_df['Proportion']=null_df['Proportion'].apply(lambda x:format(x, '.2%'))
    return null_df
train_null_df=cal_miss_value(train)
train_null_df

#缺失值处理-中位数填充
train['NumberOfDependents']=train['NumberOfDependents'].fillna(train['NumberOfDependents'].median())
print('Train data:')
print(train.isnull().sum())

test['NumberOfDependents']=test['NumberOfDependents'].fillna(test['NumberOfDependents'].median())
print('\nTest data:')
print(test.isnull().sum())

#使用随机森林对收入NumberOfDependents进行预测，来填充缺失值
names=list(train.columns)
names.remove('NumberOfDependents')
def rf_fill_nan(df, null_col):
    #分成已知该特征和未知该特征2部分
    known=df[df[null_col].notnull()]
    unknown=df[df[null_col].isnull()]
    #指定X和y
    X=known.drop([null_col], axis=1)
    y=known[null_col]
    model=RandomForestRegressor(random_state=0, n_jobs=-1).fit(X, y)
    pred=model.predict(unknown.drop([null_col], axis=1)).round(0)  #四舍五入取整
    df.loc[df[null_col].isnull(), null_col]=pred #缺失值进行填充
    return df
train=rf_fill_nan(train, 'MonthlyIncome')

#异常值处理--剔除age等于0的数据
train=train.loc[train['age']>0]

2.2 可视化分析

#可视化分析
sns.countplot(x='SeriousDlqin2yrs', data=train)
print('Default rate=%.4f'%(train['SeriousDlqin2yrs'].sum()/len(train)))
#结果
Default rate=0.0668

#客户年龄分布
sns.distplot(train['age'])

2.3 数据分箱-计算IV值和WOE值

#数据分箱
'''
需要 qcut的: 等频分箱，每个箱包含的样本数是相同的
RevolvingUtilizationOfUnsecuredLines
DebtRatio
MonthlyIncome
NumberOfOpenCreditLinesAndLoans
NumberRealEstateLoansOrLines

需要 cut的: 等间隔分箱或者自定义分箱边界
age
NumberOfDependents
NumberOfTime30-59DaysPastDueNotWorse
NumberOfTimes90DaysLate
NumberOfTime60-89DaysPastDueNotWorse
'''
age_bins = [-math.inf, 25, 40, 50, 60, 70, math.inf]
train['bin_age'] = pd.cut(train['age'],bins=age_bins).astype(str)
dependent_bin = [-math.inf,2,4,6,8,10,math.inf]
train['bin_NumberOfDependents'] = pd.cut(train['NumberOfDependents'],bins=dependent_bin).astype(str)
dpd_bins = [-math.inf,1,2,3,4,5,6,7,8,9,math.inf]
train['bin_NumberOfTimes90DaysLate'] = pd.cut(train['NumberOfTimes90DaysLate'],bins=dpd_bins)
train['bin_NumberOfTime30-59DaysPastDueNotWorse'] = pd.cut(train['NumberOfTime30-59DaysPastDueNotWorse'], bins=dpd_bins)
train['bin_NumberOfTime60-89DaysPastDueNotWorse'] = pd.cut(train['NumberOfTime60-89DaysPastDueNotWorse'], bins=dpd_bins)

train['bin_RevolvingUtilizationOfUnsecuredLines'] = pd.qcut(train['RevolvingUtilizationOfUnsecuredLines'],q=5,duplicates='drop').astype(str)#q为分箱数，当有重复的边界时，会报错，将报错drop掉
train['bin_DebtRatio'] = pd.qcut(train['DebtRatio'],q=5,duplicates='drop').astype(str)
train['bin_MonthlyIncome'] = pd.qcut(train['MonthlyIncome'],q=5,duplicates='drop').astype(str)
train['bin_NumberOfOpenCreditLinesAndLoans'] = pd.qcut(train['NumberOfOpenCreditLinesAndLoans'],q=5,duplicates='drop').astype(str)
train['bin_NumberRealEstateLoansOrLines'] = pd.qcut(train['NumberRealEstateLoansOrLines'],q=5,duplicates='drop').astype(str)

#写一个计算IV的函数
def cal_IV(df, feature, target):
    lst=[]
    for i in df[feature].unique():
        lst.append([feature, 
                    i, 
                    len(df.loc[df[feature]==i]), 
                    len(df.loc[(df[feature]==i)&(df[target]==1)])])
    data=pd.DataFrame(lst, columns=['特征', '特征取值', '该特征取值下样本数', '该特征取值下bad样本数'])
    data=data.loc[data['该特征取值下bad样本数']>0] #如果该取值下没有bad样本，则无法计算woe值
    data['woe的分子']=data['该特征取值下bad样本数']/len(df.loc[df[target]==1])
    data['woe的分母']=(data['该特征取值下样本数']-data['该特征取值下bad样本数'])/len(df.loc[df[target]==0])
    data['woe']=np.log(data['woe的分子']/data['woe的分母'])
    data['iv']=(data['woe']*(data['woe的分子']-data['woe的分母'])).sum()
    return data

lst=[]
for j in train.columns:
    if j.startswith('bin_'): #判断字符串以bin_开头，endswith是判断结尾
        lst.append([j, cal_IV(train, j, 'SeriousDlqin2yrs')['iv'][0]])
data_iv=pd.DataFrame(lst, columns=['feature', 'iv'])
data_iv=data_iv.sort_values(by='iv', ascending=False).reset_index(drop=True) #按IV值进行降序排列
data_iv

我们选择IV值之大于0.1的特征进行预测。

used_cols=data_iv.loc[data_iv['iv']>0.1]['feature'].tolist()
used_cols
#结果
['bin_RevolvingUtilizationOfUnsecuredLines',
 'bin_NumberOfTime30-59DaysPastDueNotWorse',
 'bin_NumberOfTimes90DaysLate',
 'bin_NumberOfTime60-89DaysPastDueNotWorse',
 'bin_age']

#定义一个函数cal_WOE，用以把分箱转成WOE值
def cal_WOE(df, features, target):
    df_new=df
    for f in features:
        df_woe=df_new.groupby(f).agg({target:['sum', 'count']})
        df_woe.columns = list(map(''.join, df_woe.columns))
        df_woe = df_woe.reset_index()
        df_woe = df_woe.rename(columns = {target+'sum':'bad'})
        df_woe = df_woe.rename(columns = {target+'count':'all'})
        df_woe['good']=df_woe['all']-df_woe['bad']
        df_woe['bad_rate']=df_woe['bad']/df_woe['bad'].sum()
        df_woe['good_rate']=df_woe['good']/df_woe['good'].sum()
        df_woe['woe'] = df_woe['bad_rate'].divide(df_woe['good_rate'],fill_value=1)#分母为0时，用1填充
        #此woe值未取对数，对数转换后可能造成出现无穷小
        df_woe.columns = [c if c==f else c+'_'+f for c in list(df_woe.columns)]
        df_new=df_new.merge(df_woe, on=f, how='left')
    return df_new

df_woe = cal_WOE(train,used_cols,'SeriousDlqin2yrs')
woe_cols = [c for c in list(df_woe.columns) if 'woe' in c]
df_woe[woe_cols]

d=pd.DataFrame()
for j in train.columns:
    if j.startswith('bin_'): #判断字符串以bin_开头，endswith是判断结尾
        d=d.append(cal_IV(train, j, 'SeriousDlqin2yrs'))
d

2.4 baseline模型搭建与评估

#建立逻辑斯蒂回归-取出20%的数据作为验证集
X_train, X_validation, y_train, y_validation=train_test_split(df_woe[woe_cols],  df_woe['SeriousDlqin2yrs'], test_size=0.2, random_state=42)
print("train set's bad rate is: %.4f"% (y_train.sum()/y_train.count()))
print("validation set's bad rate is: %.4f"% (y_validation.sum()/y_validation.count()))
#结果
train set's bad rate is: 0.0672
validation set's bad rate is: 0.0653

print(np.isinf(X_train).any()) #判断是否为无穷大
print(np.isfinite(X_train).any()) #判断是否为有限的数字
print(np.isnan(X_train).any()) #判断是否存在缺失值

#采用SMOTE进行数据平衡，效果不好，所以未采用
# X_train_smote, y_train_smote = SMOTE(random_state=42).fit_resample(X_train, y_train)
# print("After SMOTE, train set's bad rate is: %.4f"% (y_train_smote.sum()/y_train_smote.count()))

#Logistic Regression作为baseline模型，常用于风控领域
#model_smote=LogisticRegression(random_state=42).fit(X_train_smote, y_train_smote)
model=LogisticRegression(random_state=42).fit(X_train, y_train)
print("Model's parameters:", model.coef_)
prob=model.predict_proba(X_validation)[:,1] #返回2列数据，第0列是0类别的概率，第1列是1类别的概率
fpr,tpr, threshold=metrics.roc_curve(y_validation, prob)
roc_auc=metrics.auc(fpr,tpr)

#绘制ROC曲线
plt.plot(fpr,tpr,'b',label="AUC=%.2f"%roc_auc)
plt.title('ROC Curve')
plt.legend(loc='best')
plt.plot([0,1],[0,1],'r--')
plt.xlim([0,1])
plt.ylim([0,1])
plt.xlabel('fpr')
plt.ylabel('tpr')
plt.show()

#计算混淆矩阵
y_pred=model.predict(X_validation)
print('Confusion_matrix:\n',metrics.confusion_matrix(y_validation, y_pred))
#计算分类指标
print('\nAccuracy:\n %.4f'%metrics.accuracy_score(y_validation, y_pred))
target_names = ['label=0','label=1']
print('\nPrecision_recall_f1-score:\n',metrics.classification_report(y_validation,y_pred,target_names = target_names))

2.5 评分卡转换

#评分卡转换
#设置基础分P0为650，PDO为50，我们定义theta_0为1:1(表示p/1-p=1:1)，也可以采用其他值
B=50/np.log(2)
A=650+B*np.log(1/1)

def generate_scorecard(model_coef, bin_df, features, B):
    lst=[]
    cols=['Variable','Binning','Score']
    coef=model_coef[0]
    for i in range(len(features)):
        f=features[i]
        df=bin_df[bin_df['特征']==f]
        for index, row in df.iterrows():
            lst.append([f, row['特征取值'], int(-coef[i]*row['woe']*B)])
    data=pd.DataFrame(lst, columns=cols)
    return data

score_card = generate_scorecard(model.coef_, d, used_cols, B)
score_card

#进行排序
sort_scorecard=score_card.groupby(by='Variable').apply(lambda x:x.sort_values('Score', ascending=False))
sort_scorecard

总体来说评分符合预期。

2.6 验证评分卡效果

#为了验证评分卡的效果，我们各选五个SeriousDlqin2yrs == 0和SeriousDlqin2yrs == 1
#并固定一个random state。

def str_to_int(s):
    if s == '-inf':
        return -999999999.0
    elif s=='inf':
        return 999999999.0
    else:
        return float(s)

def map_value_to_bin(feature_value, feature_to_bin):
    for idx, row in feature_to_bin.iterrows():
        bins=str(row['Binning'])
        left_open=bins[0]=='('
        right_open=bins[-1]==')'
        binnings=bins[1:-1].split(',')
        in_range=True
        
        # check left bound
        if left_open:
            if feature_value<=str_to_int(binnings[0]):
                in_range=False
        else:
            if feature_value<str_to_int(binnings[0]):
                in_range=False
        
        #check right bound
        if right_open:
            if feature_value>= str_to_int(binnings[1]):
                in_range = False
        else:
            if feature_value> str_to_int(binnings[1]):
                in_range = False
        if in_range: #in_range==True时
            return row['Binning']
    return null

def map_to_score(df, score_card):
    scored_columns=list(i.split('_')[1] for i in score_card['Variable'].unique())
    score=0
    for col in scored_columns:
        bin_col='bin_'+col
        feature_to_bin=score_card[score_card['Variable']==bin_col]
        feature_value=df[col]
        selected_bin=map_value_to_bin(feature_value, feature_to_bin)
        selected_record_in_scorecard=feature_to_bin[feature_to_bin['Binning'] == selected_bin]
        score+=selected_record_in_scorecard['Score'].iloc[0]
    return score

def calculate_score_with_card(df, score_card, A):
    df['score']=df.apply(map_to_score, args=(score_card,), axis=1)
    df['score']=df['score']+A
    df['score']=df['score'].astype(int)
    return df

#生成样本
row_cols=[i.split('_')[1] for i in used_cols]#取出未转换为分箱的原始5个特征
pred_cols=row_cols+used_cols
good_sample=train[train['SeriousDlqin2yrs']==0].sample(5, random_state=1)[pred_cols]
bad_sample=train[train['SeriousDlqin2yrs']==1].sample(5, random_state=1)[pred_cols]

#开始计算评分--好客户
calculate_score_with_card(good_sample, score_card, A)
calculate_score_with_card(good_sample, score_card, A)

#开始计算评分--坏客户
calculate_score_with_card(bad_sample, score_card, A)
calculate_score_with_card(bad_sample, score_card, A)

可以看到，好样本分数评分都比坏样本分数高，说明了评分卡的有效性。

2.7 总结

由于测试集label信息未知，所以无法计算IV值和WOE值；
分箱可以进行优化，可以才测试集上使用分箱结果；

三、参考网址

https://mp.weixin.qq.com/s/5BPb-wDauPvDZkTc2euROQ
https://mp.weixin.qq.com/s/5cJ5Yix_3up2sAixJd79Zw
https://mp.weixin.qq.com/s/eGjgCkgtupolyT4BccAANQ
https://www.kaggle.com/orange90/credit-scorecard-example/notebook
https://zhuanlan.zhihu.com/p/148102950

开源语音分离工具大比拼：人声 VS 背景音乐 ⚔️ - 获取干净训练语音 (数据截至 2025年4月17日)！！！小丁学Java python 人工智能
开源语音分离工具大比拼：人声VS背景音乐⚔️-获取干净训练语音(数据截至2025年4月17日)在音频处理，特别是机器学习训练数据的准备中，获取纯净的人声（去除背景音乐或噪声）是一个常见的痛点。幸运的是，开源社区提供了许多强大的工具来帮助我们完成这项任务！本文将盘点一系列GitHub上的开源语音分离项目，重点关注那些能有效分离“人物语音”和“背景音乐”的工具，并根据GitHub星标⭐（反映社区关注度
【零基础学AI】第29讲：BERT模型实战 - 情感分析 1989 0基础学AI bert 人工智能深度学习神经网络 cnn python 自然语言处理
本节课你将学到BERT模型的核心原理与优势HuggingFaceTransformers库的BERT接口使用情感分析任务的完整实现流程模型微调(Fine-tuning)技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtransformersdatasetspandastqdmGPU推荐（可加速训练）前置知识第28讲Transformer基础基本PyTorch使用
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
Python: 如何用Python的迭代器或生成器实现斐波那契数列 KevinShi_BJ python
斐波那契数列（Fibonaccisequence）是指这样一个数列：1，1，2，3，5，8，13，21，34，55，89...这个数列从第3项开始，每一项都等于前两项之和。斐波那契数列的定义者，是意大利数学家莱昂纳多·斐波那契（LeonardoFibonacci）。以兔子繁殖为例子而引入，故又称为”兔子数列“。斐波那契数列又称黄金分割数列，n越大，相邻两值的比越接近黄金分割0.618，非常有趣。百
Python实现布林带策略完整代码程序化交易助手量化软件 Python 程序化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
Python实现布林带策略完整代码布林带是个啥玩意儿？我见过太多新手一上来就问"布林带能不能赚钱"，这问题就跟问"菜刀能不能切菜"一样。布林带就是个工具，关键看你怎么用。简单来说，它就是在均线上下画两条通道线，股价大部分时间都在这个通道里晃悠。记得去年有个客户，拿着布林带当圣杯，结果亏得妈都不认识。后来我给他看了我的Python策略代码，这哥们才明白原来工具要配合仓位管理和止损。现在他账户已经翻倍
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱程序化交易助手量化软件 Python 程序化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
从亏损到盈利：用Python实现WVAD策略，量价结合更靠谱那个让我夜不能寐的亏损账户去年有个客户老张来找我，50万本金半年亏了15万。他红着眼睛问我："为什么我跟着大V买卖还是亏？"我看了他的交易记录就明白了——全是凭感觉操作，涨了追，跌了割，完全被市场情绪牵着鼻子走。这让我想起自己刚入行时，盯着分时图眼睛发酸的日子。直到有天看到营业部老总桌上那本《量化交易入门》，才恍然大悟：原来职业玩家都在用
python分支语句_python入门基础教程10 python的分支语句 weixin_39604280 python分支语句
if分支语句分支语句的作用是在某些条件控制下有选择的执行实现一定功能语句块。if分支语句则是当if后的条件满足时，if下的语句块被执行，语法格式如下所示：if:statements让我们看看代码吧。>>>sex='male'>>>ifsex=='male':print'Man!'#此处有两次回车键Man!>>>ifsex=='female':print'Woman'#此处有两次回车键>>>if_e
Python 分支语句，分支语句嵌套，三目运算龙技术 Python语法 python
1、分支语句单一条件判断if条件：条件成立时执行的代码#格式:'''if条件:条件成立时执行的代码'''age=int(input('请输入你的年龄:'))#上网ifage>=18:print('小帅哥快来玩啊')print('回家睡觉')对立条件判断if条件：条件成立时执行的代码else：条件不成立时执行的代码#if...else...'''if条件:条件成立时执行的代码else:条件不成立时执
十五天Python系统学习教程第十五天
Day15详细学习计划：Python综合项目实战与学习路径规划学习目标✅综合运用前14天知识完成完整项目开发✅掌握生产级项目架构设计与优化技巧✅制定后续学习计划与技能提升方案✅理解Python工程化开发最佳实践一、实战项目：企业级任务管理系统1.1项目需求核心功能：用户认证（JWT令牌）任务CRUD与状态流转（待办/进行中/已完成）任务分类与优先级管理数据统计可视化（任务完成率/耗时分析）邮件通知
Python分支语句注意事项乔代码嘚 python 开发语言 github
一、单分支语句：if语句1.语法:if：语句块2.注意事项:1）if语句首先判断的结果值，如果结果为True，则执行语句块里的语句序列。如果结果为False，语句块里的语句会被跳过；2）语句块是if条件满足后执行的一个或多个语句序列；3）语句块中语句通过与if所在行形成缩进表达包含关系。4）if判断语句还可以简写：iftag:print("True")当x为0、0.0、0j、None或者空的字符串
python函数
四、函数定义P.1函数定义把一段实现某个功能的完整代码，用一个函数封装，后期可以通过调用函数名，实现依次编写，多次调用的目的函数，可以等价于我们初高中学过的f(x)，f是运算法则，也就是代码函数中对应的代码执行块，每有一个x对应经过f运算之后得到一个值，如f(x)对应的是让x乘3加2，每有一个x进入f中便会得到一个值。高中对应的函数三要素是，定义域、运算法则、值域，而编程中的函数也有三要素，分别为
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
Python程序员如何制定学习计划？提高编写代码的能力
在工作和生活压力之下，如何提升自己的技能和能力？这是许多人都面临的问题。如果你也有这样的问题，那么首先要明确的是，要想提升自己的能力，必须要有一个清晰的计划和方向。这个计划可以是长期的，也可以是短期的，但必须要有一个大的方向性。接下来，我们来看看如何制定一个有效的计划。如果你不知道如何制定计划，其实很简单。你可以闭上眼睛，想一想自己哪些方面比较薄弱，比如多线程锁、Spring的一些核心技术源码、分
Python: 包
一、Python包基础概念1.1什么是Python包Python包(Package)是一种组织Python模块的方式，它使用目录结构来组织相关的模块。一个包本质上是一个包含__init__.py文件的目录，该文件可以是空的，也可以包含包的初始化代码。my_package/├──__init__.py├──module1.py└──module2.py1.2包与模块的区别模块(Module):单个.
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
python爬虫正则表达式使用说明 yuwinter Python python 爬虫正则表达式
Python爬虫和正则表达式是自动化网络数据提取中常用的两种技术。本文将详细介绍如何使用Python编写爬虫，结合正则表达式提取网页中的数据。一、基础知识点1.安装必要库爬虫通常需要使用库来处理HTTP请求和解析网页，常用库有：requests：用于发送HTTP请求，获取网页内容。re：Python自带的正则表达式库，用于模式匹配和提取数据。BeautifulSoup（可选）：如果你需要更高级的网
python：正则表达式符号初于青丝mc终于白发 python相关正则表达式 python pycharm
本次给大家带来的是python中的正则表达式符号的复习呀，还记得清楚嘛^^？匹配零次或一次前面的分组*匹配零次或多次前面的分组+匹配一次或多次前面的分组{n}匹配n次前面的分组{n，}匹配n次或更多次前面的分组{，m}匹配零次或m次前面的分组{n，m}匹配至少n次，至多m次前面的分组{n，m}？、*？、+？对前面的分组进行非贪心匹配^spam意味着字符串必须以spam开始spam$意味着字符串必须
Python：正则表达式慕婉0307 python基础知识点正则表达式
正则表达式是处理文本数据的强大工具，Python通过re模块提供了完整的正则表达式功能。本文将详细介绍Python正则表达式的使用方法，包括基础语法、高级技巧和re模块API的详细解析。一、正则表达式基础1.1什么是正则表达式正则表达式(RegularExpression)是一种用于匹配字符串中字符组合的模式，可以用于搜索、替换和验证文本数据。1.2Python中的re模块Python通过内置的r
PythonOCC-core项目中的Wayland显示支持探索颜如良
PythonOCC-core项目中的Wayland显示支持探索pythonocc-coretpaviot/pythonocc-core:是一个基于Python的OpenCASCADE(OCCT)几何内核库，提供了三维几何形状的创建、分析和渲染等功能。适合对3D建模、CAD、CAE以及Python有兴趣的开发者。项目地址:https://gitcode.com/gh_mirrors/py/pytho
【Python 算法零基础 4.排序 ⑦ 桶排序】 L_cl Python常见算法排序算法数据结构算法
草木不争高，争的是生生不息——25.5.26选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定最小值：假设
【Python 算法零基础 4.排序 ⑥ 快速排序】 L_cl Python常见算法排序算法算法
既有锦绣前程可奔赴，亦有往日岁月可回首——25.5.25选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定
Python练习--Day1 IT小白成长记 python
1、输入三个整数：判断这三个整数能否组成一个三角形？构成三角形的条件：任意两个数之和大于第三个数首先输入三个数：使用Python内置函数input()从标准输入读入一行文本，默认的标准输入为键盘输入input所读入内容的数据类型为字符串类型，需要使用int、float等转换成我们需要的数据类型使用分支结构判断a=int(input("请输入第一个整数："))b=int(input("请输入第二个整
基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
【Python】深入解析 Hydra 库宅男很神经 python 开发语言
第一章:混沌的终结：在配置泥潭中挣扎与Hydra的曙光在任何一个软件项目的生命周期中，无论是小型的个人脚本，还是大型的企业级分布式系统，我们都无法回避一个核心问题：如何管理配置。配置，是连接我们静态的代码逻辑与动态的运行环境之间的桥梁。它决定了我们的程序连接哪个数据库、使用哪个API密钥、以多大的批次处理数据、模型的学习率应该是多少、日志应该输出到哪里、以何种级别输出…可以说，配置定义了程序的行为
“解锁自动化新可能：使用Robocorp构建Python机器人“ sjufgwgfhoia 自动化 python 服务器
在这个快速变化的技术时代，自动化已经成为提高生产力和效率的关键驱动力。Robocorp提供了一种强大且灵活的平台，帮助开发者构建和运行Python机器人，以满足各类业务需求。引言在本文中，我们将深入探讨如何使用Robocorp构建和操作可以运行在任何地方且具备任意规模的Python工作器。本文旨在帮助你快速上手Robocorp平台的安装和设置，并分享如何在实践中应用它。主要内容1.Robocorp
Conda 虚拟环境与 venv、virtualenv、pipenv 的对比 drebander conda virtualenv python
1.引言在Python开发中，虚拟环境是解决不同项目依赖冲突的关键工具。Python提供了多种虚拟环境管理工具，包括Conda、venv、virtualenv和pipenv。每种工具都有其独特的特点和适用场景。本篇博客将简要对比这些工具，帮助你选择最适合的虚拟环境管理工具。2.Conda虚拟环境2.1Conda概述Conda是Anaconda提供的跨平台、跨语言的包和环境管理工具。除了管理Pyth
量化开发（系列第3篇）： C++在高性能量化交易中的核心应用与技术栈深度解析 Natsume1710 c++开发语言性能优化 python
本文为《量化开发》系列第3篇参考GitHub项目：Awesome-QuantDev-Learn前言在量化交易领域，Python以其开发效率高、生态系统丰富等优势，成为策略研究、数据分析及中低频交易的首选语言。在本系列前两篇文章中，我们详细探讨了Python在量化入门与策略回测中的实践。然而，当进入对延迟要求极为严苛的高频交易（High-FrequencyTrading,HFT）领域时，Python
量化策略进阶：事件驱动与另类数据挖掘实战
前面的章节，我们已经详细探讨了量化系统的基础架构：从数据的获取与管理（数据层），到策略的研发与验证（回测层），再到指令的高速执行（交易执行层），以及确保资金安全的防线（风控与监控运维层），我们共同构建了一套完整的量化交易体系。今天，我们将深入探讨量化策略的更高维度：事件驱动型策略和另类数据挖掘。这不仅仅是技术栈的扩展，更是对市场洞察力和信息处理能力的全面提升，旨在帮助您的策略在传统量价数据之外，捕
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

机器学习之金融风控

机器学习之金融风控

一、评分卡

1.1 评分卡原理

1.2 评分卡优缺点

1.3 评分卡模型搭建步骤

1.4 IV值和WOE值详解

1.5 评分卡转换

二、实现

2.1 数据导入与预处理

2.2 可视化分析

2.3 数据分箱-计算IV值和WOE值

2.4 baseline模型搭建与评估

2.5 评分卡转换

2.6 验证评分卡效果

2.7 总结

三、参考网址

你可能感兴趣的:(机器学习,机器学习,数据挖掘,python)