Sprite.Nym

【数据分析实战】金融评分卡建立

文章目录

一、导入数据
二、EDA
- 2.1 查看Revol特征
- 2.2 Age
- 2.3 DebtRatio
- 2.4 Numopen
- 2.5 Numestate
- 2.6 Numdepend
- 2.7 MonthlyIncome
- 2.8 Num30-59late Num60-89late Num90late
三、数据清洗
- 3.1 异常值
- 3.2 缺失值
- 3.3 进行过采样
四、特征预处理
- 4.1 连续值四舍五入
- 4.2 创建衍生变量
- 4.3 特征筛选
五、计算WOE值
- 5.1 特征分箱
- 5.2 WOE转化
- 5.3 逐步回归
六、建模和评估
七、评分卡建立

一、导入数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%config InlineBackend.figure_format = 'svg' 
import toad
from toad.plot import bin_plot, badrate_plot
import math
from imblearn.over_sampling import SMOTE, RandomOverSampler
import seaborn as sns
sns.set()

# 数据来源：kaggle项目"give me some credit"
credit_df0 = pd.read_csv('data/GiveMeSomeCredit/cs-training.csv')

# 查看数据集
credit_df0.head()

# 查看描述性统计信息
toad.detect(credit_df0)

列名含义：

SeriousDlqin2yrs：超过90天或更糟的逾期拖欠
RevolvingUtilizationOfUnsecuredLines：除了房贷车贷之外的信用卡账面金额（即贷款金额）/信用卡总额度
age：贷款人年龄
NumberOfTime30-59DaysPastDueNotWorse：35-59天逾期但不糟糕次数
DebtRatio：负债比率
MonthlyIncome：月收入
NumberOfOpenCreditLinesAndLoans：开放式信贷和贷款数量，开放式贷款（分期付款如汽车贷款或抵押贷款）和信贷（如信用卡）的数量
NumberOfTimes90DaysLate：借款者有90天或更高逾期的次数
NumberRealEstateLoansOrLines：不动产贷款或额度数量
NumberOfTime60-89DaysPastDueNotWorse：60-89天逾期但不糟糕次数
NumberOfDependents：不包括本人在内的家属数量

二、EDA

# 丢弃编号列
credit_df1 = credit_df0.drop(['Unnamed: 0'], axis=1)
# 修改列名
colnames={'SeriousDlqin2yrs':'Isdlq',
          'age':'Age',
          'RevolvingUtilizationOfUnsecuredLines':'Revol',
          'NumberOfTime30-59DaysPastDueNotWorse':'Num30-59late',
          'NumberOfOpenCreditLinesAndLoans':'Numopen',
          'NumberOfTimes90DaysLate':'Num90late',
          'NumberRealEstateLoansOrLines':'Numestate',
          'NumberOfTime60-89DaysPastDueNotWorse':'Num60-89late',
          'NumberOfDependents':'Numdepend'}
credit_df1.rename(columns=colnames, inplace=True)
credit_df1.head()

# 查看好坏比
sns.countplot(credit_df1['Isdlq'])
print(f"好坏比：{np.round(100 * credit_df1['Isdlq'].mean(), 2)}%")  
# 好坏比：6.68%

2.1 查看Revol特征

# 查看可用额度比的描述性统计信息
credit_df1['Revol'].describe([0.99, 0.999])
"""
count    150000.000000
mean          6.048438
std         249.755371
min           0.000000
50%           0.154181
99%           1.092956
99.9%      1571.006000
max       50708.000000
Name: Revol, dtype: float64
"""

明显分布异常

# 画出Revol小于1的分布图
sns.distplot(credit_df1[credit_df1['Revol']<1]['Revol'], bins=10)

# 定义一个分箱并统计箱内坏客户率的函数
def show_rate_by_box(df, target_name, feature_name, bins):
    temp = pd.concat([df[target_name], pd.cut(df[feature_name], bins=bins, right=False)], axis=1)
    return pd.pivot_table(temp, index=[feature_name], values=[target_name], aggfunc=['mean', 'count'])

按理说Revol不应该大于1，所以我们重点查看大于1的数据违约率如何

# 初步分箱并查看各区间段的违约率分布，给后续分箱提供参考
revol_bins=[0,0.5,1,1.5,2,5,10,20,30,40,50,100,1000,5000,math.inf]
temp = show_rate_by_box(credit_df1, 'Isdlq', 'Revol', bins=revol_bins)
show_rate_by_box(credit_df1, 'Isdlq', 'Revol', bins=revol_bins)

# 画成图方便观看
plt.figure(figsize=(15, 5))
sns.barplot(x=temp.index, y=temp[( 'mean', 'Isdlq')])

结论：1到20坏客户比率明显上升，20以上又降下来，将异常值阈值确定为20。高于20后续统一删除。

2.2 Age

# 查看年龄的描述性统计信息
credit_df1['Age'].describe([0.01])
"""
count    150000.000000
mean         52.295207
std          14.771866
min           0.000000
1%           24.000000
50%          52.000000
max         109.000000
Name: Age, dtype: float64
"""

年龄小于18岁不符合业务逻辑，后续准备统一排除

# 查看要删除的有几人
len(credit_df1[credit_df1['Age']<18])
# 1

# 画出分布图
sns.distplot(credit_df1['Age'])

2.3 DebtRatio

# 查看负债率的描述性统计信息
credit_df1['DebtRatio'].describe([0.01, 0.99, 0.999])
"""
count    150000.000000
mean        353.005076
std        2037.818523
min           0.000000
1%            0.000000
50%           0.366508
99%        4979.040000
99.9%     10613.074000
max      329664.000000
Name: DebtRatio, dtype: float64
"""

# 画图查看分布
sns.distplot(credit_df1[credit_df1['DebtRatio']<10000]['DebtRatio'])

# 初步分箱并查看各区间段的违约率分布，给后续分箱提供参考
debtratio_bins=[0,1,2,5,10,100,1000,2000,3000,4000,5000,10000,math.inf]
show_rate_by_box(credit_df1, 'Isdlq', 'DebtRatio', bins=debtratio_bins)

1到2区间违约率较高，其他区间没什么特别。

2.4 Numopen

# 查看开放式信贷和贷款数量的描述性统计信息
credit_df1['Numopen'].describe([0.99])
"""
count    150000.000000
mean          8.452760
std           5.145951
min           0.000000
50%           8.000000
99%          24.000000
max          58.000000
Name: Numopen, dtype: float64
"""

# 查看点分布
plt.figure(figsize=(15, 6))
sns.countplot(credit_df1['Numopen'])

拖尾很长

2.5 Numestate

# 查看房产和信用卡额度的数量
credit_df1['Numestate'].describe([0.99, 0.999])
"""
count    150000.000000
mean          1.018240
std           1.129771
min           0.000000
50%           1.000000
99%           4.000000
99.9%         9.000000
max          54.000000
Name: Numestate, dtype: float64
"""

# 查看数据点分布
sns.countplot(credit_df1['Numestate'])

# 箱线图查看数据分布
sns.boxplot(credit_df1['Numestate'])

2.6 Numdepend

# 查看家属数量的描述性统计信息
credit_df1['Numdepend'].describe([0.99, 0.999])
"""
count    146076.000000
mean          0.757222
std           1.115086
min           0.000000
50%           0.000000
99%           4.000000
99.9%         6.000000
max          20.000000
Name: Numdepend, dtype: float64
"""

# 画图查看分布
sns.countplot(credit_df1['Numdepend'])

# 查看缺失值
credit_df1[credit_df1['Numdepend'].isnull()]

发现家属人数缺失的样本，月收入同样缺失

# 确认是否这3924个样本月收入全部缺失
credit_df1[credit_df1['Numdepend'].isnull()]['MonthlyIncome'].isnull().sum()
# 3924

决定使用月收入缺失，但家属人数未缺失的样本的众数来填充家属人数的缺失值

# 查看众数
credit_df1[(credit_df1['MonthlyIncome'].isnull())&(credit_df1['Numdepend'].notnull())]['Numdepend'].mode()
# 0

2.7 MonthlyIncome

# 查看描述性统计信息
credit_df1['MonthlyIncome'].describe([0.99, 0.999])
"""
count    1.202690e+05
mean     6.670221e+03
std      1.438467e+04
min      0.000000e+00
50%      5.400000e+03
99%      2.500000e+04
99.9%    7.839575e+04
max      3.008750e+06
Name: MonthlyIncome, dtype: float64
"""

# 画图查看分布
sns.kdeplot(credit_df1['MonthlyIncome'])

# 继续用箱线图查看
sns.boxplot(credit_df1['MonthlyIncome'])

缺失值一开始用detect查看时缺失值是19.8%，后期用随机森林填补。

2.8 Num30-59late Num60-89late Num90late

# 查看数据点图
col_list = ['Num30-59late', 'Num60-89late', 'Num90late']
plt.figure(figsize=(15, 4))
for i in range(3):
    plt.subplot(1, 3, i+1)
    sns.countplot(credit_df1[col_list[i]])

# 查看箱线图
col_list = ['Num30-59late', 'Num60-89late', 'Num90late']
plt.figure(figsize=(12, 4))
for i in range(3):
    plt.subplot(1, 3, i+1)
    sns.boxplot(credit_df1[col_list[i]])

可以看出96、98明显是异常值，后期删除。

三、数据清洗

3.1 异常值

# Revol
# 删除之前提到的大于20的数据
credit_df1 = credit_df1[credit_df1['Revol']<=20]
# 查看描述性统计信息，现在最高值为18
credit_df1['Revol'].describe()
"""
count    149766.000000
mean          0.323388
std           0.378382
min           0.000000
25%           0.029788
50%           0.153560
75%           0.555997
max          18.000000
Name: Revol, dtype: float64
"""

# Age
# 删除18岁以下数据
credit_df1 = credit_df1[credit_df1['Age']>=18]

# Num30-59late Num60-89late Num90late
# 去除96、98两种异常值
col_list = ['Num30-59late', 'Num60-89late', 'Num90late']
for col in col_list:
    credit_df1 = credit_df1[credit_df1[col]<90]
    
# Numestate
# 删除50以上数据
credit_df1 = credit_df1[credit_df1['Numestate']<50]

3.2 缺失值

# Numdepend
credit_df1['Numdepend'].fillna(0, inplace=True)

# MonthlyIncome缺失值填充
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

# 先得到训练集特征、标签和测试集
features_df = credit_df1[credit_df1['MonthlyIncome'].notnull()].drop(columns=['Isdlq', 'MonthlyIncome'])
target = credit_df1[credit_df1['MonthlyIncome'].notnull()]['MonthlyIncome']
test_df = credit_df1[credit_df1['MonthlyIncome'].isnull()].drop(columns=['Isdlq', 'MonthlyIncome'])

# 先看看效果
X_train, X_test, y_train, y_test = train_test_split(features_df, target, test_size=0.3)
RandomForestRegressor(max_depth=10, n_estimators=100).fit(X_train, y_train).score(X_test, y_test)

temp = pd.Series(data=RandomForestRegressor(max_depth=10, n_estimators=100).fit(features_df, target).predict(test_df), index=test_df.index, name='MonthlyIncome')
credit_df1['MonthlyIncome'] = pd.concat([target, temp])
credit_df1.describe()

这里我的MonthlyIncome用随机森林做回归效果很差，不仅R²值非常不稳定，甚至会出现负数，所以直接不处理了，但是为了便于后续的四舍五入，先把空值填充为-10。

credit_df1['MonthlyIncome'].fillna(-10, inplace=True)

3.3 进行过采样

# 写一个过采样函数
def over_sampled(df, target, model):
    X = df.drop(columns=[target])
    y = df[target]

    X_oversampled, y_oversampled = model.fit_resample(X,y)
    return pd.concat([X_oversampled, y_oversampled], axis=1)

# 使用RandomOverSampler过采样
credit_df1 = over_sampled(credit_df1, 'Isdlq', RandomOverSampler())

这里不过采样、SMOTE过采样和RandomOverSampler过采样我都试了，最后效果差别不大。

四、特征预处理

4.1 连续值四舍五入

某些连续值直接交给toad分箱运行时间太久，所以先进行四舍五入处理。
（1）Revol

# 再次调用之前的透视表函数查看每个箱内坏客户率
revol_bins=[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1,1.5,2,5,10,20]
temp = show_rate_by_box(credit_df1, 'Isdlq', 'Revol', bins=revol_bins)
show_rate_by_box(credit_df1, 'Isdlq', 'Revol', bins=revol_bins)

Revol在1以下坏客户率有明显单调性，Revol在1以上坏客户率普遍挺高的，没有太大区分度，因此小于1的统一保留1位小数，大于1的统一保留0位小数，后续再交给toad分箱

credit_df1['Revol'] = credit_df1['Revol'].map(lambda x: np.round(x, 1) if x < 1 else np.round(x, 0))

（2）DebtRatio

debtratio_bins=[0,0.1,0.2,0.5,0.7,1,2,5,10,100,1000,2000,3000,4000,5000,10000,math.inf]
show_rate_by_box(credit_df1, 'Isdlq', 'DebtRatio', bins=debtratio_bins)

跨度太大，不是很好处理，决定同样进行四舍五入，但规则更复杂

credit_df1['DebtRatio'] = credit_df1['DebtRatio'].map(
    lambda x: np.round(x, 1) if x < 1 else np.round(x, 1-(len(str(int(np.round(x, 0))))))
)

（3）MonthlyIncome

credit_df1['MonthlyIncome'] = credit_df1['MonthlyIncome'].map(
    lambda x: np.round(x, -1) if x < 100 else 
        np.round(x, -2) if x < 1000 else np.round(x, 1-(len(str(int(np.round(x, 0))))))
)

（4）Numdepend

之前用SMOTE时出现了浮点数，处理一下

credit_df1['Numdepend'] = credit_df1['Numdepend'].map(lambda x: np.round(x, 0))

4.2 创建衍生变量

credit_df1['AllNumlate'] = credit_df1['Num30-59late'] + credit_df1['Num60-89late'] + credit_df1['Num90late']
credit_df1['Monthlycost'] = (credit_df1['MonthlyIncome'] * credit_df1['DebtRatio']).map(lambda x: -10 if x < 0 else x)
credit_df1.head()

4.3 特征筛选

# 查看iv值
toad.quality(credit_df1,'Isdlq', iv_only=True)

# 特征选择，iv值低于0.03丢弃，相关性高于0.8的两个特征丢弃低iv值特征
credit_df2, dropped = toad.selection.select(credit_df1, target='Isdlq', iv=0.03, corr=0.8, return_drop=True)

# 查看被丢弃特征
dropped
"""
{'empty': array([], dtype=float64),
 'iv': array([], dtype=object),
 'corr': array([], dtype=object)}
"""

没有被筛掉的，说明都还可以吧，特征数也不是很多，就都留下了。

五、计算WOE值

5.1 特征分箱

def show_toad_box(df, col_list, target, rules):
    combiner = toad.transform.Combiner()
    combiner.fit(df[col_list+[target]], y=target, method='chi', min_samples=0.05)
    combiner.set_rules(rules)
    
    return combiner

col_list = ['Revol', 'Age', 'DebtRatio', 'MonthlyIncome', 'Numopen', 'Num30-59late',
       'Num90late', 'Numestate', 'Num60-89late', 'Numdepend', 'AllNumlate',
       'Monthlycost'] 
rules = {
    'MonthlyIncome':[0,2000,4000,5000,7000,10000],
    'Monthlycost':[0,100,1000,3500]
#     'Numopen':[2,4],
#     'Num60-89late':[1],
#     'Revol':[0.2,0.4,0.6,0.8,1],
#     'DebtRatio':[0.6,0.8,3],
}
combiner = show_toad_box(credit_df2, col_list, 'Isdlq', rules=rules)
credit_df3 = combiner.transform(credit_df2, labels=True)
# 出图观察
for col in col_list:
    bin_plot(credit_df3, x=col, target='Isdlq')

# 去除前面的编号
temp1 = credit_df3['Isdlq']
temp2 = credit_df3.drop(columns=['Isdlq'])
credit_df3 = pd.concat([temp1, temp2], axis=1)

credit_df3.iloc[:, 1:] = credit_df3.iloc[:, 1:].applymap(lambda x: x[3:])

5.2 WOE转化

# 实例化对象并转化
transfer = toad.transform.WOETransformer()
woe = transfer.fit_transform(credit_df3, credit_df3['Isdlq'], exclude=['Isdlq'])
# 查看WOE值
woe.head()

5.3 逐步回归

# 使用逐步回归筛选掉一些特征
credit_df4, dropped = toad.selection.stepwise(woe, target='Isdlq', estimator='ols', direction='both', criterion='aic', return_drop=True)
# 查看被丢弃的特征
dropped
# []

还是没有被筛选掉的特征。

六、建模和评估

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import roc_curve, roc_auc_score

# 网格搜索
params = {
    'penalty':['l1', 'l2'],
    'C':[0.1, 0.2, 0.3, 0.4, 0.5],
    'max_iter':[50, 70, 100, 150, 200],
    'solver':['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga']
}

gscv = GridSearchCV(estimator=LogisticRegression(), param_grid=params)
gscv.fit(credit_df4.drop(columns=['Isdlq']), credit_df4['Isdlq'])
# 得到最优参数
gscv.best_params_

# 划分训练集和测试集
X = credit_df4.drop(columns=['Isdlq'])
y = credit_df4['Isdlq']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# 使用刚才得到的最优参数重新建模训练
lr = LogisticRegression(
    solver='liblinear',
    penalty='l1',
    C=0.1,
    max_iter=100
)
lr.fit(X_train, y_train)
lr_proba = lr.predict_proba(X_test)[:,1]

# 评估
fpr, tpr, threshold = roc_curve(y_test, lr_proba)
auc = roc_auc_score(y_test, lr_proba)
plt.plot(fpr, tpr, label=f'AUC = {auc:.2f}')
plt.plot([0,1],[0,1],'--')
plt.axis([0,1,0,1])
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.legend()

AUC值0.86，还可以。

# 查看模型报告
bucket = toad.metrics.KS_bucket(lr_proba, y_test, bucket=10, method='quantile')
bucket.T

# 计算KS值并绘制曲线
threshold1 = pd.Series(threshold).sort_values(ascending=True)
tpr1 = pd.Series(tpr).sort_values(ascending=True)
fpr1 = pd.Series(fpr).sort_values(ascending=True)
ks = tpr1-fpr1
print(f'KS值：{ks.max()}')

plt.plot(threshold1, tpr1, label='TPR')
plt.plot(threshold1, fpr1, label='FPR')
plt.plot(threshold1, ks, label='KS')
plt.scatter(threshold1[ks[ks==ks.max()].index], ks.max(), label='max(KS)', s=40)
plt.xlabel('Threshold')
plt.ylabel('Cum-Prop')
plt.axis([0,1,0,1])
plt.legend()
plt.show()

七、评分卡建立

# 实例化card对象
card = toad.ScoreCard(
    # 使用之前的combiner
    combiner = combiner,
    # 使用之前的transfomer
    transer = transfer,
    # 使用之前的逻辑斯蒂回归参数
    solver='liblinear',
    penalty='l1',
    C=0.1,
    max_iter=100,
    # 基准分
    base_score=800,
    # 基准好坏客户比
    base_odds=20,
    # 倍率（好坏客户比每翻rate倍，扣pdo分）
    rate=2,
    # 扣分
    pdo=50
)

# 训练
card.fit(credit_df4.drop(columns=['Isdlq']), credit_df4['Isdlq'])
# 查看评分卡
pd.set_option('display.max_rows', None)
card.export(to_frame=True)

# 查看分数分布
pd.Series(card.predict(credit_df4)).describe()
"""
count    279258.000000
mean        585.138884
std         106.412042
min         320.131615
25%         529.078751
50%         619.335745
75%         678.356577
max         681.166471
dtype: float64
"""

你可能感兴趣的:(机器学习,数据分析,金融,python,逻辑斯蒂回归,评分卡)

selenium 各浏览器，各驱动，pycharm源地址一个测试开发人员的纪录 selenium python 测试工具
python官网下载地址：https://www.python.org/downloads/windows/安装seleminum之前必须先安装python浏览器和驱动下载地址：Chrome各个版本下载地址GoogleChrome64bitWindows版_chrome浏览器,chrome插件,谷歌浏览器下载,谈笑有鸿儒Chromedriver各个版本下载地址
蓝桥杯C++ Python组——省奖项小技巧1 m0_dawn 蓝桥杯python C++组蓝桥杯 c++职场和发展 python 算法
2025年4月蓝桥杯比赛就要开始啦！还有三个多月的准备时间，大家一定要结合自身基础和个人学习安排合理规划好备赛时间呀考试内容：c/c++组python组学习路线第一阶段：把编程语言的课程过一遍，把课程上学习到的习题自己尝试着做一篇第二阶段：尽可能的过一遍算法，为什么是尽可能呢，算法还是有点难度的，想要短时间的掌握全部东西可能有点吃力ÿ
2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集 m0_60707708 程序员 python 设计模式开发语言
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
【机器学习实战入门项目】基于机器学习的鸢尾花分类项目精通代码大仙数据挖掘 python 深度学习机器学习分类人工智能大数据数据挖掘算法 python
基于机器学习的鸢尾花分类项目介绍：本项目利用机器学习模型对鸢尾花进行分类。鸢尾花数据集是一个著名的机器学习数据集，包含三种类别的花朵：Setosa、Versicolor和Virginica，每种类别由四个特征描述：萼片长度、萼片宽度、花瓣长度和花瓣宽度。什么是机器学习？机器学习是关于从数据中学习预测或提取知识的过程。它是人工智能的一个子领域。机器学习算法基于样本数据（即训练数据）构建模型，并根据训
Python 虚拟环境配置后端python
总结一些使用Python开发过程过程中的环境配置，常用操作，常见错误处理等等。虚拟环境搭建(virtualenv)Python开发过程中，经常需要安装各种依赖库，Python的第三方包成千上万，在一个Python环境下开发时间越久、安装依赖越多，就越容易出现依赖包冲突的问题。为了解决这个问题，开发者们开发出了virtualenv，可以搭建虚拟且独立的Python环境。virtualenv为每个项目
web3.0元宇宙区块链概念原理详细飞机号Mrsfu223 web3 区块链去中心化 python
数字科技的飞速发展，Web3.0和元宇宙概念逐渐走入公众视野，区块链技术是支撑这一新兴领域发展的核心。这里将深入探讨Web3.0元宇宙中区块链的基本原理及其应用，以揭示其背后的技术逻辑和未来潜力。区块链是一种分布式数据库技术，其核心特性是去中心化、不可篡改和全透明。在Web3.0的架构下，区块链不仅仅承载着交易信息，更支撑着身份认证、数据存储和智能合约等多方面的应用。在元宇宙中区块链技术的应用极为
✨探究✨进程最大可以打开多少个文件 linuxlinux运维运维
大家好，我是半夏之沫一名金融科技领域的JAVA系统研发我希望将自己工作和学习中的经验以最朴实，最严谨的方式分享给大家，共同进步写作不易，期待大家的关注和点赞关注微信公众号【技术探界】前言原本是想搞清楚一台服务器最多能建立多少个连接，在学习的过程中，发现能建立多少个连接受多个因素影响，其中一个因素就是进程最大可打开文件数，我在自行查阅资料加请教专门搞容器的同事后，感觉这个知识点有点意思，故撰写此文以
Text2SQL的三种实现方法 AI科技分享算法线性回归回归深度学习 rnn
传统BI工具通常分为数据接入层、分析工具层和基于该工具平台的各种行业应用层面，大模型可以在这些环节发挥作用。在数据处理层面，大模型可以帮助传统的ETL过程简化难度，提高实时交互效率。在数据分析层面，大模型可以替代拖拽交互方式，让业务用户用更简单、更高效的方式以自然语言形式与底层数据交互，构建需要的报表和看板。在行业应用层面，大模型可以真正发挥对行业知识的理解能力，与具体数据结合，形成具针对客户、特
【TVM 教程】为 x86 CPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：YaoWang,EddieYan本文介绍如何为x86CPU调优卷积神经网络。注意，本教程不会在Windows或最新版本的macOS上运行。如需运行，请将本教程的主体放在ifname=="__main__":代码块中。importosi
text2sql框架-DB-GPT使用总结 adrninistrat0r text2sql ai
1.说明DB-GPT是一个开源的AI原生数据应用开发框架官方地址是：https://www.yuque.com/eosphoros/dbgpt-docs/2.项目下载使用源码安装DB-GPT，DB-GPT的Python项目下载地址为https://github.com/eosphoros-ai/DB-GPT3.安装huggingface客户端DB-GPT需要使用huggingface中的模型，需要
用Python在Excel工作表中创建数据透视表
在数据处理和分析工作中，Excel作为一个广泛使用的工具，提供了强大的功能来管理和解析数据。当面对大量复杂的数据集时，为了更高效地总结、分析和展示数据，创建数据透视表成为一种不可或缺的方法。通过使用Python这样的编程语言与Excel工作表结合，我们能够自动化数据透视表的生成过程，不仅节省了时间，还能确保每次操作的一致性和准确性。本文将介绍如何使用Python在Excel工作表中创建数据透视表。
AI Agent：一场智能革命的开始 TechubNews 人工智能
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
关于 python 的 http 客户端的默认请求头测试 —— requests、httpx、curl_cffi python
开始测试首先测试requests测试代码importrequests#发起HTTPGET请求url="http://xxx.xxx.xxx.xxx:8086"response=requests.get(url)#打印结果print("ResponseContent(bytes):",response.content)print("ResponseText(str):",response.text)
Python自动化测试之Selenium各浏览器驱动下载网址 Shadow℘Coder Python学习 selenium 测试工具
在自动化测试领域，Selenium无疑是一个不可或缺的工具。它允许开发者编写脚本来模拟用户在浏览器中的操作，从而进行自动化测试。然而，为了使用Selenium控制不同的浏览器，我们需要安装相应的浏览器驱动（WebDriver）。（1）Chrome浏览器驱动（chromedriver）：ChromeforTestingavailability(googlechromelabs.github.io)h
日期和时间数据类型的深入探讨：理论与实践
title:日期和时间数据类型的深入探讨：理论与实践date:2025/1/3updated:2025/1/3author:cmdragonexcerpt:日期和时间数据类型在数据库管理系统中扮演着重要角色，尤其是在数据分析、时间序列数据和事件追踪等领域。这些数据类型不仅可以准确表示时间信息，还能在信息检索、数据存储和计算功能上发挥重要作用。categories:前端开发tags:日期和时间数据库
从研究生到管培生，看98年校招生如何让更多企业用上通义灵码云原生
黄天翔是2024年7月入职阿里云的应届校招生，他说，在研究生阶段便已接触并使用通义灵码，通义灵码速度快、学习成本低，几乎无门槛，且具备强大的跨文件理解能力，能生成满足需求的代码。通过实际操作，他利用通义灵码成功构建了一个基于Python和Flask框架的简易识图网站，他希望通过自己的努力，帮助更多企业和开发者提高工作效率。黄天翔提到，第一次接触到通义灵码是在研究生阶段，当时在工程项目中代码里有使用
Python操作字节流中的Excel文档
Python能够轻松地从字节流中加载文件，在不依赖于外部存储的情况下直接对其进行读取、修改等复杂操作，并最终将更改后的文档保存回字节串中。这种能力不仅极大地提高了数据处理的灵活性，还确保了数据的安全性和完整性，尤其是在网络传输或内存中处理敏感信息时。本文将介绍如何使用Python创建和保存Excel文件到字节流，以及读取和修改字节流中的Excel文件。Python创建Excel文件并保存到字节流P
【华为OD-E卷 - IPv4地址转换成整数 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-IPv4地址转换成整数100分（python、java、c++、js、c）】题目存在一种虚拟IPv4地址，由4小节组成，每节的范围为0~255，以#号间隔，虚拟IPv4地址可以转换为一个32位的整数，例如：128#0#255#255，转换为32位整数的结果为2147549183（0x8000FFFF）1#0#0#0，转换为32位整数的结果为16777216（0x01000000）
matplotlib将画的图像存于内存飞行codes python的荒野 matplotlib
buf=io.BytesIO()plt.savefig(buf,format='png')buf.seek(0)plt.close()io.StringIO()和io.BytesIO()是Python标准库io模块中的两个类，分别用于创建内存中的文本流和二进制流。它们常常用于单元测试、文件操作的模拟等场景。基础概念io.StringIO():创建一个内存中的文本流，可以像文件一样进行读写操作，但数
如何用SOP流程和看板工具优化年终总结？2024指南年度总结
为什么有些人的年终总结做得又快又好？12月，又到了团队每年做任务复盘和年度工作总结的时候，如何在繁杂的工作中快速梳理出清晰的脉络，既高效又全面地完成年度总结？有一种既系统又直观的管理方法——看板管理。今天我们一起聊聊如何用看板管理帮助团队做一份有亮点、有逻辑、有冲突、有方案的年终总结。先聊聊年度工作总结SOP这可能是个让人觉得无聊的话题——毕竟，大家几乎无时无刻都在写工作总结，还有什么可聊的呢？但
国产替代 | 星环科技Sophon替代SAS，助力大型国有银行智能化营销数据挖掘
分布式架构的｜国产智能分析工具在银行交易中，20%的头部优质客户会给银行贡献80%的利润，而赢得一个新客户的成本是保留一个老客户的5至6倍。某大型国有银行在面临此类数据挖掘的业务时，使用的是SAS产品。由于SAS是集中式的，对单台服务器要求太高，算力无法支撑需求，且无法支持可视化的机器学习，对于业务人员来说使用门槛过高。在经过产品选型后，决定采用星环科技的智能分析工具Sophon替换原有SAS，用
.NET用C#导入Excel到数据库
将Excel文件中的数据导入到数据库中不仅能够提升数据处理的效率和准确性，还能极大地促进数据分析和决策制定的过程。尤其在企业级应用中，Excel作为数据输入和初步整理的工具非常普遍，但其功能对于复杂查询、大规模数据管理和跨部门的数据共享来说有所局限。通过使用C#在.NET平台上实现这一过程，可以充分利用其强大的数据操作能力和丰富的库支持，确保数据从Excel无缝迁移到诸如SQLite等关系型数据库
专题12 常见的设计模式—python实现_python设计模式升级版 2401_84562377 程序员设计模式 python 开发语言
def\_\_init\_\_(self,name):print("HelloMiss."+name)classFactory:defgetPerson(self,name,gender):ifgender==‘M’:returnMale(name)ifgender=='F':returnFemale(name)ifname==‘__main__’:factory=Factory()person=
Python Selenium设计模式-POM_python selenium pom 2401_84140442 程序员 python selenium 设计模式
driver=webdriver.Firefox()driver.implicitly_wait(30)启动浏览器，访问百度driver.get(“http://www.baidu.com”)定位百度搜索框，并输入seleniumdriver.find_element_by_id(“kw”).send_keys(“selenium”)定位百度一下按钮并单击进行搜索driver.find_eleme
【Python】条件判断 while(77) python 开发语言
目录1、单分支2、双分支3、多分支4、match1、单分支weather='下雨'ifweather=='下雨':print('记得带伞')在一个if下，下级代码不是一定要缩进4个空格，但是所有下级代码缩进的格数相同2、双分支weather='下雨'ifweather=='下雨':print('记得带伞')else:print('不用带伞')if和else中的缩进可以不一样3、多分支score=9
【Python 】循环 while(77) python 开发语言
目录1、while循环2、for循环3、break4、continue5、pass1、while循环i=0whilei<5:print("hellopython")i+=12、for循环foriinrange(5):print("hellopython")range是python中的一个库函数range(start,stop,step)start、stop分别表示起始和终止位置，是左闭右开的，st
精通Python (10) 码商行者人工智能 python 开发语言
一，基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），从这个名字就可以看出它是基于Tk的，Tk是一个工具包，最初是为Tcl设计的，后来被移植到很多其他的脚本语言中，它提供了跨平台的GUI控件。当然Tk并不是最新和最好的选
交叉熵损失与二元交叉熵损失：区别、联系及实现细节专业发呆业余科研深度模型底层原理人工智能深度学习 python
在机器学习和深度学习中，交叉熵损失（Cross-EntropyLoss）和二元交叉熵损失（BinaryCross-EntropyLoss）是两种常用的损失函数，它们在分类任务中发挥着重要作用。本文将详细介绍这两种损失函数的区别和联系，并通过具体的代码示例来说明它们的实现细节。交叉熵损失（Cross-EntropyLoss）常用于多类分类问题，即每个样本只能属于一个类别，但总类别数量较多。例如，在手
KDD 2024 | 美团技术团队精选论文解读 & 论文分享会预告美团机器学习深度学习
ACMSIGKDD（KnowledgeDiscoveryandDataMining，简称KDD）是数据挖掘领域的国际顶级会议。KDDCup比赛是由SIGKDD主办的数据挖掘研究领域的国际顶级赛事，从1997年开始，每年举办一次，是目前数据挖掘领域最有影响力的赛事。本文精选了美团技术团队被KDD2024收录的5篇长文进行解读，覆盖了用户意图感知、机器学习&运筹优化、在线控制实验、联合广告模型、实时调
解决：pip is configured with locations that require TLS/SSL,the ssl module in Python is not available a_flyying_pig pip ssl python
Windows版出错提示表示当前python缺少SSL模块，pip默认安装源为https://pypi.org/simple/，连接是需要SSL库，写配置文件修改为阿里安装源。pipconfig--globalsetglobal.index-urlhttp://mirrors.aliyun.com/pypi/simple/观察到配置被写入以下文件：记事本打开pip.ini文件，在末行添加[inst
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found