D_grey

python在金融领域的应用-信用卡评分模型

一、背景

信用卡评分是以大量数据的统计结果为基础，根据客户提供的资料和历史数据对客户的信用进行评估，评分卡模型一般分为三类：A卡：申请评分卡，B卡：行为评分卡，C卡：催收评分卡。

本文主要涉及的为申请评分卡，申请评分卡的目标主要是区分好客户和坏客户，评分卡的结果为高分数的申请人意味着比低分数的申请人的风险低。

二、项目流程

数据源分析

数据源自于kaggle Give Me Some Credit 15万条样本数据，10个影响客户好坏的特征值，特征属性主要包括：

==基本特征==：借款人的年龄

==偿还债务能力==：借款人收入，负债率等

==信用往来==：两年内35-59天逾期次数，60-89天逾期次数等；

==财产状况==：包括了开放式信贷和贷款数量、不动产贷款或额度数量；

==其他因素==：借贷人的家属数量；

三、数据预处理

1.首先导入数据，对数据集相关情况进行了解，是否存在缺失值；

datasets = pd.read_csv('./cs_training.csv')
del datasets['Unnamed: 0']
#查看缺失值
print(datasets.info()) 
#查看数据集的详细信息
print(datasets.describe())

其中MonthlyIncome和NumberOfDependents存在缺失值

2.对异常值进行分析，发现年龄和逾期还款次数存在异常值过滤掉为0 的数据，删除逾期还款次数异常值；

#对年纪进行分析发现其中有为0的异常值，将其过滤
fig,ax = plt.subplots(figsize=(5,4)) 
ax.boxplot(datasets['age'])
plt.xlabel('Age')
plt.ylabel('Values')
plt.show()
datasets = datasets[datasets['age']>0]

逾期还款次数

columns_worse = ['NumberOfTime30-59DaysPastDueNotWorse','NumberOfTimes90DaysLate','NumberOfTime60-89DaysPastDueNotWorse']
datasets.boxplot(column=columns_worse)
plt.xticks(rotation=90)
plt.show()

#剔除异常值后数值分布
datasets = datasets.drop(datasets[datasets['NumberOfTime30-59DaysPastDueNotWorse']>80].index)
columns_worse = ['NumberOfTime30-59DaysPastDueNotWorse','NumberOfTimes90DaysLate','NumberOfTime60-89DaysPastDueNotWorse']
datasets.boxplot(column=columns_worse)
plt.xticks(rotation=90)
plt.show()

3.对缺失值进行处理，对于NumberOfDependents数据，确实值相对较少，直接删除不影响整体数据，对于MonthlyIncome缺失值较多，采用随机森林预测的方法对缺失值进行填补；

#删除NumberOfDependents为空的数据
datasets = datasets.drop(datasets[datasets['NumberOfDependents'].isnull()].index)

#对MonthlyIncome缺失值预测
#数据集 剔除因变量
df = datasets.iloc[:,[1,2,3,4,5,6,7,8,9,10]]
#需要进行预测的数据集
uknown = df[df['MonthlyIncome'].isnull()].iloc[:,[0,1,2,3,5,6,7,8,9]]
#训练集数据
known = df[~df['MonthlyIncome'].isnull()]
#自变量数据
known_X = known.iloc[:,[0,1,2,3,5,6,7,8,9]]
#因变量数据
known_Y = known['MonthlyIncome']
#采用随机森林算法，首先是进行参数的选取
def params_fit(train_X,train_Y):
    s_list = []
    i_lists = []
    for i in range(100,200,10):
        rf = RandomForestRegressor(n_estimators=i,random_state=42)
        scores = cross_val_score(rf,train_X,train_Y,cv=3).mean()
        s_list.append(scores)
        i_lists.append(i)
    max_scores = max(s_list)
    max_es = s_list.index(max_scores)*10+100
    print(s_list)
    print('====分割线=====')
    # 获取最大深度
    paras = {'max_depth':np.arange(3,10,1)}
    rfs = RandomForestRegressor(n_estimators=max_es,random_state=42)
    gs = GridSearchCV(rfs,param_grid=paras,cv=3)
    fun = gs.fit(train_X,train_Y)
    sc = fun.best_score_
    para = fun.best_params_
    result = rf.predict(test_X)
    r2 = r2_score(test_Y,result)                          
    print(para)
    return max_es,para['max_depth']
  paras =  params_fit(known_X,known_Y)
  #获取评估器个数和最大深度值
  print(paras)

#对缺失值填补
def set_missing(known_X,known_Y,uknown,datasets):
    rf = RandomForestRegressor(n_estimators=150,max_depth=3,random_state=42)
    rf.fit(known_X,known_Y)
    result = rf.predict(uknown)
    datasets.loc[datasets['MonthlyIncome'].isnull(),'MonthlyIncome'] = result
    return datasets
  #缺失值填补后的数据集  
  dataset = set_missing(known_X,known_Y,uknown,datasets)
print(dataset.shape)
print(dataset.info())

四、数据探索性分析

查看年龄的分布

sns.distplot(dataset['age'])
plt.show()

统计好/坏客户分布

values = dataset['SeriousDlqin2yrs'].value_counts()
index = list(values.index)
value = list(values)
fig,ax = plt.subplots()
fig.set_size_inches(7,5)
sns.countplot(dataset['SeriousDlqin2yrs'])
for a,b in zip(index,value):
    plt.text(a,b+0.01,b,ha='center',va='bottom')
plt.show()

根据正常的逻辑0为好客户 1为坏客户将其转换成常规的表达方式 0为坏客户 1 为好客户，

在数据中0为好客户，1为坏客户，将其转换成常规的表示方法，1为好客户0为坏客户。

#根据正常的逻辑0为好客户 1为坏客户 将其转换成常规的表达方式 0为坏客户 1 为好客户
datasets['SeriousDlqin2yrs'] = 1- datasets['SeriousDlqin2yrs']
print(datasets['SeriousDlqin2yrs'].value_counts())

五、变量选取

特征变量的选择即如何选择合适的变量，对于数据分析和数据建模非常重要，选择合适的变量对模型性能的提升扮演着至关重要的角色，在本文中是采用的是将模型变量进行WOE编码方式离散化，根据IV值进行变量选择然后建立逻辑回归模型。

5.1变量分箱

变量分箱是对连续变量离散化的一种称呼，信用卡评分中，常见的变量分箱有等距分段，等深分段，最优分段。等距分段：分段的区间是一致的；等深分段：先确定分段段数，每段的数量基本相同，最有分段：又叫监督离散化，使用递归划分，将连续变量分为分段，背后是一种基于条件推断查找较佳分组的算法。

WOE值是对原始变量的一种编码形式，当前分组中响应客户占所有样本中响应客户的比例和当前分租中未响应客户占所有样本中没有响应客户的比例。

其中pyi是这个组中响应客户（风险模型中，对应的是违约客户，总之，指的是模型中预测变量取值为“是”或者说1的个体）占所有样本中所有响应客户的比例，pni是这个组中未响应客户占样本中所有未响应客户的比例。

from scipy import stats

#最优分段
def optimal_part(Y,X,n=20):
    good = Y.sum()
    bad = Y.count()-good
    n = 20
    r=0
    while np.abs(r)<1:
        d1 = pd.DataFrame({'X':X,'Y':Y,'Bucket':pd.qcut(X,n,duplicates='drop')})
        d2 = d1.groupby('Bucket',as_index=True)
        r,p = stats.spearmanr(d2.mean().X,d2.mean().Y)
        n = n -1
    d3 = pd.DataFrame()
    d3['min'] = d2.min().X
    d3['max'] = d2.max().X
    d3['sum'] = d2.sum().Y   #该分组下好客户量
    d3['total'] = d2.count().X   #该分组下的总数据量
    d3['rate']=d2.mean().Y   #该分组下好客户占比
#     d3['woe'] = np.log(d3['rate']/(1-d3['rate'])/(good/bad))
    d3['woe'] = np.log((d3['sum']/good)/((d3['total']-d3['sum'])/bad))
    d3['goodattribute'] = d3['sum']/good
    d3['badattribute'] =(d3['total']-d3['sum'])/bad
    iv=round(((d3['goodattribute']-d3['badattribute'])*d3['woe']).sum(),4)
    d4 = (d3.sort_values(by='min')).reset_index(drop=True)
    woe = list(d4['woe'].round(3))
    cut = []
    ninf = float('-inf')
    pinf = float('inf')
    print('n',n)
    cut.append(ninf)
    for i in range(1,n+1):
        #分位数函数
        qua = X.quantile(i/(n+1))
        cut.append(round(qua,4))
    cut.append(pinf)
    return d4,iv,cut,woe

x1 = optimal_part(dataset['SeriousDlqin2yrs'],dataset['RevolvingUtilizationOfUnsecuredLines'])
x2 = optimal_part(dataset['SeriousDlqin2yrs'],dataset['age'])
x4 = optimal_part(dataset['SeriousDlqin2yrs'],dataset['DebtRatio'])
x5 = optimal_part(dataset['SeriousDlqin2yrs'],dataset['MonthlyIncome'])
print(x1)

变量x3,x6,x7,x8,x9不适合最优分箱，采用等距分箱

#自定义等距分段
def auto_set(Y,X,cat):
    good = Y.sum()
    bad = Y.count() - good
    d1 = pd.DataFrame({'Y':Y,'X':X,'Bucket':pd.cut(X,cat)})
    d2 = d1.groupby('Bucket',as_index=True)
    d3 = pd.DataFrame()
    d3['min'] = d2.min().X
    d3['max'] = d2.max().X
    d3['sum'] = d2.sum().Y
    d3['total'] = d2.count().X
    d3['rate']=d2.mean().Y
    d3['woe'] = np.log(d3['rate']/(1-d3['rate'])/(good/bad))
    d3['goodattribute'] = d3['sum']/good
    d3['badattribute'] =(d3['total']-d3['sum'])/bad
    iv=round(((d3['goodattribute']-d3['badattribute'])*d3['woe']).sum(),4)
    d4 = (d3.sort_values(by='min')).reset_index(drop=True)
    woe = list(d3['woe'].round(3))
    return d4,woe,iv

ninf = float('-inf')
pinf = float('inf')
#分段
cuts3 = [ninf, 0, 1, 3, 5, pinf]
cuts6=[ninf, 1, 2, 3, 5, pinf]
cuts7 = [ninf, 0, 1, 3, 5, pinf]
cuts8 =[ninf, 0,1,2, 3, pinf]
cuts9 = [ninf, 0, 1, 3, pinf]
cuts10 = [ninf, 0, 1, 2, 3, 5, pinf]
x3 = auto_set(dataset['SeriousDlqin2yrs'],dataset['NumberOfTime30-59DaysPastDueNotWorse'],cat=cuts3)
x6 = auto_set(dataset['SeriousDlqin2yrs'],dataset['NumberOfOpenCreditLinesAndLoans'],cat=cuts6)
x7 = auto_set(dataset['SeriousDlqin2yrs'],dataset['NumberOfTimes90DaysLate'],cat=cuts7)
x8 = auto_set(dataset['SeriousDlqin2yrs'],dataset['NumberRealEstateLoansOrLines'],cat=cuts8)
x9 = auto_set(dataset['SeriousDlqin2yrs'],dataset['NumberOfTime60-89DaysPastDueNotWorse'],cat=cuts9)
x10 = auto_set(dataset['SeriousDlqin2yrs'],dataset['NumberOfDependents'],cat=cuts10)

查看分段结果，iv值，woe值

#iv值
iv_lists=list(dataset.columns)[1:]
iv_values = [x1[1],x2[1],x3[2],x4[1],x5[1],x6[2],x7[2],x8[2],x9[2],x10[2]]
#分段
cuts = [x1[2],x2[2],cuts3,x4[2],x5[2],cuts6,cuts7,cuts8,cuts9,cuts10]
#分段对应的woe值
woes = [x1[3],x2[3],x3[1],x4[3],x5[3],x6[1],x7[1],x8[1],x9[1],x10[1]]
print(cuts)
print(woes)

5.2变量选取

六、建模

6.1建立回归模型

#建立回归模型
X = data_woe.iloc[:,:5]
Y = data_woe['SeriousDlqin2yrs']
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve
from sklearn.linear_model import LogisticRegressionCV
from sklearn.metrics import auc
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_size=0.2,random_state=42)
clf=LogisticRegressionCV(Cs=[0.001,0.01,0.1,1,10,100,1000],#正则化强度备选集
                         cv=10,#10折交叉验证
                         class_weight='balanced',#自动调整类别权重
                         penalty='l2',#选用L2正则化
                         random_state=0,#设置一个固定的随机数种子
                         )#其余为默认参数
clf = clf.fit(X_train,Y_train)#训练模型
scores = y_score=clf.predict_proba(X_test)[:,1]

6.2模型评估

#模型评估
fpr,tpr,thresholds=roc_curve(Y_test,scores)
AUC=auc(fpr,tpr)
plt.figure(figsize=(7,7))
plt.plot(fpr,tpr,label='AUC=%.2f'%AUC)
plt.plot([0,1],[0,1],'--')
plt.xlim([0,1])
plt.ylim([0,1])
plt.xlabel('False Positive Rate',fontdict={'fontsize':12},labelpad=10)
plt.ylabel('True Positive Rate',fontdict={'fontsize':12},labelpad=10)
plt.title('ROC curve',fontdict={'fontsize':20})
plt.legend(loc=0,fontsize=11)
plt.show()
#auc值为0.85结果相对可以

6.3建立评分卡

根据以上得出 a = log(p_good/p_bad) Score = offset + factor* log(odds) 在建立标准评分卡之前，需要选取几个评分卡参数：基础分值、 PDO（比率翻倍的分值）和好坏比。这里，采用600分为基础分值，PDO为20 （每高20分好坏比翻一倍），好坏比取20。

#模型输出系数
coes = clf.coef_[0]
#计算得分
import math
p =20/math.log(2)
q = 600 - 20*math.log(20)/math.log(2)
baseScore = round(q+p*coes[0],0)
print(baseScore)
print(coes)

#533.0
#[0.66090027 0.44773906 0.59112341 0.60396275 0.46359447]

#计算分数函数
def get_score(coe,woe,factor):
    scores = []
    for w in woe:
        score = round(coe * w * factor,0)
        scores.append(score)
    return scores

#计算变量得分
x1_score = get_score(coes[0],woe1s[0],p)
print(x1_score)
x2_score = get_score(coes[1],woe1s[1],p)
print(x2_score)
x3_score = get_score(coes[2],woe1s[2],p)
print(x3_score)
x7_score = get_score(coes[3],woe1s[3],p)
print(x7_score)
x9_score = get_score(coes[4],woe1s[4],p)
print(x9_score)

计算变量得分

#根据变量计算分数
def compute_score(series,cut,score):
    lists = []
    for values in series:
        j = len(cut)-2
        i=len(cut)-2
        while i <= j:
            if values > cut[i]:
                lists.append(score[i])
                i += 1
            else:
                i-= 1
                j -= 1
                if i == 0:
                    lists.append(score[0])
                    i= len(cut)-1
    return lists

计算变量得分

dataset = dataset.reset_index()
dataset['BaseScore'] = pd.Series(np.zeros(len(dataset)))+ baseScore
dataset['x1'] = pd.Series(compute_score(dataset['RevolvingUtilizationOfUnsecuredLines'],cuts[0],x1_score))
dataset['x2'] = pd.Series(compute_score(dataset['age'],cuts[1],x2_score))
dataset['x3'] = pd.Series(compute_score(dataset['NumberOfTime30-59DaysPastDueNotWorse'],cuts3,x3_score))
dataset['x7'] = pd.Series(compute_score(dataset['NumberOfTimes90DaysLate'],cuts7,x7_score))
dataset['x9'] = pd.Series(compute_score(dataset['NumberOfTime60-89DaysPastDueNotWorse'],cuts9,x9_score))
dataset['Score'] = dataset['x1'] + dataset['x2'] + dataset['x3'] +dataset['x7'] +dataset['x9'] + baseScore
print(dataset.info())

dataset.to_excel(r'./score_result.xlsx',index=False)

#查看在好坏客户的前提下分数的分布图
dt = pd.read_excel(r'./score_result.xlsx')
good = dt[dt['SeriousDlqin2yrs']==1]['Score']
bad = dt[dt['SeriousDlqin2yrs']==0]['Score']
plt.figure(figsize=(7,5))
sns.distplot(bad,bins=50,hist=False,label='bad')
sns.distplot(good,bins=50,hist=False,label='good')
plt.xlabel('Score',fontdict={'fontsize':12},labelpad=10)
plt.legend(loc=0,fontsize=11)
plt.show()

评分卡模型在测试集中的应用

testdata = pd.read_excel(r'./test.xlsx')

testdata['BaseScore'] = pd.Series(np.zeros(len(testdata)))+ baseScore
testdata['x1'] = pd.Series(compute_score(testdata['RevolvingUtilizationOfUnsecuredLines'],cuts[0],x1_score))
testdata['x2'] = pd.Series(compute_score(testdata['age'],cuts[1],x2_score))
testdata['x3'] = pd.Series(compute_score(testdata['NumberOfTime30-59DaysPastDueNotWorse'],cuts3,x3_score))
testdata['x7'] = pd.Series(compute_score(testdata['NumberOfTimes90DaysLate'],cuts7,x7_score))
testdata['x9'] = pd.Series(compute_score(testdata['NumberOfTime60-89DaysPastDueNotWorse'],cuts9,x9_score))
testdata['Score'] = testdata['x1'] + testdata['x2'] + testdata['x3'] +testdata['x7'] +testdata['x9'] + baseScore

得分结果：

七、结论

通过对信用卡用户相关数据的探索，清洗及预处理，根据woe变换和iv值筛的变量建立逻辑回归模型，在此基础上建立信用卡评分系统，根据评分结果可知大于550分的基本上为好客户，在500分左右的为坏客户，在525分左右好坏客户区分界限不明显。根据此评分系统对测试集数据进行评分预测。

评分系统如若长期使用，模型中涉及到的变量变化波动一定不能太大，例如收入，如若波动较大，不适合长期使用，模型的稳定性降低，如果不可缺少需将收入进行相关转化；后期监控中需长期监控模型的正确性及变量选择的有效性，以保证模型的正确性和稳定性。

参考

https://blog.csdn.net/njliaojiang817/article/details/90409799

https://blog.csdn.net/kingzone_2008/article/details/80449287

https://www.jianshu.com/p/159f381c661d

黎玉华，信用卡评分模型的建立[J],2010

你可能感兴趣的:(Python,信用卡评分,金融)

python strip/rstrip/lstrip详细讲解（涵盖许多例子、作用以及复杂行为处理） zilan23 Python python
pythonstrip/rstrip/lstrip详细讲解：在Python中，strip、lstrip、rstrip是用于字符串处理的常用方法，主要功能是去除字符串首尾的指定字符。它们的区别如下：1.strip([chars])作用：删除字符串开头和结尾处所有属于chars的字符，直到遇到不属于chars的字符为止。默认行为：若未提供chars参数，默认去除空白符（空格、换行\n、制表符\t等）。
Kafka集群部署实战 Gold Steps. 技术博文分享 kafka 分布式
服务背景ApacheKafka作为分布式流处理平台，在金融交易系统、物联网数据处理、实时日志分析等场景中发挥关键作用。某电商平台日均处理订单消息1.2亿条，峰值QPS达5万，采用Kafka集群实现订单状态流转、用户行为追踪和库存同步等功能。以下是经过生产验证的集群部署方案及典型故障处理经验。集群运维最佳实践1.容量规划建议指标推荐值监控阈值分区数量/Broker≤4000≥3500告警副本同步延迟
Python逆向爬取Tik Tok，MsToken,X-Bogus以及signature 才华是浅浅的耐心 python javascript 前端
自5月起，抖音正式开放Web接口，并不断升级风控机制。从最初的_signature参数，到增加滑块验证，再到如今的JSVM混淆处理，以及mstoken和x-bougs等参数的引入。分析发现，部分国内接口仅需提供Cookie即可访问，无需额外验签，而获取Cookie的方式多种多样，其中利用OpenCV识别滑块验证码是一种简单可行的方法。相比之下，TikTok的接口无需Cookie，但对签名的校验更加
Browser-Use WebUI项目启动指南思考在马桶上人工智能 chatgpt 经验分享 python
摘要此前发布《Browser-UseWebUI使用体验》博文后，鉴于部分朋友运行时出现问题，重新运行并整理相关内容。本文详细记录WebUI项目启动全过程，涵盖Python3.11+、Chrome浏览器及APIKeys等环境要求，Python环境检查、依赖安装等环境配置步骤，.env文件中环境变量的设置方法。同时，针对启动中如lxml.html.clean依赖缺失、连接被拒等问题给出解决方案，介绍启
Linux篇1-初识Linux 逃跑的机械工 Linux linux
1.Linux能干什么Linux能够进行各种语言的开发工作，基本主要以后端语言为主C++，JAVA,python;Linux能进行各种指令操作，从而完成各种的文件相关的管理工作2.Linux基本指令2.1ls指令在Linux中，以.开头的文件，叫做隐藏文件；ls-a显示隐藏文件隐藏文件：Linux配置文件，可以隐藏起来，防止误操作，起到保护作用；ls-l列出文件的详细信息-d将目录象文件一样显示，
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
【初学者】用Python语言来解释指针的用例与应用场景 lisw05 python python 开发语言
李升伟整理Python本身并不直接支持指针的概念，因为Python是一种高级语言，内存管理由解释器自动处理。不过，Python提供了一些机制（如引用、可变对象等）来实现类似指针的功能。以下是Python中“指针”的用例和应用场景。1.引用机制（类似指针）在Python中，变量是对对象的引用，而不是直接存储对象的值。这种引用机制类似于指针的概念。示例：a=10#a是对整数对象10的引用b=a#b也引
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
31天Python入门——第7天:集合·字典你真的懂了吗? 安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.集合1.1集合的定义1.2集合的常用操作1.3集合练习2.字典2.1字典的定义2.2嵌套字典和字典的取值2.3字典的常用操作补充知识:字典的优势是查找值效率高2.4字典推导式2.5字典练习很重要的补充练习:希望你能掌握练习一练习二1.集合在之前的章节中,我们学习了列表,元组,字符串.已经可以覆盖七成的使用场景了.那么为什么还要学习集合类型呢.列表:有序可变,元素可重
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
python-56-基于Vue和Flask进行前后端分离的项目开发示例实战皮皮冰燃 python3 python vue.js flask
文章目录1创建Vue前端项目1.1运行demo1.2实现需求2flask部署上述dist(前后端未分离)2.1代码app.py2.2运行访问3nginx部署(前后端分离)3.1nginx前端服务3.3.1windows安装nginx3.3.2修改nginx.conf配置文件3.3.3启动nginx3.3.3停止nginx3.2启动后端服务3.2.1app.py(去除前端渲染)3.2.2启动flas
爬虫基础--request库详解 amo的代码园_毕设 Java基础爬虫 java spring boot vue.js python 开发语言
爬虫基础–request库详解1.requests模块介绍request库中文文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests是一个非常流行的PythonHTTP第三方库，它允许你发送各种HTTP请求，处理cookies、会话、连接池、重定向、多种认证方式等，使得处理HTTP请求变得非常便捷，
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
一篇文章教会你用Python爬取淘宝评论数据【淘宝商品评论数据接口参数】 Tinalee-电商API接口呀主流电商数据采集API接口淘宝天猫商品API接口淘宝商品评论API接口 python 开发语言人工智能大数据爬虫 java
【一、项目简介】本文主要目标是采集淘宝的评价，找出客户所需要的功能。统计客户评价上面夸哪个功能多，比如防水，容量大，好看等等。【二·淘宝/天猫获得淘宝商品评论API返回值】item_review-获得淘宝商品评论taobao.item_review公共参数名称类型必须描述keyString是调用key（必须以GET方式拼接在URL中）secretString是调用密钥api_nameString是
Python for Android 安装和配置指南舒欣和Queenly
PythonforAndroid安装和配置指南python-for-androidTurnyourPythonapplicationintoanAndroidAPK项目地址:https://gitcode.com/gh_mirrors/py/python-for-android1.项目基础介绍和主要编程语言项目基础介绍PythonforAndroid(p4a)是一个开源工具，旨在将Python应用
DApp开发需要多少钱？全面解析DApp开发成本 Lovely_xwys 区块链开发区块链人工智能 web3
随着区块链技术的不断发展和普及，去中心化应用（DApp）逐渐成为金融科技领域的新宠。DApp以其去中心化、透明性和安全性等特点，吸引了众多开发者和投资者的关注。然而，对于想要涉足DApp开发的人来说，最关心的问题之一就是：DApp开发需要多少钱？本文将从多个角度全面解析DApp的开发成本。一、DApp开发成本概述DApp的开发成本并非一成不变，它受到多种因素的影响，包括项目的复杂度、功能需求、技术
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
基于Python拉取tiktok直播视频流，并将视频流切割成一定时长的视频片段 sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫
通过访问tiktok的直播间网页，从网页的script标签内部提取出关于该直播间的相关信息的JSON串，最终从JSON里提取出直播视频流的hls地址和直播间的其他信息。importsysimportrequestsimportjsonimporttimeimportsubprocessfromurllib.parseimporturlunparsefrombs4importBeautifulSou
python中datetime模块 a1111111111ss python python
参考大佬cmzsteven双手奉上大佬的网址https://blog.csdn.net/cmzsteven/article/details/64906245datetime模块中包含如下类：2、通过year,month,day三个数据描述符可以进行访问：date对象由year年份、month月份及day日期三部分构成：date（year，month，day)>>>a=datetime.date.t
deepseek具体应用场景 ahyouxiang 人工智能
DeepSeek的具体应用场景非常广泛，涵盖了多个领域和行业。以下是基于证据的详细总结：金融领域DeepSeek在金融领域的应用表现突出，例如通过其大语言模型（如DeepSeekLLM67Bt）提供数学、逻辑推理等能力，帮助金融机构提升服务效率。此外，DeepSeek还被应用于智能安全体产品中，通过安全大模型实现个性化开发和优化。医疗领域在医疗领域，DeepSeek的技术被用于辅助诊断和患者记录管
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
谈高考真题的使用（数学） weixin_34116110 python 测试
2019独角兽企业重金招聘Python工程师标准>>>在高三数学复习中，大家常说“以本为本，以纲为纲，高考真题当主粮”，就是以教材内容为根本，以“考试大纲”为准绳，以高考真题的训练为主线；抓住了本，把握了纲，训练有的放矢，我们的复习就会事半功倍。高考数学试题难度相对稳定，考查形式的变化却是异彩纷呈，而变化中又有着一定的规律：全国试题与各省市试题的考试要求基本一致；题型除上海和江苏外，全国和其他各省
DeepSeek的实际应用场景：AI技术如何赋能多领域创新 2501_91189350 人工智能
DeepSeek作为新一代智能技术平台，凭借其强大的算法能力和灵活的部署方式，正在多个行业掀起效率革命。本文将从真实案例出发，解析DeepSeek在不同场景中的落地应用。‌场景一：金融风控建模‌在信贷风险评估领域，传统模型存在数据维度单一、更新滞后等问题。某银行引入DeepSeek的‌动态特征工程模块‌，通过实时整合用户行为数据、社交网络信息等100+维度特征，成功将坏账识别准确率提升至98.5%
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1