zpxcod007

GiveMeSomeCredit——信用评分卡模型

如今在银行、消费金融公司等各种贷款业务机构，普遍使用信用评分，对客户实行打分制，以期对客户有一个优质与否的评判。评分卡分为三类分别为：

A卡（Application score card）申请评分卡

B卡（Behavior score card）行为评分卡

C卡（Collection score card）催收评分卡

评分机制的区别在于：

1.使用的时间不同。分别侧重贷前、贷中、贷后；

2.数据要求不同。A卡一般可做贷款0-1年的信用分析，B卡则是在申请人有了一定行为后，有了较大数据进行的分析，一般为3-5年，C卡则对数据要求更大，需加入催收后客户反应等属性数据。

3.每种评分卡的模型会不一样。在A卡中常用的有逻辑回归，AHP等，而在后面两种卡中，常使用多因素逻辑回归，精度等方面更好。

对于建立评分卡模型，我们参照以下的流程：

一. 数据预处理

此次的数据来源于Kaggle的Give Me Some Credit项目，首先来看一下数据：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
import seaborn as sns
from scipy import stats
import copy

%matplotlib inline

train_data = pd.read_csv('cs-training.csv')
train_data = train_data.iloc[:,1:]
train_data.info()

1.1 处理缺失值

可以看到数据方面，对于缺失比较多的MonthlyIncome，在此建立随机森林模型进行填补，而缺失较少的NumberOfDependts,则直接删除缺样本。

mData = train_data.iloc[:,[5,0,1,2,3,4,6,7,8,9]]
train_known = mData[mData.MonthlyIncome.notnull()].as_matrix()
train_unknown = mData[mData.MonthlyIncome.isnull()].as_matrix()
train_X = train_known[:,1:]
train_y = train_known[:,0]
rfr = RandomForestRegressor(random_state=0,n_estimators=200,max_depth=3,n_jobs=-1)
rfr.fit(train_X,train_y)
predicted_y = rfr.predict(train_unknown[:,1:]).round(0)
train_data.loc[train_data.MonthlyIncome.isnull(),'MonthlyIncome'] = predicted_y

train_data = train_data.dropna()
train_data = train_data.drop_duplicates()

1.2 处理异常值

缺失值处理后，来处理异常值。异常值一般是指偏离数据较大的值。例如在统计学中，常把低于 Q1-1.5IQR的值和高于Q3+1.5IQR的值作为异常值。通过绘制箱型图能很明显的看到异常值，例如：

train_box = train_data.iloc[:,[3,7,9]]
train_box.boxplot()

很明显可以看到，在这三个特征之中有两组样本偏离了其他样本的分布，可以将其去除，此外，我们发现在age为0的样本，这很明显是不符合常识的，应同样作为异常值舍弃：

train_data = train_data[train_data['NumberOfTime30-59DaysPastDueNotWorse']<90]
train_data = train_data[train_data.age>0]
train_data['SeriousDlqin2yrs'] = 1-train_data['SeriousDlqin2yrs'] #使好客户为1，违约客户为0

1.3 数据切分

为了使得能够更好地检验模型效果，我们将数据切分化为训练集和测试集。测试集取原数据的30%：

from sklearn.cross_validation import train_test_split
y = train_data.iloc[:,0]
X = train_data.iloc[:,1:]
train_X,test_X,train_y,test_y = train_test_split(X,y,test_size =0.3,random_state=0)
ntrain_data = pd.concat([train_y,train_X],axis=1)
ntest_data = pd.concat([test_y,test_X],axis=1)

二. 探索性分析

在建立模型之前，我们一般会对现有的数据进行探索性数据分析（Exploratory Data Analysis）。 EDA是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。常用的探索性数据分析方法有：直方图、散点图和箱线图等。

age = ntrain_data['age']
sns.distplot(age)

可以看到，年龄的分布大致呈正态分布，符合统计分析假设。

mi = ntrain_data[['MonthlyIncome']]
sns.distplot(mi)

同样，收入的分布也大致呈正态分布。

三.变量选择

3.1 分箱处理

首先，需要将特征进行分箱处理。分箱是将连续特征离散化的一种方式，一般有等距，等频，卡方分箱的等多种方式，合理的分箱可以使模型更加精准。在此，我使用的是一种常见于SAS上的单调分箱，python代码由这为大神提供。

def mono_bin(Y, X, n=10):
    r = 0
    good=Y.sum()
    bad=Y.count()-good
    while np.abs(r) < 1: 
        d1 = pd.DataFrame({"X": X, "Y": Y, "Bucket": pd.qcut(X, n)})
        d2 = d1.groupby('Bucket', as_index = True)
        r, p = stats.spearmanr(d2.mean().X, d2.mean().Y)  
        n = n - 1
    d3 = pd.DataFrame(d2.X.min(), columns = ['min'])
    d3['min']=d2.min().X
    d3['max'] = d2.max().X
    d3['sum'] = d2.sum().Y
    d3['total'] = d2.count().Y
    d3['rate'] = d2.mean().Y
    d3['woe']=np.log((d3['rate']/good)/((1-d3['rate'])/bad))
    d3['goodattribute']=d3['sum']/good
    d3['badattribute']=(d3['total']-d3['sum'])/bad
    iv=((d3['goodattribute']-d3['badattribute'])*d3['woe']).sum()
    d4 = (d3.sort_index(by = 'min')).reset_index(drop=True)
    woe=list(d4['woe'].round(3))
    cut=[]
    cut.append(float('-inf'))
    for i in range(1,n+1):
        qua=X.quantile(i/(n+1))
        cut.append(round(qua,4))
    cut.append(float('inf'))
    return d4,iv,cut,woe

x1_d,x1_iv,x1_cut,x1_woe = mono_bin(train_y,train_X.RevolvingUtilizationOfUnsecuredLines)

x2_d,x2_iv,x2_cut,x2_woe = mono_bin(train_y,train_X.age)

x4_d,x4_iv,x4_cut,x4_woe = mono_bin(train_y,train_X.DebtRatio)

x5_d,x5_iv,x5_cut,x5_woe = mono_bin(train_y,train_X.MonthlyIncome)

对于 RevolvingUtilizationOfUnsecuredLines、age、DebtRatio和MonthlyIncome我们使用这种方式进行分类。

然而，其他的变量无法通过这种方式分箱，故我们使用人工选择的方式进行：

cutx3 = [-inf, 0, 1, 3, 5, +inf]

cutx6 = [-inf, 1, 2, 3, 5, +inf]

cutx7 = [-inf, 0, 1, 3, 5, +inf]

cutx8 = [-inf, 0,1,2, 3, +inf]

cutx9 = [-inf, 0, 1, 3, +inf]

cutx10 = [-inf, 0, 1, 2, 3, 5, +inf]

以NumberOfTime30-59DaysPastDueNotWorse为例：

def woe_value(d1):
    d2 = d1.groupby('Bucket', as_index = True)
    good=train_y.sum()
    bad=train_y.count()-good
    d3 = pd.DataFrame(d2.X.min(), columns = ['min'])
    d3['min']=d2.min().X
    d3['max'] = d2.max().X
    d3['sum'] = d2.sum().Y
    d3['total'] = d2.count().Y
    d3['rate'] = d2.mean().Y
    d3['woe'] = np.log((d3['rate']/good)/((1-d3['rate'])/bad))
    d3['goodattribute']=d3['sum']/good
    d3['badattribute']=(d3['total']-d3['sum'])/bad
    iv=((d3['goodattribute']-d3['badattribute'])*d3['woe']).sum()
    d4 = (d3.sort_index(by = 'min')).reset_index(drop=True)
    woe=list(d4['woe'].round(3))
    return d4,iv,woe

d1 = pd.DataFrame({"X": train_X['NumberOfTime30-59DaysPastDueNotWorse'], "Y": train_y})
d1['Bucket'] = d1['X']
d1_x1 = d1.loc[(d1['Bucket']<=0)]
d1_x1.loc[:,'Bucket']="(-inf,0]"


d1_x2 = d1.loc[(d1['Bucket']>0) & (d1['Bucket']<= 1)]
d1_x2.loc[:,'Bucket'] = "(0,1]"


d1_x3 = d1.loc[(d1['Bucket']>1) & (d1['Bucket']<= 3)]
d1_x3.loc[:,'Bucket'] = "(1,3]"


d1_x4 = d1.loc[(d1['Bucket']>3) & (d1['Bucket']<= 5)]
d1_x4.loc[:,'Bucket'] = "(3,5]"


d1_x5 = d1.loc[(d1['Bucket']>5)]
d1_x5.loc[:,'Bucket']="(5,+inf)"
d1 = pd.concat([d1_x1,d1_x2,d1_x3,d1_x4,d1_x5])


x3_d,x3_iv,x3_woe= woe_value(d1)
x3_cut = [float('-inf'),0,1,3,5,float('+inf')]

在分箱的过程中，同时计算了WOE（Weight of Evidence）和IV(Information Value)，前者在建立逻辑回归模型是需要将所有的变量转为WOE，而后者则可以很好的展示变量的预测能力。这两个值的计算方式如下：

在通过IV值判断之前可以先检查一下变量之间的相关性，对变量有个直观的了解：

corr = train_data.corr()
xticks = ['x0','x1','x2','x3','x4','x5','x6','x7','x8','x9','x10']
yticks = list(corr.index)
fig = plt.figure()
ax1 = fig.add_subplot(1, 1, 1)
sns.heatmap(corr, annot=True, cmap='rainbow', ax=ax1, annot_kws={'size': 5,  'color': 'blue'})
ax1.set_xticklabels(xticks, rotation=0, fontsize=10)
ax1.set_yticklabels(yticks, rotation=0, fontsize=10)
plt.show()

可以看到 NumberOfTime30-59DaysPastDueNotWorse,NumberOfOpenCreditLinesAndLoans和NumberOfTime60-89DaysPastDueNotWorse这三个特征对于我们所要预测的值有较强的相关性。

接下来，看一下各个变量的IV值：

informationValue = []
informationValue.append(x1_iv)
informationValue.append(x2_iv)
informationValue.append(x3_iv)
informationValue.append(x4_iv)
informationValue.append(x5_iv)
informationValue.append(x6_iv)
informationValue.append(x7_iv)
informationValue.append(x8_iv)
informationValue.append(x9_iv)
informationValue.append(x10_iv)
informationValue

index=['x1','x2','x3','x4','x5','x6','x7','x8','x9','x10']
index_num = range(len(index))
ax=plt.bar(index_num,informationValue,tick_label=index)
plt.show()

通过IV值判断变量预测能力的标准是：

< 0.02: unpredictive

0.02 to 0.1: weak

0.1 to 0.3: medium

0.3 to 0.5: strong

> 0.5: suspicious

可以看到，对于X4，X5，X6，X8，以及X10而言，IV值都比较低，因此可以舍弃这些预言能力较差的特征

3.2 WOE转换

接下来，将所有的需要的特征woe化，并将不需要的特征舍弃，仅保留WOE转码后的变量：

def trans_woe(var,var_name,x_woe,x_cut):
    woe_name = var_name + '_woe'
    for i in range(len(x_woe)):
        if i == 0:
            var.loc[(var[var_name]<=x_cut[i+1]),woe_name] = x_woe[i]
        elif (i>0) and (i<= len(x_woe)-2):
            var.loc[((var[var_name]>x_cut[i])&(var[var_name]<=x_cut[i+1])),woe_name] = x_woe[i]
        else:
            var.loc[(var[var_name]>x_cut[len(x_woe)-1]),woe_name] = x_woe[len(x_woe)-1]
    return var

x1_name = 'RevolvingUtilizationOfUnsecuredLines'
x2_name = 'age'
x3_name = 'NumberOfTime30-59DaysPastDueNotWorse'
x7_name = 'NumberOfTimes90DaysLate'
x9_name = 'NumberOfTime60-89DaysPastDueNotWorse'

train_X = trans_woe(train_X,x1_name,x1_woe,x1_cut)
train_X = trans_woe(train_X,x2_name,x2_woe,x2_cut)
train_X = trans_woe(train_X,x3_name,x3_woe,x3_cut)
train_X = trans_woe(train_X,x7_name,x7_woe,x7_cut)
train_X = trans_woe(train_X,x9_name,x9_woe,x9_cut)

train_X = train_X.iloc[:,-5:]

此时数据如下所示：

四.模型分析

4.1 模型建立

通过调用STATSMODEL包来建立逻辑回归模型：

import statsmodels.api as sm
X1=sm.add_constant(train_X)
logit=sm.Logit(train_y,X1)
result=logit.fit()
print(result.summary())

结果如下：

4.2 模型检验

模型建立后，可以通过导入测试集的数据，画出ROC曲线来判断模型的准确性：

1.对测试集进行woe转化

test_X = trans_woe(test_X,x1_name,x1_woe,x1_cut)
test_X = trans_woe(test_X,x2_name,x2_woe,x2_cut)
test_X = trans_woe(test_X,x3_name,x3_woe,x3_cut)
test_X = trans_woe(test_X,x7_name,x7_woe,x7_cut)
test_X = trans_woe(test_X,x9_name,x9_woe,x9_cut)

test_X = test_X.iloc[:,-5:]

2.拟合模型，画出ROC曲线得到AUC值

from sklearn import metrics
X3 = sm.add_constant(test_X)
resu = result.predict(X3)
fpr, tpr, threshold = metrics.roc_curve(test_y, resu)
rocauc = metrics.auc(fpr, tpr)
plt.plot(fpr, tpr, 'b', label='AUC = %0.2f' % rocauc)
plt.legend(loc='lower right')
plt.plot([0, 1], [0, 1], 'r--')
plt.xlim([0, 1])
plt.ylim([0, 1])
plt.ylabel('TPR')
plt.xlabel('FPR')
plt.show()

可以看到，ACU=0.85,是可以接受的。

五.建立评分卡

5.1 评分标准

依据以上论文资料得到：

a=log（p_good/P_bad）

Score = offset + factor * log(odds)

在建立标准评分卡之前，我们需要选取几个评分卡参数：基础分值、 PDO（比率翻倍的分值）和好坏比。这里，我们取600分为基础分值，PDO为20 （每高20分好坏比翻一倍），好坏比取20。

5.2 建立评分卡

p = 20/np.log(2)
q = 600 - 20*np.log(20)/np.log(2)

def get_score(coe,woe,factor):
    scores=[]
    for w in woe:
        score=round(coe*w*factor,0)
        scores.append(score)
    return scores

x_coe = [2.6084,0.6327,0.5151,0.5520,0.5747,0.4074]
baseScore = round(q + p * x_coe[0], 0)x1_score = get_score(x_coe[1], x1_woe, p)

x1_score = get_score(x_coe[1], x1_woe, p)
x2_score = get_score(x_coe[2], x2_woe, p)
x3_score = get_score(x_coe[3], x3_woe, p)
x7_score = get_score(x_coe[4], x7_woe, p)
x9_score = get_score(x_coe[5], x9_woe, p)

x_coe是之前逻辑回归模型得到的系数。最后BaseScore等于589分。

通过get_score可以得到所有分段的分数，如下：

根据前面章节的分箱结果和得到的分数，可以建立评分卡：

5.3 自动计算评分

建立一个函数使得当输入x1,x2,x3,x7,x9的值时可以返回评分数

cut_t = [x1_cut,x2_cut,x3_cut,x7_cut,x9_cut]
def compute_score(x):        #x为数组，包含x1,x2,x3,x7和x9的取值
    tot_score = baseScore
    cut_d = copy.deepcopy(cut_t)
    for j in range(len(cut_d)):
        cut_d[j].append(x[j])
        cut_d[j].sort()
        for i in range(len(cut_d[j])):
            if cut_d[j][i] == x[j]:
                tot_score = score[j][i-1] +tot_score
    return tot_score

来测试一下：

总结

至此此次基于python制作的行为评分卡就此完成。本文通过对于Kaggle上项目的数据进行分析，利用逻辑回归制作了一个简单的评分卡。在建立评分卡的过程中，首先进行了数据清洗，对缺失值和异常值进行了处理并对数据分布进行了宏观展示。然后对特征值进行了处理，将连续的变量分箱，同时计算了woe和iv值，并保留了iv值较高的变量对其woe转化。最后将woe转化后的数据进行逻辑回归分析，利用得到变量系数并自行拟定了评分标准建立了评分卡。

在整体过程中，并没有对数据进行过多的挖掘。例如：只舍弃了个别变量的异常值，亦或是对于不能自动分箱的变量采取了直观分箱的方式，并没有过多的去探究其可能对于模型的影响。这可以为后续的模型优化奠定方向。

谷歌：对比学习将LLM转为嵌入模型大模型任我行大模型-成熟基座人工智能自然语言处理语言模型论文笔记
标题：GeminiEmbedding:GeneralizableEmbeddingsfromGemini来源：arXiv,2503.07891摘要在本报告中，我们介绍了Gemini嵌入，这是一种最先进的嵌入模型，它利用了Gemini、Google最有能力的大型语言模型的力量。利用Gemini固有的多语言和代码理解能力，GeminiEmbedding为跨越多种语言和文本模式的文本生成高度可概括的嵌入
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
一、大语言模型微调 vs. 大语言模型应用 AI Echoes 深度学习人工智能 deepseek 机器学习算法
一、大语言模型微调vs.大语言模型应用1.微调（Fine-Tuning）的含义与特点定义与作用微调指在预训练好（通用）的基础模型上，通过在特定领域或任务的数据集上进一步训练来调整模型参数，使其在该领域任务中获得更优表现。这种方法可以使通用模型“定制化”，更好地理解专业术语和领域知识，从而提升准确性和响应质量。例如，为医疗、法律、金融等垂直领域构建专属模型，往往需要在预训练模型基础上进行微调。特点参
AI界劳斯莱斯o1 -Pro来了！百万token收费600刀，OpenAI在AI普惠反方向狂奔？算家计算话题文章人工智能算家云 OpenAI o1-pro API OpenAI发布最贵模型 DeepSeek
刚刚，OpenAI宣布推出其最新的高性能推理模型o1-pro。当大家还在为GPT-4.5的订阅费感到肉痛时，OpenAI用一记价格暴击刷新了认知——全新推理模型o1-pro的API定价，输入每百万token收费150美元，输出每百万token收费600美元，比前代模型贵了10倍，更是将DeepSeek-R1甩出270倍价差。与OpenAI其他模型相比，o1-pro的价格高出了不止一点：目前o1-p
模型上下文协议 (MCP)是什么？Model Context Protocol 需要你了解一下同学小张学习 AIGC AI-native agi gpt 开源协议
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，订阅我的大模型专栏，共同学习和进步。在人工智能领域，ModelContextProtocol（MCP）正逐渐成为连接AI模型与各类数据源及工具的重要标准。MCP究竟为何物？它又将如何改变AI应用的开发与使用？文章目录0.概念1.MCP的总体架构2.为何使用MCP？3.我的理解4
MCP服务器：AI智能体的新时代连接标准真挺乐人工智能
在AI技术的不断发展中，MCP（ModelContextProtocol，模型上下文协议）正成为AI智能体与外部系统交互的新标准。MCP的目标是提供一个统一的方法，让AI智能体能够安全、高效地访问各种数据源、API接口和系统工具，从而扩展其能力，提升智能化水平。本文将深入探讨MCP服务器的架构、优势及其在现实世界中的应用。什么是MCP服务器？MCP服务器是MCP架构中的关键组件，它们充当AI智能体
ollama 基本使用教程海上彼尚 AI ai 前端
目录1.安装OllamamacOS或LinuxWindows(WSL2)2.基础命令启动与停止更新Ollama3.模型管理下载预训练模型运行模型查看已安装模型删除模型从Modelfile创建自定义模型4.高级功能服务器模式与API多会话管理环境变量配置5.常见问题与技巧加速模型下载查看日志模型参数调整模型导出与分享Ollama是一个开源的大型语言模型服务工具，能够帮助用户在本地运行大模型。通过简单
java Spring Boot ruoyi-vue-pro 模型接入微软 OpenAI(chatgpt)方法代码简单说开发必备 2025开发必备 java若依 ruoyi教程 java spring boot vue.js ruoyi-vue-pro openai chatgpt 大模型
javaSpringBootruoyi-vue-pro模型接入微软OpenAI方法本项目基于SpringAI提供的spring-ai-azure-openai，实现与微软Azure上部署的OpenAI的接入，涵盖AI对话和AI绘画功能。1.申请密钥1.1AzureAPI申请在微软AzureAI申请。社区小伙伴提供过密钥接入，申请流程应不复杂。申请完成后会得到类似模型列表（如图）。购买完成后，在系统
【新品发售】NVIDIA 发布全球最小个人 AI 超级计算机 DGX Spark segmentfault
GTC2025大会上，NVIDIA正式推出了搭载NVIDIAGraceBlackwell平台的个人AI超级计算机——DGXSpark。赞奇可接受预订，直接私信后台即刻预订！DGXSpark(前身为ProjectDIGITS)支持AI开发者、研究人员、数据科学家和学生，在台式电脑上对大模型进行原型设计、微调和推理。用户可以在本地运行这些模型，或将其部署在NVIDIADGXCloud或任何其他加速云或
如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介人工智能机器学习大模型llm
背景：为什么需要一个「裁判员大语言模型」？随着大模型（LLM）技术的爆发式应用，如何快速、客观评估模型回复质量成为行业痛点。对于回答客观问题的LLM，目前业内已经有比较成熟的数据集进行效果评测与模型打榜。但是如何对一个开放式生成LLM进行效果评估，尤其在知识问答、客服对话、内容合规、RAG（检索增强生成）等场景中，目前主流的评测方式仍存在一定的局限性：人工标注：成本高昂、效率低下；传统的自动化评估
13 异常处理的使用大全希望_睿智 C++基础知识精讲 c++windows c语言开发语言异常处理
概述异常是指程序在执行的过程中，没有按照预定的流程和逻辑去运行，从而导致数组越界、内存溢出、甚至程序崩溃等各种非正常的情况。在C++、Java和C#等高级语言中，都提供了对于异常的处理机制。异常处理，实际上是一种转移程序控制权的方式。当程序中抛出了异常时，我们可以捕获异常，进而进行相应的处理。处理模型一般有两种：一种是终止模型，表示该异常是致命的，无法恢复，会直接终止程序；另一种是恢复模型，表示该
Pydantic配置继承抽象基类模式
title:Pydantic配置继承抽象基类模式date:2025/3/21updated:2025/3/21author:cmdragonexcerpt:Pydantic模型配置系统支持通过嵌套Config类定义字段校验、序列化等行为。配置继承需显式指定父类Config，子类可覆盖或扩展配置项。动态配置管理允许运行时通过工厂函数创建带特定设置的模型，支持热更新验证规则。企业级架构中采用基类配置继
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
25年申报工商年报前先看这篇笔记，帮你避坑，少走弯路！搬砖小杨聊资质笔记
又到工商年报申报的时候了（25年截止日期6月30日）,今年年报申报与去年有点区别，我特意整理出来与大家分享，帮助大家避坑。笔记不长，5分钟时间让你事半功倍，你就是老板眼中最靓的仔！！1、今年国家企业信用信息公示系统做了个更新，未完成年报填写或有多家公司需要申报的，一定要点击退出登录，不要直接关闭网页。否则当你想要继续填写年报或申报其他公司的，需要等待系统【自动退出登录】，时间2-3个小时，会大大影
密码学协议在SSL/TLS证书体系中的深度解析安全
摘要：本文从密码学协议演进视角，系统剖析SSL/TLS证书体系的实现机理与安全边界。聚焦TLS1.3协议标准，揭示椭圆曲线密码体制(ECC)与混合密钥交换机制的协同运作，探讨证书透明度(CT)系统的密码学验证模型，并构建后量子时代数字证书的迁移路径框架。一、SSL/TLS协议栈的密码学架构演进X.509证书的密码学基因由PKI体系决定，其信任锚点植根于CA机构的数字签名算法选择。TLS1.3协议废
基于MATLAB路径规划仿真轨迹规划，船舶轨迹跟踪控制，数学模 985计算机硕士仿真模型 matlab 开发语言
MATLAB路径规划仿真轨迹规划，船舶轨迹跟踪控制，数学模MATLAB路径规划仿真轨迹规划，船舶轨迹跟踪控制，数学模型基于两轮差速的小车模型，用PID环节对航向角进行控制，迫使小车走向目标，或用PID环节对航向角和距离进行控制，迫使小车走向目标LQR算法可自行小车起点坐标文章目录初始化环境定义PID控制函数运行仿真代码说明：代码示例代码说明：为了实现基于两轮差速模型的小车在MATLAB中的路径规划
基于Matlab_simulink仿真相关控制算法、优化算法相关帮助代做，原理讲解 985计算机硕士仿真模型 matlab 算法开发语言
Matlab/simulink仿真相关控制算法、优化算法相关帮助代做，原理讲解：1.优化算法相关：蚁群优化算法，遗传优化算法等2.控制器相关：ADRC控制，鲁棒控制，神经网络控制，MPC等3.神经网络相关：BP神经网络，RBF神经网络，LSTM神经网络等文章目录1.优化算法相关蚁群优化算法（ACO）2.控制器相关ADRC控制3.神经网络相关BP神经网络1.构建光伏系统模型1.1光伏电池模型1.2控
RabbitMQ 与 Kafka：消息中间件的终极对比与选型指南海上彼尚 node.js rabbitmq kafka 分布式 node.js
引言在分布式系统架构中，消息中间件是异步通信的核心组件。RabbitMQ和Kafka作为两大主流技术，常被开发者拿来比较。本文深入解析两者的设计哲学、性能差异和典型场景，助你做出精准技术选型。目录引言一、核心设计差异1.定位与数据模型二、性能与架构对比1.吞吐量与延迟2.集群与扩展三、功能特性对决1.消息可靠性2.消息路由四、典型场景与选型决策1.优先选择Kafka的场景2.优先选择RabbitM
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
没有好的学历，Java开发未来的路应该怎么走？全干程序员demo 技术热文 java 开发语言
没有好的学历，Java开发未来的路应该怎么走？在当今数字化时代，技术发展日新月异，大模型应用、鸿蒙系统等新兴技术领域正在蓬勃发展，为Java开发者带来了新的机遇和挑战。即使没有高学历，Java开发者依然可以通过以下路径在这些新兴领域找到自己的发展方向，实现职业突破。一、拥抱新兴技术，拓宽技术边界（一）大模型应用：从开发到优化大模型技术正在重塑软件开发的各个环节。对于Java开发者来说，可以从以下几
DeepSeek带来服务器与显卡需求激增的核心逻辑 DeepSeek+NAS 人工智能服务器运维网络安全计算机网络
随着DeepSeek等开源AI模型的普及，个人开发者和小型企业正加速构建私有化AI服务器，以处理敏感数据和定制化任务。这种趋势不仅重构了算力需求的结构，更推动服务器和显卡市场进入新一轮增长周期。以下从技术迭代、行业需求、市场格局三个维度展开论述。一、私有化部署：从数据安全到算力自主的核心驱动力数据隐私与合规性需求公共AI平台的数据泄露风险促使企业选择本地化部署。例如，医疗机构的患者数据、金融企业的
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
cherry-studio - 多模型支持的跨平台 AI 桌面助手小众AI AI开源人工智能 AI编程
GitHub：https://github.com/CherryHQ/cherry-studio更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI一款支持多种大语言模型服务的跨平台桌面客户端，兼容Windows、Linux和macOS系统。它支持主流云端模型（如OpenAI、Anthropic等）以及本地模型（如Ollama、LMStudio），能够满足文本生成、
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
OWL - 优化劳动力学习的通用智能体小众AI AI开源学习人工智能 AI编程
GitHub：https://github.com/camel-ai/owl更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AIOWL是一个前沿的多智能体协作框架，推动任务自动化的边界，构建在CAMEL-AIFramework。愿景是彻底变革AI智能体协作解决现实任务的方式。通过利用动态智能体交互，OWL实现了跨多领域更自然、高效且稳健的任务自动化。OWL在GAIA
什么是MCP？看不懂你打我 X.Cristiano 深度学习 MCP
什么是MCP？MCP是一种协议，它实现了大模型资源调用的标准化。千百年来，随着人类社会的发展，标准化的进程不断推进。大模型与外部资源的对接同样需要标准化，MCP正是为此而生！接下来的文字，或许，将帮助你奶奶明白MCP对于她意味着什么。2011年，微信发布。想象一下，你奶奶刚开始用微信。那时，还没有小程序。她的体验或许是这样的：第一个月，她惊喜地发现微信能订电影票了！再过一个月，她发现微信又能约出租
【AI大模型应用开发】RAG-Fusion框架：忘掉 RAG，未来是 RAG-Fusion 同学小张大模型人工智能笔记 chatgpt agi embedding RAG prompt
大家好，我是同学小张，+v:jasper_8017一起交流，持续学习C++进阶、OpenGL、WebGL知识和AI大模型应用实战案例，持续分享，欢迎大家点赞+关注，共同学习和进步。RAG目前很火，但是也有一些不足的地方。有不足就有改进方法。本文我们来看一个方法：RAG-Fusion，理解其原理，并看一下其实现源码。文章目录0.RAG的不足1.RAG-Fusion原理概述2.步骤拆解与代码示例2.1
网络编程--服务器双客户端聊天疾跑哥布林升级版 java 算法开发语言
写一个服务器和客户端运行服务器和2个客户端，实现聊天功能客户端1和客户端2进行聊天，客户端1将聊天数据发送给服务器，服务器将聊天数据转发给客户端2要求：服务器使用select模型实现，客户端1使用poll模型实现，客户端2使用多线程实现服务器：#include//将client存入数组arr中的最后一个位置上，存完之后，arr数组的长度记得自增voidinsert_client(intarr[],
rag-给一篇几百页的pdf，如何从中找到关键信息并汇总出关系图蒸土豆的技术细节人工智能
小思考对pdf肯定要做模糊chunk，能用模型切分就用模型切分，不能用模型就用规则，规则要尽可能保存连续文本，特殊数据格式（图、表格）必须完整保存，必须能被捕捉到。这些独立的表格or图数据，也要单独做embedding，以其中的title和行列title信息作embedding材料。也不能忘了传统搜索方法，基于搜索的、基于传统词频的、基于关键字的。。。假设已经找到了信息所在的目标，如果它是个表格，
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要