AIGC人工智残

使用toad库进行机器学习评分卡全流程

1 加载数据

导入模块

import pandas as pd
from sklearn.metrics import roc_auc_score,roc_curve,auc
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import numpy as np
import math
import xgboost as xgb
import toad
from toad.plot import bin_plot, badrate_plot
from matplotlib import pyplot as plt
from sklearn.preprocessing import StandardScaler
from toad.metrics import KS, F1, AUC
from toad.scorecard import ScoreCard

加载数据

 # 加载数据
df = pd.read_csv('scorecard.txt')
print(df.info())
df.head()

df.describe()

数据划分

feature_list = list(df.columns)
feature_drop = ['bad_ind','uid','samp_type']
for lt in feature_drop:
    feature_list.remove(lt)
df_dev = df[df['samp_type']=='dev']
df_val = df[df['samp_type']=='val']
df_off = df[df['samp_type']=='off']
print(feature_list)
print('dev',df_dev.shape)
print('val',df_val.shape)
print('off',df_off.shape)

简单数据分析

toad.detector.detect(df)

toad库能够同时处理数值型数据和分类型数据。由于没有缺失值，我们不用进行数据填充。

2 特征筛选

使用缺失率、IV和相关系数进行特征筛选。

# 根据缺失值、IV和相关系数进行特征筛选
dev_slt, drop_slt = toad.selection.select(df_dev, df_dev['bad_ind'], 
                                          empty=0.7, 
                                          iv=0.03, 
                                          corr=0.7, 
                                          return_drop=True, 
                                          exclude=feature_drop)
print('keep:', dev_slt.shape,';drop empty:',drop_slt['empty'].shape,';drop iv:',drop_slt['iv'].shape,';drop_corr:',drop_slt['corr'].shape)

keep: (65304, 12) ;drop empty: (0,) ;drop iv: (1,) ;drop_corr: (0,)

3 卡方分箱

使用toad库，能够对所有特征切分节点，然后进行分箱

# 使用卡方分箱
# 使用卡方分箱
cmb = toad.transform.Combiner()
cmb.fit(dev_slt, 
        dev_slt['bad_ind'], 
        method='chi', 
        min_samples=0.05, 
        exclude=feature_drop)
bins = cmb.export()
print(bins)

{‘td_score’: [0.7989831262724624], ‘jxl_score’: [0.4197048501965005], ‘mj_score’: [0.3615303943747963], ‘zzc_score’: [0.4469861520889339], ‘zcx_score’: [0.7007847486465795], ‘person_info’: [-0.2610139784946237, -0.1286774193548387, -0.0537175627240143, 0.013863440860215, 0.0626602150537634, 0.078853046594982], ‘finance_info’: [0.0476190476190476], ‘credit_info’: [0.02, 0.04, 0.11], ‘act_info’: [0.1153846153846154, 0.141025641025641, 0.1666666666666666, 0.2051282051282051, 0.2692307692307692, 0.358974358974359, 0.3974358974358974, 0.5256410256410257]}

调整分箱

绘制Bivar图，观察该特征分享后是否单调性，不满足单调性需要调整分箱。

# 绘制bivar图，调整分箱
# 根据节点设置分箱
dev_slt2 = cmb.transform(dev_slt)
val2 = cmb.transform(df_val[dev_slt.columns])
off2 = cmb.transform(df_off[dev_slt.columns])

# 观察分箱后的图像-act_info
bin_plot(dev_slt2, x='act_info', target='bad_ind')
bin_plot(val2, x='act_info', target='bad_ind')
bin_plot(off2, x='act_info', target='bad_ind')

开发样本

测试样本

验证样本

我们能看到前3箱出现上下波动，与整体的单调递减趋势不符，所以进行分箱合并。

# 没有呈现单调性，需要进行合并
bins['act_info']

[0.1153846153846154,
0.141025641025641,
0.1666666666666666,
0.2051282051282051,
0.2692307692307692,
0.358974358974359,
0.3974358974358974,
0.5256410256410257]

将其调整为3个分箱

adj_bins = {'act_info':[0.1666666666666666,0.358974358974359]}
cmb.set_rules(adj_bins)

dev_slt3 = cmb.transform(dev_slt)
val3 = cmb.transform(df_val[dev_slt.columns])
off3 = cmb.transform(df_off[dev_slt.columns])

# 观察分箱后的图像
bin_plot(dev_slt3, x='act_info', target='bad_ind')
bin_plot(val3, x='act_info', target='bad_ind')
bin_plot(off3, x='act_info', target='bad_ind')

开发样本

测试样本

验证样本

查看负样本占比关联图

# 绘制负样本占比关联图
data = pd.concat([dev_slt3, val3, off3], join='inner')
badrate_plot(data, x='samp_type', target='bad_ind', by='act_info')

其他特征分箱

person_info特征分箱

bins['person_info']

[-0.2610139784946237,
-0.1286774193548387,
-0.0537175627240143,
0.013863440860215,
0.0626602150537634,
0.078853046594982]

adj_bins = {'person_info':[-0.2610139784946237,-0.1286774193548387,-0.0537175627240143,0.078853046594982]}
cmb.set_rules(adj_bins)

dev_slt3 = cmb.transform(dev_slt)
val3 = cmb.transform(df_val[dev_slt.columns])
off3 = cmb.transform(df_off[dev_slt.columns])

data = pd.concat([dev_slt3, val3, off3], join='inner')
badrate_plot(data, x='samp_type', target='bad_ind', by='person_info')
# 观察分箱后的图像
bin_plot(dev_slt3, x='person_info', target='bad_ind')
bin_plot(val3, x='person_info', target='bad_ind')
bin_plot(off3, x='person_info', target='bad_ind')
bins['person_info']

负样本占比关联图

开发样本

测试样本

验证样本

credit_info特征

# credit_info
badrate_plot(data, x='samp_type', target='bad_ind', by='credit_info')

# 观察分箱后的图像
bin_plot(dev_slt3, x='credit_info', target='bad_ind')
bin_plot(val3, x='credit_info', target='bad_ind')
bin_plot(off3, x='credit_info', target='bad_ind')
bins['credit_info']

负样本占比

开发样本

测试样本

验证样本

其他特征分箱分为两个，所以不需要单独看。

4 WOE编码，并验证IV

# WOE编码，验证IV
woet = toad.transform.WOETransformer()
dev_woe = woet.fit_transform(dev_slt3, dev_slt3['bad_ind'], exclude=feature_drop)
val_woe = woet.transform(val3[dev_slt3.columns])
off_woe = woet.transform(off3[dev_slt3.columns])
data_woe = pd.concat([dev_woe, val_woe,off_woe])
# 计算PSI
psi_df = toad.metrics.PSI(dev_woe,val_woe).sort_values(0)
psi_df = psi_df.reset_index()
psi_df = psi_df.rename(columns={'index':'feature', 0:'psi'})
psi_df

一般删除psi大于0.1的特征，但我们这里调整为0.13。

psi_013 = list(psi_df[psi_df.psi<0.13].feature)
# psi_013.extend(feature_drop)
data_psi = data_woe[psi_013]
dev_woe_psi = dev_woe[psi_013]
val_woe_psi = val_woe[psi_013]
off_woe_psi = off_woe[psi_013]
print(data_psi.shape)

(95806, 11)

由于卡方分箱后部分变量的IV降低，且整体相关程度增大，需要再次筛选特征。

dev_woe_psi2,drop_lst = toad.selection.select(dev_woe_psi, 
                                              dev_woe_psi['bad_ind'], 
                                              empty=0.6, 
                                              iv=0.001, 
                                              corr=0.5, 
                                              return_drop=True, 
                                              exclude=feature_drop)
print('keep:',dev_woe_psi2.shape,';drop empty:',drop_lst['empty'].shape,';drop iv:',drop_lst['iv'].shape,';drop corr:',drop_lst['corr'].shape)

keep: (65304, 7) ;drop empty: (0,) ;drop iv: (4,) ;drop corr: (0,)

5 再次特征筛选

使用逐步回归进行特征筛选，这里为线性回归模型，并选择KS作为评价指标。

# 特征筛选，使用逐步回归法进行筛选
dev_woe_psi_stp = toad.selection.stepwise(dev_woe_psi2,
                                          dev_woe_psi2['bad_ind'],
                                          exclude=feature_drop,
                                          direction='both',
                                          criterion='ks',
                                          estimator='ols',
                                          intercept=False)
val_woe_psi_stp = val_woe_psi[dev_woe_psi_stp.columns]
off_woe_psi_stp = off_woe_psi[dev_woe_psi_stp.columns]
data_woe_psi_std = pd.concat([dev_woe_psi_stp, val_woe_psi_stp, off_woe_psi_stp])
print(data_woe_psi_std.shape)
print(data_woe_psi_std.columns)

(95806, 6)
Index([‘uid’, ‘samp_type’, ‘bad_ind’, ‘credit_info’, ‘act_info’,
‘person_info’],
dtype=‘object’)

6 模型训练

定义逻辑回归模型和XGBoost模型的函数

# 进行模型训练
def lr_model(x,y,valx,valy,offx,offy,c):
    model = LogisticRegression(C=c, class_weight='balanced')
    model.fit(x,y)
    
    # dev
    y_pred = model.predict_proba(x)[:,1]
    fpr_dev, tpr_dev, _ = roc_curve(y,y_pred)
    dev_ks = abs(fpr_dev-tpr_dev).max()
    print('dev_ks:',dev_ks)
    
    y_pred = model.predict_proba(valx)[:,1]
    fpr_val, tpr_val, _ = roc_curve(valy,y_pred)
    val_ks = abs(fpr_val-tpr_val).max()
    print('val_ks:',val_ks)
    
    y_pred = model.predict_proba(offx)[:,1]
    fpr_off, tpr_off, _ = roc_curve(offy,y_pred)
    off_ks = abs(fpr_off-tpr_off).max()
    print('off_ks:',off_ks)
    
    plt.plot(fpr_dev, tpr_dev, label='dev')
    plt.plot(fpr_val, tpr_val, label='val')
    plt.plot(fpr_off, tpr_off, label='off')
    plt.plot([0,1],[0,1],'k--')
    plt.xlabel('False positive rate')
    plt.ylabel('True positive rate')
    plt.title('lr model ROC Curve')
    plt.legend(loc='best')
    plt.show()
    
# xgb模型
def xgb_model(x,y,valx,valy,offx,offy):
    model = xgb.XGBClassifier(learning_rate=0.05,
                              n_estimators=400,
                              max_depth=2,
                             min_child_weight = 1,
                             subsample=1,
                             nthread=-1,
                             scale_pos_weight=1,
                             random_state=1,
                             n_jobs=-1,
                             reg_lambda=300)
    model.fit(x,y)
    
    # dev
    y_pred = model.predict_proba(x)[:,1]
    fpr_dev, tpr_dev, _ = roc_curve(y,y_pred)
    dev_ks = abs(fpr_dev-tpr_dev).max()
    print('dev_ks:',dev_ks)
    
    y_pred = model.predict_proba(valx)[:,1]
    fpr_val, tpr_val, _ = roc_curve(valy,y_pred)
    val_ks = abs(fpr_val-tpr_val).max()
    print('val_ks:',val_ks)
    
    y_pred = model.predict_proba(offx)[:,1]
    fpr_off, tpr_off, _ = roc_curve(offy,y_pred)
    off_ks = abs(fpr_off-tpr_off).max()
    print('off_ks:',off_ks)
    
    plt.plot(fpr_dev, tpr_dev, label='dev')
    plt.plot(fpr_val, tpr_val, label='val')
    plt.plot(fpr_off, tpr_off, label='off')
    plt.plot([0,1],[0,1],'k--')
    plt.xlabel('False positive rate')
    plt.ylabel('True positive rate')
    plt.title('xgb model ROC Curve')
    plt.legend(loc='best')
    plt.show()

定义模型函数的使用函数，在函数中分别进行正向调用和逆向调用，验证模型的效果上限。如逆向模型训练集KS值明显小于正向模型训练集KS值，说明当前时间外样本分布与开发样本差异较大，需要重新划分样本集。

start_train(data_woe_psi_std,target='bad_ind', exclude=feature_drop)

XGBoost的效果没有好于逻辑回归模型，因此特征不需要进行再组合；
反向lr模型的结果没有显著好于正向调用的结果，因此该模型在当前特征空间下没有优化的空间；
lr正向训练和反向训练的ks值在5%以内，所以不需要调整时间稳定性较差的变量。
计算训练集、测试集和验证集的ks、F1和auc值

7 计算指标评估模型，生成模型报告

 # 分别计算ks，F1和auc值
target = 'bad_ind'
lt = list(data_woe_psi_std.columns)
for i in feature_drop:
    lt.remove(i)
    
devv = data_woe_psi_std[data_woe_psi_std['samp_type']=='dev']
vall = data_woe_psi_std[data_woe_psi_std['samp_type']=='val']
offf = data_woe_psi_std[data_woe_psi_std['samp_type']=='off']
x,y=devv[lt], devv[target]
valx,valy = vall[lt],vall[target]
offx,offy = offf[lt], offf[target]
lr = LogisticRegression()
lr.fit(x,y)

prob_dev = lr.predict_proba(x)[:,1]
print('训练集')
print('F1:',F1(prob_dev,y))
print('KS:',KS(prob_dev,y))
print('AUC:',AUC(prob_dev,y))

prob_val = lr.predict_proba(valx)[:,1]
print('测试集')
print('F1:',F1(prob_val,valy))
print('KS:',KS(prob_val,valy))
print('AUC:',AUC(prob_val,valy))

prob_off = lr.predict_proba(offx)[:,1]
print('验证集')
print('F1:',F1(prob_off,offy))
print('KS:',KS(prob_off,offy))
print('AUC:',AUC(prob_off,offy))

# 验证集的模型PSI和特征PSI
print('模型PSI：', toad.metrics.PSI(prob_dev,prob_off))
print('特征PSI：\n', toad.metrics.PSI(x,offx).sort_values(0))

训练集
F1: 0.02962459026532253
KS: 0.40665138719594446
AUC: 0.7683462756870743
测试集
F1: 0.03395860284605433
KS: 0.3709553758048945
AUC: 0.723771920780572
验证集
F1: 0
KS: 0.38288372897789186
AUC: 0.7447410631197128
模型PSI： 0.3372146799079187
特征PSI：
credit_info 0.098585
act_info 0.124820
person_info 0.127210
dtype: float64

生成验证集的ks报告

toad.metrics.KS_bucket(prob_off, offy, bucket=15, method='quantile')

8 生成评分卡

# 用toad生成评分卡
card = ScoreCard(combiner=cmb,
                transer=woet, C=0.1,
                class_weight='balanced',
                base_score=600,
                base_odds=35,
                pdo=60,
                rate=2)
card.fit(x,y)
final_card = card.export(to_frame=True)
final_card

对训练集、测试集和验证集应用评分卡，预测用户的分数。这里要注意要传入原始数据，不要传入woe编码转化后和分箱后的数据。

# 评分卡进行预测
df_dev['score'] = card.predict(df_dev)
df_val['score'] = card.predict(df_val)
df_off['score'] = card.predict(df_off)

plt.hist(df_dev['score'], label = 'dev',color='blue', bins = 10)
plt.legend()

plt.hist(df_val['score'], label = 'val',color='green', bins = 10)
plt.legend()

plt.hist(df_off['score'], label = 'off',color='orange', bins = 10)
plt.legend()

三组评分数据在一个图中

plt.hist(df_dev['score'], label = 'dev',color='blue', bins = 10)
plt.hist(df_off['score'], label = 'off',color='orange', bins = 10)
plt.hist(df_val['score'], label = 'val',color='green', bins = 10)
plt.legend()

阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
鸿蒙开发：资讯项目实战之项目框架设计
前言本项目API>=13写了那么多的文章，总感觉缺少点什么，沉下心来细细一想，原来是没有把相关知识应用于实战，对于我们这些开发过项目，有过项目经验的人来说，项目开发小菜一点，但是对于刚接触鸿蒙的开发者而言，确实需要一个从0到1的项目进行磨炼一下，授人以鱼不如授人以渔，说干就干，那么接下来的一段时间，我会时不时的进行穿插项目实战的文章，当然了其他的技术文章也会不间断更新。关于项目实战，选来选去，最终
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
【第15章】亿级电商平台订单系统-高可用架构设计 cherry5230 亿级流量架构设计与落地系统架构分布式架构中间件
1-1本章导学课程概述核心内容：订单系统高可用架构设计项目背景：年交易额200亿的B2B电商平台订单系统本章学习路径高可用概念解析设计原则学习七大架构设计方法论项目实战应用一、高可用核心概念定义与价值解析系统可靠性标准指标二、设计原则体系冗余设计故障自动转移服务降级策略监控预警机制三、七大高可用设计方法论<
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
提示词编程语言设计艺术探索 AI天才研究院计算 AI人工智能与大数据 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《提示词编程语言设计艺术探索》关键词：提示词编程语言，设计艺术，编程语言设计，核心算法，实例分析，项目实战摘要：本文旨在深入探讨提示词编程语言的设计艺术，从基础概念到核心算法，再到实际应用和未来趋势，全面解析这一领域的关键技术和设计理念。通过具体的实例分析和项目实战，帮助读者更好地理解和掌握提示词编程语言的设计与实现。引言与概述1.1提示词编程语言的背景和重要性提示词编程语言（Prompt-Bas
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name