宇宙高能量者

AI训练营金融风控—06学习赛：贷款违约预测打卡

本学习笔记为阿里金融风控训练营的学习内容，学习链接为：AI训练营金融风控-阿里云天池

我的完整笔记为：AI训练营金融风控—06学习赛：贷款违约预测打卡_天池notebook-阿里云天池

回顾：

AI训练营金融风控—01赛题理解打卡_宇宙高能量者的博客-CSDN博客

AI训练营金融风控—02EDA探索性数据分析打卡_宇宙高能量者的博客-CSDN博客

AI训练营金融风控—03特征工程打卡_宇宙高能量者的博客-CSDN博客

AI训练营金融风控—04建模与调参打卡_宇宙高能量者的博客-CSDN博客

AI训练营金融风控—05模型融合打卡_宇宙高能量者的博客-CSDN博客

一、学习知识点概要

赛题以预测用户贷款是否违约为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

评价方法为AUC评估模型效果（越大越好）。

二、学习内容

EDA探索性数据分析
特征工程
建模与调参
模型融合
学习赛：贷款违约预测

三、学习问题与解答

1. 引入包

import pandas as pd
import numpy as np
import warnings
import os
import seaborn as sns
import matplotlib.pyplot as plt
"""
sns 相关设置
@return:
"""
# 声明使用 Seaborn 样式
sns.set()
# 有五种seaborn的绘图风格，它们分别是：darkgrid, whitegrid, dark, white, ticks。默认的主题是darkgrid。
sns.set_style("whitegrid")
# 有四个预置的环境，按大小从小到大排列分别为：paper, notebook, talk, poster。其中，notebook是默认的。
sns.set_context('talk')
# 中文字体设置-黑体
plt.rcParams['font.sans-serif'] = ['SimHei']
# 解决保存图像是负号'-'显示为方块的问题
plt.rcParams['axes.unicode_minus'] = False
# 解决Seaborn中文显示问题并调整字体大小
sns.set(font='SimHei')

import pandas as pd
import os
import gc
import lightgbm as lgb
import xgboost as xgb
from catboost import CatBoostRegressor
from sklearn.linear_model import SGDRegressor, LinearRegression, Ridge
from sklearn.preprocessing import MinMaxScaler
import math
import numpy as np
from tqdm import tqdm
from sklearn.model_selection import StratifiedKFold, KFold
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, log_loss
import matplotlib.pyplot as plt
import time
import warnings
warnings.filterwarnings('ignore')

2. 读取数据

train = pd.read_csv('http://tianchi-media.oss-cn-beijing.aliyuncs.com/dragonball/FRC/data_set/train.csv')
testA = pd.read_csv('http://tianchi-media.oss-cn-beijing.aliyuncs.com/dragonball/FRC/data_set/testA.csv')

print('Train data shape:',train.shape)
print('TestA data shape:',testA.shape)

train.head(2)

3. 数据探索

# 有缺失值的特征
print(f'There are {train.isnull().any().sum()} columns in train dataset with missing values.')

# 缺失值大于50%的特征
have_null_fea_dict = (train.isnull().sum()/len(train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
    if value > 0.5:
        fea_null_moreThanHalf[key] = value
fea_null_moreThanHalf


# nan可视化
missing = train.isnull().sum()/len(train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()


#过滤数值型类别特征
def get_numerical_serial_fea(data,feas):
    numerical_serial_fea = []
    numerical_noserial_fea = []
    for fea in feas:
        temp = data[fea].nunique()
        if temp <= 10:
            numerical_noserial_fea.append(fea)
            continue
        numerical_serial_fea.append(fea)
    return numerical_serial_fea, numerical_noserial_fea

numerical_fea = list(train.select_dtypes(exclude=['object']).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(train.columns)))
label = 'isDefault'
numerical_fea.remove(label)

numerical_serial_fea, numerical_noserial_fea = get_numerical_serial_fea(train,numerical_fea)

print("数值种类大于10的数值型特征", len(numerical_serial_fea), numerical_serial_fea, '\n')
print("数值种类小于等于10的数值型特征", len(numerical_noserial_fea), numerical_noserial_fea, '\n')
print("类别型特征", len(category_fea), category_fea, '\n')

4. 数据预处理

# 特征交互
for col in ['grade', 'subGrade']: 
    temp_dict = train.groupby([col])['isDefault'].agg(['mean']).reset_index().rename(columns={'mean': col + '_target_mean'})
    temp_dict.index = temp_dict[col].values
    temp_dict = temp_dict[col + '_target_mean'].to_dict()

    train[col + '_target_mean'] = train[col].map(temp_dict)
    testA[col + '_target_mean'] = testA[col].map(temp_dict)
    
# 其他衍生变量 mean 和 std
for df in [train, testA]:
    for item in ['n0','n1','n2','n2.1','n4','n5','n6','n7','n8','n9','n10','n11','n12','n13','n14']:
        df['grade_to_mean_' + item] = df['grade'] / df.groupby([item])['grade'].transform('mean')
        df['grade_to_std_' + item] = df['grade'] / df.groupby([item])['grade'].transform('std')


data = pd.concat([train, testA], axis=0, ignore_index=True)
print(data.shape)


# reduce_mem_usage 函数通过调整数据类型，帮助我们减少数据在内存中占用的空间
def reduce_mem_usage(df):
    start_mem = df.memory_usage().sum() 
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
        else:
            df[col] = df[col].astype('category')

    end_mem = df.memory_usage().sum() 
    print('Memory usage after optimization is: {:.2f} MB'.format(end_mem))
    print('Decreased by {:.1f}%'.format(100 * (start_mem - end_mem) / start_mem))
    
    return df


# 读取数据
data = reduce_mem_usage(data)


# 首先对employmentLength进行转换到数值


data['employmentLength'].replace(to_replace='10+ years', value='10 years', inplace=True)
data['employmentLength'].replace('< 1 year', '0 years', inplace=True)

def employmentLength_to_int(s):
    if pd.isnull(s):
        return s
    else:
        return np.int8(s.split()[0])
    
data['employmentLength'] = data['employmentLength'].apply(employmentLength_to_int)
data['employmentLength'].value_counts(dropna=False).sort_index()


# 对earliesCreditLine进行预处理

print(data['earliesCreditLine'].sample(5))
data['earliesCreditLine'] = data['earliesCreditLine'].apply(lambda s: int(s[-4:]))
data['earliesCreditLine'].describe()

# 类型数在2之上，又不是高维稀疏的
data = pd.get_dummies(data, columns=['grade', 'subGrade', 'homeOwnership', 
                                     'verificationStatus', 'purpose', 'regionCode'], 
                      drop_first=True)

# 高维类别特征需要进行转换
for f in ['employmentTitle', 'postCode', 'title']:
    data[f+'_cnts'] = data.groupby([f])['id'].transform('count')
    data[f+'_rank'] = data.groupby([f])['id'].rank(ascending=False).astype(int)
    del data[f]

5. 训练数据/测试数据准备

features = [f for f in data.columns if f not in ['id','issueDate','isDefault']]

train = data[data.isDefault.notnull()].reset_index(drop=True)
test = data[data.isDefault.isnull()].reset_index(drop=True)

x_train = train[features]
x_test = test[features]

y_train = train['isDefault']

6. 模型调参

# 使用5折交叉验证进行模型性能评估

import lightgbm as lgb
"""使用lightgbm 5折交叉验证进行建模预测"""
cv_scores = []
for i, (train_index, valid_index) in enumerate(kf.split(X_train, y_train)):
    print('************************************ {} ************************************'.format(str(i+1)))
    X_train_split, y_train_split, X_val, y_val = X_train.iloc[train_index], y_train[train_index], X_train.iloc[valid_index], y_train[valid_index]
    
    train_matrix = lgb.Dataset(X_train_split, label=y_train_split)
    valid_matrix = lgb.Dataset(X_val, label=y_val)

    params = {
                'boosting_type': 'gbdt',
                'objective': 'binary',
                'learning_rate': 0.1,
                'metric': 'auc',
        
                'min_child_weight': 1e-3,
                'num_leaves': 31,
                'max_depth': -1,
                'reg_lambda': 0,
                'reg_alpha': 0,
                'feature_fraction': 1,
                'bagging_fraction': 1,
                'bagging_freq': 0,
                'seed': 2020,
                'nthread': 8,
                'silent': True,
                'verbose': -1,
    }
    
    model = lgb.train(params, train_set=train_matrix, num_boost_round=20000, valid_sets=valid_matrix, verbose_eval=1000, early_stopping_rounds=200)
    val_pred = model.predict(X_val, num_iteration=model.best_iteration)
    
    cv_scores.append(roc_auc_score(y_val, val_pred))
    print(cv_scores)

print("lgb_scotrainre_list:{}".format(cv_scores))
print("lgb_score_mean:{}".format(np.mean(cv_scores)))
print("lgb_score_std:{}".format(np.std(cv_scores)))

from sklearn.model_selection import cross_val_score

# 调objective
best_obj = dict()
for obj in objective:
    model = LGBMRegressor(objective=obj)
    """预测并计算roc的相关指标"""
    score = cross_val_score(model, X_train, y_train, cv=5, scoring='roc_auc').mean()
    best_obj[obj] = score
    
# num_leaves
best_leaves = dict()
for leaves in num_leaves:
    model = LGBMRegressor(objective=min(best_obj.items(), key=lambda x:x[1])[0], num_leaves=leaves)
    """预测并计算roc的相关指标"""
    score = cross_val_score(model, X_train, y_train, cv=5, scoring='roc_auc').mean()
    best_leaves[leaves] = score
    
# max_depth
best_depth = dict()
for depth in max_depth:
    model = LGBMRegressor(objective=min(best_obj.items(), key=lambda x:x[1])[0],
                          num_leaves=min(best_leaves.items(), key=lambda x:x[1])[0],
                          max_depth=depth)
    """预测并计算roc的相关指标"""
    score = cross_val_score(model, X_train, y_train, cv=5, scoring='roc_auc').mean()
    best_depth[depth] = score

"""
可依次将模型的参数通过上面的方式进行调整优化，并且通过可视化观察在每一个最优参数下模型的得分情况
"""

"""通过网格搜索确定最优参数"""
from sklearn.model_selection import GridSearchCV

def get_best_cv_params(learning_rate=0.1, n_estimators=581, num_leaves=31, max_depth=-1, bagging_fraction=1.0, 
                       feature_fraction=1.0, bagging_freq=0, min_data_in_leaf=20, min_child_weight=0.001, 
                       min_split_gain=0, reg_lambda=0, reg_alpha=0, param_grid=None):
    # 设置5折交叉验证
    cv_fold = StratifiedKFold(n_splits=5, random_state=0, shuffle=True, )
    
    model_lgb = lgb.LGBMClassifier(learning_rate=learning_rate,
                                   n_estimators=n_estimators,
                                   num_leaves=num_leaves,
                                   max_depth=max_depth,
                                   bagging_fraction=bagging_fraction,
                                   feature_fraction=feature_fraction,
                                   bagging_freq=bagging_freq,
                                   min_data_in_leaf=min_data_in_leaf,
                                   min_child_weight=min_child_weight,
                                   min_split_gain=min_split_gain,
                                   reg_lambda=reg_lambda,
                                   reg_alpha=reg_alpha,
                                   n_jobs= 8
                                  )
    grid_search = GridSearchCV(estimator=model_lgb, 
                               cv=cv_fold,
                               param_grid=param_grid,
                               scoring='roc_auc'
                              )
    grid_search.fit(X_train, y_train)

    print('模型当前最优参数为:{}'.format(grid_search.best_params_))
    print('模型当前最优得分为:{}'.format(grid_search.best_score_))

7. 模型训练

def cv_model(clf, train_x, train_y, test_x, clf_name):
    folds = 5
    seed = 2020
    kf = KFold(n_splits=folds, shuffle=True, random_state=seed)

    train = np.zeros(train_x.shape[0])
    test = np.zeros(test_x.shape[0])

    cv_scores = []

    for i, (train_index, valid_index) in enumerate(kf.split(train_x, train_y)):
        print('************************************ {} ************************************'.format(str(i+1)))
        trn_x, trn_y, val_x, val_y = train_x.iloc[train_index], train_y[train_index], train_x.iloc[valid_index], train_y[valid_index]

        if clf_name == "lgb":
            train_matrix = clf.Dataset(trn_x, label=trn_y)
            valid_matrix = clf.Dataset(val_x, label=val_y)

            params = {
                'boosting_type': 'gbdt',
                'objective': 'binary',
                'metric': 'auc',
                'min_child_weight': 5,
                'num_leaves': 2 ** 5,
                'lambda_l2': 10,
                'feature_fraction': 0.8,
                'bagging_fraction': 0.8,
                'bagging_freq': 4,
                'learning_rate': 0.1,
                'seed': 2020,
                'nthread': 28,
                'n_jobs':24,
                'silent': True,
                'verbose': -1,
            }

            model = clf.train(params, train_matrix, 50000, valid_sets=[train_matrix, valid_matrix], verbose_eval=200,early_stopping_rounds=200)
            val_pred = model.predict(val_x, num_iteration=model.best_iteration)
            test_pred = model.predict(test_x, num_iteration=model.best_iteration)
            
            # print(list(sorted(zip(features, model.feature_importance("gain")), key=lambda x: x[1], reverse=True))[:20])
                
        if clf_name == "xgb":
            train_matrix = clf.DMatrix(trn_x , label=trn_y)
            valid_matrix = clf.DMatrix(val_x , label=val_y)
            test_matrix = clf.DMatrix(test_x)
            
            params = {'booster': 'gbtree',
                      'objective': 'binary:logistic',
                      'eval_metric': 'auc',
                      'gamma': 1,
                      'min_child_weight': 1.5,
                      'max_depth': 5,
                      'lambda': 10,
                      'subsample': 0.7,
                      'colsample_bytree': 0.7,
                      'colsample_bylevel': 0.7,
                      'eta': 0.04,
                      'tree_method': 'exact',
                      'seed': 2020,
                      'nthread': 36,
                      "silent": True,
                      }
            
            watchlist = [(train_matrix, 'train'),(valid_matrix, 'eval')]
            
            model = clf.train(params, train_matrix, num_boost_round=50000, evals=watchlist, verbose_eval=200, early_stopping_rounds=200)
            val_pred  = model.predict(valid_matrix, ntree_limit=model.best_ntree_limit)
            test_pred = model.predict(test_matrix , ntree_limit=model.best_ntree_limit)
                 
        if clf_name == "cat":
            params = {'learning_rate': 0.05, 'depth': 5, 'l2_leaf_reg': 10, 'bootstrap_type': 'Bernoulli',
                      'od_type': 'Iter', 'od_wait': 50, 'random_seed': 11, 'allow_writing_files': False}
            
            model = clf(iterations=20000, **params)
            model.fit(trn_x, trn_y, eval_set=(val_x, val_y),
                      cat_features=[], use_best_model=True, verbose=500)
            
            val_pred  = model.predict(val_x)
            test_pred = model.predict(test_x)
            
        train[valid_index] = val_pred
        test = test_pred / kf.n_splits
        cv_scores.append(roc_auc_score(val_y, val_pred))
        
        print(cv_scores)
       
    print("%s_scotrainre_list:" % clf_name, cv_scores)
    print("%s_score_mean:" % clf_name, np.mean(cv_scores))
    print("%s_score_std:" % clf_name, np.std(cv_scores))
    return train, test


def lgb_model(x_train, y_train, x_test):
    lgb_train, lgb_test = cv_model(lgb, x_train, y_train, x_test, "lgb")
    return lgb_train, lgb_test

def xgb_model(x_train, y_train, x_test):
    xgb_train, xgb_test = cv_model(xgb, x_train, y_train, x_test, "xgb")
    return xgb_train, xgb_test

def cat_model(x_train, y_train, x_test):
    cat_train, cat_test = cv_model(CatBoostRegressor, x_train, y_train, x_test, "cat") 
    return cat_train, cat_test

lgb_train, lgb_test = lgb_model(x_train, y_train, x_test)
xgb_train, xgb_test = xgb_model(x_train, y_train, x_test)
cat_train, cat_test = cat_model(x_train, y_train, x_test)

rh_test = lgb_test*0.5 + xgb_test*0.5
testA['isDefault'] = rh_test
testA[['id','isDefault']].to_csv('test_sub.csv', index=False)

四、学习思考与总结

得分要点：特征构造

【面试系列】C++ 高频面试题野老杂谈全网最全IT公司面试宝典 c++面试编程语言
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录C++初级面试题及其详细解答1.解释C
十分钟聊明白DDD领域驱动设计 roykingw java java 架构 DDD 领域驱动
文章目录一、什么是领域？二、领域如何驱动设计？三、如何发挥DDD的价值最后十分钟聊明白DDD领域驱动设计--楼兰关于DDD，大部分朋友应该都听说过。全称DomainDrivenDesign，翻译过来就是领域驱动设计。这个神秘的架构思想，虽然远没有SpringBoot这类框架这么名声在外，但是却经常时不时冒出来，牵动一下大家的神经。美团、阿里每年的技术年会都会有关于DDD的经验分享，而另一方面，又有
Mybatis常见运行报错（持续更新...）
报错一：Causedby:org.yaml.snakeyaml.error.YAMLException:java.nio.charset.MalformedInputException:Inputlength=1解决办法：setting->Editor->FileEncodings,编码方式都选择UTF-8报错二：Cause:java.sql.SQLIntegrityConstraintViola
融云入选「创业邦·2025 中国企业全球化新势力 100 强·引领型」资讯
7月3日-4日，由创业邦主办的“2025DEMOWORLD企业开放式创新创投大会”在上海松江举行。作为全球领先的智能通信云服务商，融云凭借卓越的全球化实践和在“通信+AI”领域的创新探索，成功入选大会重磅发布的“2025中国企业全球化新势力100强·引领型”榜单。本次榜单评选采用内部调研回访+专家评委评审的模式，邀请来自峰瑞资本、嘉御资本、创世伙伴创投等头部机构的10位专家评委，根据专家评委的综合
【架构-DDD】使用领域驱动设计-互联网未来架构设计之道（一） Fun肆编程 DDD 架构系统架构 java 云计算微服务
文章已收录至https://lichong.work，转载请注明原文链接。ps：欢迎关注公众号“Fun肆编程”或添加我的私人微信交流经验简介互联网后微服务时代，软件质量是一个非常让人头疼的问题，而DDD（Domain-DrivenDesign）被认为是系统老化问题的新希望。众多互联网大厂都在积极推行DDD的落地实践。而对IT程序员，尤其对于高级职位，DDD成了一个越来越重要的技能加分项。但是DDD
SUNDAE-一种称为“光谱剪枝”的技术来优化和压缩3DGS模型 huarzail 3DGS 剪枝 3d 算法
清华大学人工智能产业研究院、伦敦帝国理工学院、北京航空航天大学、北京理工大学、中国科学院大学、香港中文大学（深圳）、中国电信人工智能研究院（TeleAI）EVOL实验室的研究人员联合推出了一种新的3D场景表示方法-SUNDAE，它通过一种称为“光谱剪枝”的技术来优化和压缩3D高斯溅射（3DGaussianSplatting，简称3DGS）模型，同时使用神经网络补偿来保持渲染质量。项目主页：SUND
FLUX.1 Kontext全景图：下一代AI图像编辑的家族革命与技术图谱 Liudef06小白 AIGC 人工智能 AIGC
FLUX.1Kontext全景图：下一代AI图像编辑的家族革命与技术图谱120亿参数流式变换器驱动，3秒完成像素级编辑，StableDiffusion原班团队打造的AI图像新范式正在重塑创意工作流。2025年夏，BlackForestLabs（黑森林实验室）向全球创意产业投下一枚技术炸弹——FLUX.1Kontext图像编辑模型家族正式亮相。这个由StableDiffusion核心创始团队打造的A
Swagger学习，常用注解和使用方式星夜漫步 Swagger Swagger Swagger使用 Swagger注解
Swagger官网地址：https://swagger.io/相关知识点（个人见解，可能是错的）：1、swaggerUI中model里面的DTO是什么？DTO，全文为DataTransferObject，即数据传输对象，博主在实习时，上手一个前后端分离的项目，感觉DTO的作用更倾向于一个数据规范，后端开发定义DTO和前端进行交互，告诉前端我需要什么数据，是什么类型的，会返回什么样的数据给你。个人觉
python+requests接口自动化测试框架实例详解教程锦都不二 python 开发语言
前段时间由于公司测试方向的转型，由原来的web页面功能测试转变成接口测试，之前大多都是手工进行，利用postman和jmeter进行的接口测试，后来，组内有人讲原先web自动化的测试框架移驾成接口的自动化框架，使用的是java语言，但对于一个学java，却在学python的我来说，觉得python比起java更简单些，所以，我决定自己写python的接口自动化测试框架，由于本人也是刚学习pytho
PromptX 架构深度解析：从 DPML 协议看 AI 工程的未来范式步子哥智能涌现人工智能架构
核心理念：人类用自然语言描述需求，AI提供专业级服务-这不是科幻，而是PromptX正在实现的现实引言：小小协议文件背后的宏大愿景当我们打开PromptX项目中的dpml.protocol.md文件时，看到的不仅仅是一个技术规范，而是对AI交互未来的深刻思考。这个看似简单的协议文件，承载着整个PromptX生态系统的核心设计哲学，堪称AI工程领域的"宪法"。今天，让我们从这个协议文件开始，深度解析
AJAX 学习凌辰揽月 javaweb学习添砖加瓦系列 ajax 学习 okhttp java javascript 前端
1.AJAX简介AJAX（AsynchronousJavaScriptAndXML）是一种用于创建交互式网页的技术，允许在不刷新页面的情况下与服务器进行通信，从而实现页面的局部更新。1.1AJAX的优点无需刷新页面：可以与服务器进行异步通信，无需重新加载整个页面。提升用户体验：页面更新更加流畅，用户操作不会被中断。减轻服务器负担：只传输必要的数据，而不是整个页面内容。1.2AJAX的缺点无浏览历史
2025年7月-9月广深地区学术会议征稿邀稿 | 2025年7-9月广州学术会议、深圳学术会议参会投稿 | 广深参会 EI 检索会议推荐 | 期待在广东与您相见，共襄学术盛举！
会议名称【点击会议名称查看详情】会议时间会议地点第四届能源与电力系统国际学术会议(ICEEPS2025)2025年7月17-19日广州第七届电子与通信，网络与计算机技术国际学术会议（ECNCT2025）2025年7月18-20日广州2025年人工智能与基础模型国际学术会议（AIFM2025）2025年7月18-20日广州第六届经济管理与大数据应用国际学术会议(ICEMBDA2025)2025年7月
JavaScript 异步函数优化：提升性能和可读性喵手前端 javascript 开发语言 ecmascript
全文目录：开篇语**前言****1.使用`async/await`替代回调函数****示例：回调地狱vs`async/await`****回调地狱示例：****使用`async/await`改写：****优化要点：****2.使用`Promise.all`和`Promise.race`提高并发性能****`Promise.all`示例：****`Promise.race`示例：****优化要点：*
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
获取文件的所在路径(windows和linux都适用) 爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ windows linux 运维
使用类路径资源方式（已测试-推荐）：//将javaSettings.cfg放在src/main/resources/config目录下StringconfigPath=IatCapacity.class.getResource("/config/javaSettings.cfg").getPath();getParam(configPath);使用相对路径：//相对于项目根目录Stringconf
黑洞加速器官方android安卓版本,www.a0qmherg.com
DomainName:A0QMHERG.COMRegistryDomainID:2477874593_DOMAIN_COM-VRSNRegistrarWHOISServer:whois.namesilo.comRegistrarURL:http://www.namesilo.comUpdatedDate:2020-01-09T05:00:47ZCreationDate:2020-01-09T04:
如何选择优质的在线培训系统 web_liyu 大数据
在互联网+快速发展的时代背景下，在线培训以其高效便捷的特点，成为众多企业的首选培训方式。市面上所广泛使用的在线培训系统大多结合了在线教学评估与传统模式，涵盖了视频、音频、动画、文档等多种形式，使得管理者能够高效地组织培训工作，而学习者则可以随时随地进行学习和参加考试，最终构建出一套完整的教学评估体系。企业如何选择在线培训系统？面对琳琅满目的在线培训系统，企业如何做出明智的选择？一个优质的在线培训系
基于流量特征分析的DDoS实时检测与缓解实战
问题场景当Web服务器突发大量SYNFlood攻击时，传统防火墙难以区分真实用户与伪造流量，导致业务中断。解决方案核心：动态流量指纹识别通过统计学习建立正常流量基线，实时拦截异常连接。#DDoS流量检测脚本（Python3+Scapy）fromscapy.allimport*fromcollectionsimportdefaultdictimporttimeTHRESHOLD=1000#每秒SYN
深入理解Spring Bean的生命周期
在Spring框架的学习中，Bean的生命周期是一个核心知识点，它贯穿了从Bean的创建到销毁的全过程。掌握Bean的生命周期，不仅能帮助我们更好地理解Spring容器的工作原理，还能在实际开发中更灵活地控制Bean的行为。本文将基于学习笔记，详细解析Bean生命周期的七个阶段，并补充关键细节和实践要点。一、Bean定义阶段：蓝图的绘制Bean定义阶段就如同建筑前的设计图纸绘制，它决定了Bean的
FastAPI 使 Python 开发的 API 更具扩展性 Python编程之道 Python人工智能与大数据 Python编程之道 fastapi python 开发语言 ai
FastAPI使Python开发的API更具扩展性关键词：FastAPI、Python、API开发、扩展性、异步编程摘要：本文围绕FastAPI如何使Python开发的API更具扩展性展开。首先介绍了FastAPI的背景知识，包括其目的、适用读者、文档结构等。接着阐述了FastAPI的核心概念、架构原理，并通过Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，结合Python源代
Kubernetes日志运维痛点及日志系统架构设计（Promtail+Loki+Grafana）
Kubernetes日志运维痛点及日志系统架构设计（Promtail+Loki+Grafana）运维痛点日志采集的可靠性与复杂性pod生命周期短、易销毁容器重启或Pod被销毁后，日志会丢失（除非已持久化或集中采集）。需要侧重于实时采集和转发，而不能依赖节点本地日志。多样化的日志来源与格式应用日志、系统日志、Kubernetes组件日志（如kubelet、kube-apiserver）、中间件日志（
linux应用编程学习 xyjdwxzxxbw linux 学习服务器
查man手册man1xx查linuxshell命令，man2xxx查API，man3xxx查库函数文件平时是存在块设备中的文件系统中的，我们把这种文件叫静态文件。当我们去open打开一个文件时，linux内核做的操作包括：内核在进程中建立了一个打开文件的数据结构，记录下我们打开的这个文件；内核在内存中申请一段内存，并且将静态文件的内容从块设备中读取到内存中特定地址管理存放（叫动态文件）。打开文件后
JavaScript条件语句啥时候都困系列 JavaScript javascript
if-else类型第一关：if-else类型functionmainJs(a){a=parseInt(a);//请在此处编写代码/**********Begin**********/if(a<60){return"unpass";}else{return"pass";}/**********End**********/}switch类型第一关：switch类型functionmainJs(a){a
AI 正在深度重构软件开发的底层逻辑和全生命周期，从技术演进、流程重构和未来趋势三个维度进行系统性分析
AI正在深度重构软件开发的底层逻辑和全生命周期，从需求分析到运维维护的每个环节都产生了范式级变革。以下从技术演进、流程重构和未来趋势三个维度进行系统性分析：一、AI重构软件开发全栈的技术图谱需求工程智能化NLP驱动的需求解析：GPT-4架构实现用户访谈转录自动转化为UML用例图，准确率达89%（微软2023内部数据）情感计算应用：基于BERT的意图识别模型可捕捉用户需求中的隐性情绪，需求变更预测准
redis学习笔记
1.在docker上安装redis之后，具体可以看我之前的docker教程一.进入docker的redis容器中#进入docker的redis容器中dockerexec-itredis/bin/bash#启动redisredis-cli#设置键setmykeyabc#取出键getmykey#删除键delmykey二，Redis数据类型字符串（string），哈希（hash），列表（list），集合
个人总结 - LangChain4j应用（1）艾露z AI java langchain ai 人工智能
个人总结-LangChain4j应用（1）github：Releases·langchain4j/langchain4j·GitHub官方文档：Introduction|LangChain4j简要介绍：LangChain4j是一个旨在简化大语言模型（LLMs）与Java应用程序集成的框架。ChatandLanguageModels：LanguageModel：最简单的聊天模型，简单的接收字符串，不
怎么用快鲸AISEO实战全攻略提升百度排名？
智能SEO实战策略智能搜索引擎优化的核心在于利用先进技术手段实现策略的动态调整与优化。快鲸AISEO正是这类工具的代表，它能够深度分析搜索引擎的规则变化与用户搜索意图的演变。通过该平台，网站运营者可以高效地执行百度搜索排名优化任务，其智能算法能实时识别并推荐高潜力关键词，同时指导内容结构的优化方向，确保内容既符合搜索算法偏好，又能精准匹配用户需求。这种动态调整能力显著提升了优化的效率与精准度。实践
py_trees实践:实现机器人循迹任务 H1_Coldfire task planning 机器人 python
书接上回的py_trees快速实践，写了一个机器人沿着拓扑路径循迹移动，最后到达目标点后，执行一个任务动作的行为树。在行为树中，增加了在每个tick检查机器人电量的逻辑。在电量低于一定阈值时，会中断当前任务并触发充电动作。这个逻辑体现了行为树响应性(Reactive)的特点，希望对学习行为树的同学有一点参考价值。下面直接给出相应的代码：#!/usr/bin/python3#coding:utf-8
算法学习笔记：10.Prim 算法——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记 Java Prim
在图论的世界里，最小生成树（MinimumSpanningTree,MST）是一个至关重要的概念，它在通信网络设计、电路布线、交通规划等领域有着广泛的应用。求解最小生成树的算法中，Prim算法以其独特的“逐步扩展”思想占据着重要地位。Prim算法的基本概念在正式介绍Prim算法之前，我们先回顾一下最小生成树的定义：对于一个具有n个顶点的带权连通图，其最小生成树是包含所有n个顶点的一棵无环子图，且该
算法学习笔记：11.冒泡排序——从原理到实战，涵盖 LeetCode 与考研 408 例题
在排序算法的大家族中，冒泡排序是最基础也最经典的算法之一。它的核心思想简单易懂，通过重复地走访待排序序列，一次比较两个相邻的元素，若它们的顺序错误就把它们交换过来，直到没有需要交换的元素为止。虽然冒泡排序的时间复杂度较高，在大规模数据排序中并不常用，但它是理解排序算法思想的绝佳入门案例，也是计算机考研408和算法学习中的基础内容。冒泡排序的基本概念冒泡排序（BubbleSort）之所以被称为“冒泡
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo