Jet4505

第28步机器学习分类实战：Catboost建模

文章目录

前言
一、Python调参
- （1）建模前的准备
- （2）Catboost的调参策略
- （3）Catboost调参演示
- - （A）先默认参数走一波
  - （B）开整Model1（SymmetricTree）
  - （C）开整Model2（Depthwise）
  - （D）开整Model3（Lossguide）
二、SPSSPRO调参（自己琢磨了哈）
总结

前言

Catboost建模~

一、Python调参

（1）建模前的准备

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
dataset = pd.read_csv('X disease code fs.csv')
X = dataset.iloc[:, 1:14].values
Y = dataset.iloc[:, 0].values

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.30, random_state = 666)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

（2）Catboost的调参策略

先复习一下参数，需要调整的参数有：
① depth：树深度，默认6，最大16。
② grow_policy：子树生长策略。可选：SymmetricTree（默认值，对称树）、Depthwise（整层生长，同xgb）、Lossguide（叶子结点生长，同lgb）。
③ min_data_in_leaf：叶子结点最小样本量。只能与Lossguide和Depthwise增长策略一起使用。
④ max_leaves：最大叶子结点数量，不建议使用大于64的值，因为它会大大减慢训练过程。只能与 Lossguide增长政策一起使用。
⑤ iterations：迭代次数，默认500。
⑥ learning_rate：学习速度，默认0.03。
⑦ l2_leaf_reg：L2正则化。
⑧ random_strength：特征分裂信息增益的扰动项，默认1，用于避免过拟合。
⑨ rsm：列采样比率，默认值1，取值（0，1]。

（3）Catboost调参演示

（A）先默认参数走一波

import catboost as cb
classifier = cb.CatBoostClassifier(eval_metric='AUC')
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
y_testprba = classifier.predict_proba(X_test)[:,1] 
y_trainpred = classifier.predict(X_train)
y_trainprba = classifier.predict_proba(X_train)[:,1]
from sklearn.metrics import confusion_matrix
cm_test = confusion_matrix(y_test, y_pred)
cm_train = confusion_matrix(y_train, y_trainpred)
print(cm_train)
print(cm_test)

虽然过拟合，但是比之前的xgb和lgb好一点：

验证集的AUC已经来到0.8693，媲美之前的任何模型了，不过训练集的AUC已经接近1.0了（0.9978），所以还是存在过拟合，继续调参看看能否改善。

（B）开整Model1（SymmetricTree）

（a）由于grow_policy选择SymmetricTree，因此min_data_in_leaf和max_leaves调整不了。因此，先调整depth试试：

import catboost as cb
param_grid=[{
             'depth': [i for i in range(6,11)],
           },
           ]
boost = cb.CatBoostClassifier(eval_metric='AUC')
from sklearn.model_selection import GridSearchCV
grid_search = GridSearchCV(boost, param_grid, n_jobs = -1, verbose = 2, cv=10)      
grid_search.fit(X_train, y_train)    
classifier = grid_search.best_estimator_  
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
y_testprba = classifier.predict_proba(X_test)[:,1] 
y_trainpred = classifier.predict(X_train)
y_trainprba = classifier.predict_proba(X_train)[:,1]
from sklearn.metrics import confusion_matrix
cm_test = confusion_matrix(y_test, y_pred)
cm_train = confusion_matrix(y_train, y_trainpred)
print(cm_train)
print(cm_test)

最优参数：depth=7
Catboost的最优参数的调取有点不同，之前介绍的两种方法找起来有点困难，因此直接输入代码：

grid_search.best_estimator_._init_params：

结果就不看了，肯定也是过拟合，毕竟没有调过拟合相关参数。

（b）然后，调整l2_leaf_reg：

param_grid=[{
             'l2_leaf_reg': [i for i in range(1,11)],   
            },
           ]
boost = cb.CatBoostClassifier(depth = 7, eval_metric='AUC')

最优参数：l2_leaf_reg=6

然后就凉凉，越调越过拟合。

（c）继续调整过拟合的参数：random_strength

param_grid=[{
             'random_strength': [i for i in range(1,11)],   
            },
           ]
boost = cb.CatBoostClassifier(depth = 7, l2_leaf_reg = 6, eval_metric='AUC')

最优参数：random_strength=7

依旧过拟合。

（d）继续调整参数rsm：

param_grid=[{
             'rsm': [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0],   
            },
           ]
boost = cb.CatBoostClassifier(depth = 7, l2_leaf_reg = 6, random_strength=7, eval_metric='AUC')

最优参数：rsm=0.3

一顿操作，还不如第一版，接下来，缩短一下迭代次数试试：

（e）learning_rate和iterations一起调整试试：

param_grid=[{
             'learning_rate': [0.03,0.06,0.08,0.1], 
             'iterations': [100,200,300,400,500,600,700,800],              
            },
           ]
boost = cb.CatBoostClassifier(depth = 7, l2_leaf_reg = 6, random_strength=7, rsm=0.3, eval_metric='AUC')

最优参数：learning_rate=0.06和iterations=300

综上，最优参数为grow_policy=‘SymmetricTree’, depth=8, min_data_in_leaf=115, l2_leaf_reg=6, rsm=0.3, random_strength=7, learning_rate=0.06, iterations=300, eval_metric=‘AUC’。

（f）最后试试Overfitting detection settings的几个参数：
① early_stopping_rounds：早停设置，默认不启用。

classifier = cb.CatBoostClassifier(grow_policy='SymmetricTree', depth=8, min_data_in_leaf=115, l2_leaf_reg=6, rsm=0.3, random_strength=7, learning_rate=0.06, iterations=300, early_stopping_rounds=200, eval_metric='AUC')
classifier.fit(X_train, y_train)

事实证明，没啥用。继续往下测试。
② od_type：过拟合检测类型，默认IncToDec。可选：IncToDec、Iter。
③ od_pval：IncToDec过拟合检测的阈值，当达到指定值时，训练将停止。要求输入验证数据集，建议取值范围[10e-10，10e-2]。默认值0，即不使用过拟合检测。
这一步呢，就是在模型拟合的时候，输入我们划分的验证集，多少有点提前漏题的感觉，这里也演示一下，大家心里有数：

classifier = cb.CatBoostClassifier(grow_policy='SymmetricTree', depth=8, min_data_in_leaf=115, l2_leaf_reg=6, rsm=0.3, random_strength=7, learning_rate=0.06, iterations=300, early_stopping_rounds=200, eval_metric='AUC')
classifier.fit(X_train, y_train,  eval_set=(X_test, y_test), plot=True)

看看结果，过拟合有所缓解：

然后，试一试调整od_type和od_pval：

classifier = cb.CatBoostClassifier(grow_policy='SymmetricTree', depth=8, min_data_in_leaf=115, l2_leaf_reg=6, rsm=0.3, random_strength=7, learning_rate=0.06, iterations=300, early_stopping_rounds=200, eval_metric='AUC', od_type='IncToDec',od_pval=0.1 )
classifier.fit(X_train, y_train,  eval_set=(X_test, y_test), plot=True)

结果没变化，接着用网格试一试od_pval用哪个取值好一些：

import catboost as cb
param_grid=[{
              'od_pval': [0.6,0.2,0.1,0.01,0.001,0.0001,0.00001,0.000001],
           },
           ]
boost = cb.CatBoostClassifier(grow_policy='SymmetricTree', depth=8, min_data_in_leaf=115, l2_leaf_reg=6, 
                              rsm=0.3, random_strength=7, learning_rate=0.06, iterations=300, early_stopping_rounds=200,
                              eval_metric='AUC')
from sklearn.model_selection import GridSearchCV
grid_search = GridSearchCV(boost, param_grid, n_jobs = -1, verbose = 2, cv=10)      
grid_search.fit(X_train, y_train, eval_set=(X_test, y_test))    
classifier = grid_search.best_estimator_

事实证明，没有变化，所以就这样吧，看看Model1的最终结果：

（C）开整Model2（Depthwise）

（a）grow_policy选择Depthwise，因此多加了一个min_data_in_leaf可调整。类似地，先调整depth试试：
depth还是等于7，依旧过拟合。
（b）调整min_data_in_leaf

param_grid=[{
             'min_data_in_leaf': range(5,200,10),
           },
           ]
boost = cb.CatBoostClassifier(grow_policy='Depthwise', depth=7, eval_metric='AUC')

min_data_in_leaf等于135，过拟合有缓解。

（c）然后，我再调整l2_leaf_reg、random_strength、learning_rate和iterations等参数，性能又回去了，所以到此为止了吧。直接看Model2的结果（我没有用验证集来调参）：

（D）开整Model3（Lossguide）

（a）grow_policy选择Lossguide，因此多加了min_data_in_leaf和max_leaves可调整。类似地，先调整depth试试：
depth还是等于8，依旧过拟合。
（b）调整min_data_in_leaf

param_grid=[{
             'min_data_in_leaf': range(5,200,10),
           },
           ]
boost = cb.CatBoostClassifier(grow_policy='Lossguide', depth=8, eval_metric='AUC')

最优参数：min_data_in_leaf=115

（c）调整num_leaves

param_grid=[{
              'num_leaves': range(5, 100, 5),
           },
           ]
boost = cb.CatBoostClassifier(grow_policy='Lossguide', 
depth=8,min_data_in_leaf=115,  eval_metric='AUC')

最优参数：num_leaves=5
效果还不错：

（d）l2_leaf_reg、random_strength、learning_rate和iterations等参数，我就不调了，预感调整以后性能又回去了，所以到此为止了吧。直接看看Model3的结果（这里我没有加入验证集进行调参）：

二、SPSSPRO调参（自己琢磨了哈）

略~

总结

根据grow_policy（子树生长策略）可以分成三种模型（Model1、Model2和Model3），其中，严格来说使用SymmetricTree（对称树）的才是原汁原味的Catboost，毕竟对称树就是它的特色之一。
从结果来做，Model1存在较大的过拟合，除非运用测试集进行调试（这个我保留意见哈），Model2和Model3引入DT的一些参数，可以较好的纠正过拟合。
多说一句，Catboost我也是刚学不久，感觉还是很多隐藏技能没学到，一家之言，供大家参考，要是有错误，欢迎指正。

你可能感兴趣的:(《100,Steps,to,Get,ML》—JET学习笔记,机器学习,分类,python,sklearn,算法)

aix下光纤卡与网卡连接状态查看及网络参数修改 .Eyes 笔记
AIX下光纤卡使用状态#fcstatfcs0FIBRECHANNELSTATISTICSREPORT:fcs0DeviceType:8GbPCIExpressDualPortFCAdapter(df1000f114108a03)(adapter/pciex/df1000f114108a0)SerialNumber:1A316003CDOptionROMVersion:027820B7ZA:U2D2
如何构建AI原生应用领域的高效SaaS架构 AI原生应用开发 AI-native 架构 ai
如何构建AI原生应用领域的高效SaaS架构关键词：AI原生应用、SaaS架构、微服务、容器化、机器学习模型部署、自动扩展、多租户隔离摘要：本文深入探讨如何构建面向AI原生应用的高效SaaS架构。我们将从基础概念出发，逐步解析AISaaS架构的核心组件、设计原则和最佳实践，并通过实际案例展示如何实现高性能、可扩展的AI服务交付平台。文章将涵盖从基础设施选择到模型部署，从多租户隔离到自动扩展的全方位技
新手了解和使用python环境下的运算符（使用notepad++） 2303_77470379 python
目录一、引言二、Python运算符的分类与使用三、在Notepad++中使用Python运算符四、案例五、总结一、引言在Python编程的世界里，运算符扮演着举足轻重的角色，它们是对数据进行操作的关键工具。从简单的数学运算，到复杂的逻辑判断，运算符贯穿于Python程序的各个角落。而Notepad++作为一款强大的文本编辑器，为我们编写和运行Python代码提供了便利的环境。接下来，让我们深入了解
python的变量和数据类型筱920 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录一、python的变量变量的命名规则二、python的数据类型五种基本数据类型：整型，浮点型，字符串型，布尔型，空型。（其中type方法是检测变量是什么类型）1，整型毋庸置疑就是整数，python中变量值为0b开头可以定义一个二进制，bin方法可以将十进制数转换成二进制。2，浮点型就是小数，即定义变量的值为小数，主要利用科学计数法
小程序学习笔记：优化商铺列表页面的下拉刷新功能 you4580 学习笔记小程序
在前端开发中，下拉刷新功能能显著提升用户体验，让用户方便地获取最新数据。今天就来和大家分享在开发商铺列表页面时，如何实现并优化下拉刷新功能，同时美化相关窗口样式。本文以微信小程序开发为例进行讲解。开启下拉刷新功能在微信小程序里，开启下拉刷新很简单。找到商铺列表页面的.json配置文件，添加enablePullDownRefresh配置节点，把它的值从默认的false改成true，就能开启下拉刷新效
推客系统小程序终极指南：从0到1构建自动裂变增长引擎，实现业绩10倍增长！ wx_ywyy6798 大数据人工智能短剧推客系统短剧系统推客小程序推客系统开发
前言：为什么传统营销越来越难做？在流量红利消失的今天，企业普遍面临三大增长困境：获客成本飙升：电商、教育等行业单客成本突破500元，ROI持续走低用户粘性差：90%的活动用户只参与一次，复购率不足15%分销效率低下：手工统计佣金、层级混乱，50%时间浪费在管理上破局关键：让用户成为你的“推广员”推客系统小程序通过“社交裂变+智能分佣”模式，已验证帮助1000+企业实现：✔️获客成本降低70%（相比
python compile error_Python errors.CompileError方法代码示例 weixin_39705850 python compile error
本文整理汇总了Python中distutils.errors.CompileError方法的典型用法代码示例。如果您正苦于以下问题：Pythonerrors.CompileError方法的具体用法？Pythonerrors.CompileError怎么用？Pythonerrors.CompileError使用的例子？那么恭喜您,这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所
linux 内核日志等级,Linux系统中日志级别详情侧颜杀最棒 linux 内核日志等级
日志信息分类1.等级由低到高：debug2.区别：debug级别最低，可以随意的使用于任何觉得有利于在调试时更详细的了解系统运行状态的东东；info重要，输出信息：用来反馈系统的当前状态给最终用户的；后三个，警告、错误、严重错误，这三者应该都在系统运行时检测到了一个不正常的状态。warn,可修复，系统可继续运行下去；Error,可修复性，但无法确定系统会正常的工作下去;Fatal,相当严重，可以肯
【Actix Web】构建高性能 Rust API：Actix Web 最佳实践与进阶指南 LCG元前端前端 rust 开发语言
目录一、高性能API架构设计1.1系统架构图1.2核心组件二、项目初始化与配置2.1创建项目2.2添加依赖(Cargo.toml)2.3配置文件(config/default.toml)三、核心模块实现3.1应用状态管理(src/state.rs)3.2数据模型定义(src/models.rs)四、认证与授权系统4.1JWT认证流程4.2JWT工具函数(src/utils/jwt.rs)4.3认证
Python和MATLAB数字信号波形和模型模拟
要点Python和MATLAB实现以下波形和模型模拟以给定采样率模拟正弦信号，生成给定参数的方波信号，生成给定参数隔离矩形脉冲，生成并绘制线性调频信号。快速傅里叶变换结果释义：复数离散傅里叶变换、频率仓和快速傅里叶变换移位，逆快速傅里叶变换移位，数值NumPy对比观察FFT移位和逆FFT移位。离散时域表示：余弦信号生成取样，使用FFT频域信号表示，使用FFT计算离散傅里叶变换DFT，获得幅度谱并提
Godot Python 项目常见问题解决方案
GodotPython项目常见问题解决方案godot-pythonPythonsupportforGodot项目地址:https://gitcode.com/gh_mirrors/go/godot-python1.项目基础介绍和主要编程语言GodotPython是一个开源项目，旨在为Godot游戏引擎提供Python语言支持。这个项目允许开发者使用Python语言来编写Godot游戏脚本，从而充分
error: F:\car\dataset\cocoapi-master\pycocotools\_mask.pyx canpian7 python模块安装 cocos
问题描述error:F:\car\dataset\cocoapi-master\pycocotools_mask.pyx安装cocoapi时出现报错代码路径cocoapi当执行pythonPythonAPI\setup.pybuild_extinstall报错runningbuild_extcythoningpycocotools/_mask.pyxtopycocotools_mask.cerro
2025年6月微信推客小程序系统源码开发指南：低成本构建社交裂变引擎，独立部署源码交付 v：HeDian-DuanJu 微信小程序
在社交电商蓬勃发展的今天，微信推客小程序成为商家快速引流、裂变获客的利器。如果你正计划开发这样一套系统，基于成熟源码进行二次开发是高效且经济的选择。下面分享核心开发思路与功能模块：一、系统核心功能模块1.用户裂变体系-多级分销：灵活配置1-3级分销关系（符合微信规范），通过parent_id字段记录上下级关系树-专属推广码：自动生成用户小程序码（调用wxacode.getUnlimited接口），
小程序学习笔记：导航、刷新、加载、生命周期
在小程序开发的领域中，掌握视图与逻辑相关的技能是打造功能完备、用户体验良好应用的关键。今天，咱们就来深入梳理一下小程序视图与逻辑的学习要点，并结合代码示例，让大家有更直观的理解。一、页面之间的导航跳转在小程序里实现页面跳转主要有声明式导航和编程式导航这两种方式。声明式导航：借助navigator组件就能轻松实现。假设现在有两个页面，分别是index页面和detail页面，想要从index页面跳转到
Rust标量、复合类型与自定义类型、第三方并发结构穗余 Rust rust 数据结构 python
以下是Rust中标量类型、对象类型（含结构体、复合类型、堆分配类型）以及常用第三方并发数据结构的完整分类、示例和区别对比，帮助你系统掌握它们的本质异同：一、标量类型（ScalarTypes，存储于栈上）标量是最基本的值类型，固定大小，存储在栈上，实现Copy，性能极高。类别示例类型示例代码特性说明整数i8i128,u8u128,isize,usizeletx:u32=42;固定大小，快速拷贝浮点数
Python时域信号特征提取技术要点路怜涯
本文还有配套的精品资源，点击获取简介：在机器学习领域，时域信号特征提取是数据预处理的关键环节，特别是对于时间序列数据。时域信号特征包括信号的基本特性量，如平均值、中值、峰值、谷值、峰谷差、方差、标准差、极值点、峭度与峰度、自相关函数、滑动窗口统计、傅立叶变换和小波分析等。使用Python中的NumPy、Pandas和SciPy库可以帮助我们计算这些特征，并为机器学习模型训练准备数据。本文将介绍如何
准确--如何在 Windows 上安装并管理多个 Python 环境 ascarl2010 Python windows python 开发语言
使用虚拟环境隔离项目概述核心：手动安装多个Python版本（2.7.18和3.10.11）。使用py启动器（Windows自带的Python版本管理工具）选择特定版本运行Python。使用virtualenv工具为每个项目创建独立的虚拟环境，隔离不同Python版本和依赖包。这种方法简单直接，适合需要在不同项目中使用不同Python版本的场景，且无需复杂的工具如pyenv-win。虚拟环境确保每个
从零开始：网页设计与制作基础全攻略
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、HTML——网页大厦的基石二、CSS——网页的美妆大师三、过渡和动画——让网页动起来四、原型设计与开发工具——设计师的左膀右臂五、案例分析——排雷避坑六、完整项目开发流程——步步为营前言在网页设计与制作的奇妙世界里，每一个页面都是设计师思想与技术碰撞的结晶。今天，咱们就来唠唠这其中的门道，不管你是初出茅庐的新手，还是想
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
python中的下划线牧野渔樵 python 开发语言
本文介绍了Python中单下划线和双下划线的5种表现形式，以及一些使用方法。其中有一些含义仅仅是依照约定，被视作是对程序员的提示，而有一些含义是由Python解释器严格执行的。单前导下划线：_var单末尾下划线：var_双前导下划线：__var双前导和末尾下划线：__var__单下划线：_1.单前导下划线_var下划线前缀的含义是告知其他程序员：以单个下划线开头的变量或方法仅供内部使用。该约定在P
python以下划线开头的变量名含义 weixin_30359021 python
Python核心风格：避免用下划线作为变量名的开始。因为下划线对解释器有特殊的意义，而且是内建标识符所使用的符号，我们建议程序员避免用下划线作为变量名的开始。一般来讲，变量名_xxx被看作是“私有的”，在模块或类外不可以使用。当变量是私有的时候，用_xxx来表示变量是很好的习惯。因为变量名__xxx__对Python来说有特殊含义，对于普通的变量应当避免这种命名风格。"单下划线""单下划线"开始的
python django AttributeError: 'QuerySet' object has no attribute '_meta' uplinker python python django
第一次用django，在写接口的时候出现了下面的异常InternalServerError:/api/proxys/listTraceback(mostrecentcalllast):File"D:\Python27\lib\site-packages\django\core\handlers\exception.py",line41,ininnerresponse=get_response(re
weblogic 启动常见错误解决 ithadoop weblogic oracle oracle weblogic
以下是WebLogic启动常见错误及解决方案的图文汇总（基于最新实践整理）：一、控制台无法访问（端口冲突）现象：浏览器访问http://localhost:7001/console失败解决步骤：检查端口占用：netstat-an|grep7001#Linuxnetstat-ano|findstr7001#Windows若端口冲突，修改config.xml中的ListenPort或终止占用进程二、节
7. 实现接口多重断言pytest-assume Tom Boom 接口自动化测试 pytest 服务器 linux 接口自动化测试自动化测试框架开发
pytest-assume终极指南：实现多重断言的无缝验证在自动化测试中，单个测试往往需要验证多个条件。本文将深入解析如何通过pytest-assume插件优雅解决多重断言问题。一、为什么需要多重断言？传统断言的局限性deftest_user_profile():user=get_user()#第一个断言失败后，后续不会执行assertuser.name=="张三"assertuser.age==
《量化开发》系列第 1 篇：金融知识基础入门指南（附 GitHub 学习项目） Natsume1710 金融 github 学习
本文为《量化开发学习路线与知识点》专栏的第一篇参考项目：Awesome-QuantDev-Learn量化金融是金融经济学与计算机科学交叉融合形成的新兴行业，越来越多的技术人才正积极投身其中。然而，面对纷繁复杂的金融概念与专业的开发技能，许多人常常感到无从下手。本专栏将为C++/Python工程师、自学者、量化岗求职者提供系统清晰的学习路径。本篇文章聚焦于量化开发所需的金融基础知识，帮助技术人打下坚
淘客APP的用户行为分析与个性化推荐：架构师的算法实践微赚淘客系统@聚娃科技算法
淘客APP的用户行为分析与个性化推荐：架构师的算法实践大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我想和大家分享一下淘客APP的用户行为分析与个性化推荐的算法实践。在电商导购领域，个性化推荐是提升用户体验和转化率的关键。通过分析用户的行为数据，我们可以为用户提供符合其兴趣的商品推荐，从而增加用户的粘性和购买意愿。接下来，我将从用户行为数据采集、
Pytest自动化测试框架pytest-xdist分布式测试插件（超详细）一个小小的测试人 pytest 分布式职场和发展功能测试软件测试自动化测试
平常我们功能测试用例非常多时，比如有1千条用例，假设每个用例执行需要1分钟，如果单个测试人员执行需要1000分钟才能跑完；当项目非常紧急时，会需要协调多个测试资源来把任务分成两部分，于是执行时间缩短一半，如果有10个小伙伴，那么执行时间就会变成十分之一，大大节省了测试时间；为了节省项目测试时间，10个测试同时并行测试，这就是一种分布式场景；同样道理，当我们自动化测试用例非常多的时候，一条条按顺序执
分布式系统的强一致性基石：Raft共识算法深度解析与技术实现 LCG元 Python 信息系统共识算法 python 区块链
目录一、Raft设计哲学与核心概念1.1可理解性设计三原则1.2核心数据结构定义二、核心机制实现解析2.1领导选举机制2.2日志复制机制三、异常处理与工程优化3.1典型故障场景处理3.2性能优化策略四、工业级实现关键代码4.1日志一致性检查4.2状态机应用逻辑五、Raft与其他协议对比六、生产环境最佳实践在分布式系统领域，Raft算法通过强领导者模型和模块化分解设计，将复杂的一致性难题转化为可落地
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他