一个处女座的程序猿

ML之shap：基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例之详细攻略

基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例

1、定义数据集

2、数据集预处理

# 2.1、入模特征初步筛选

# 2.2、目标特征二值化

# 2.3、类别型特征编码数字化

# 2.4、分离特征与标签

# 2.5、数据集整体切分

#3、模型训练与推理

# 3.1、数据集切分

# 3.2、模型建立并训练

# 3.3、模型预测

#4、模型特征重要性解释可视化

#4.1、全局特征重要性可视化

# T1、基于模型本身输出特征重要性

# T2、利用Shap值解释XGBR模型

# (1)、创建Explainer并计算SHAP值

# (2)、全样本各特征shap值条形图可视化

# (3)、shap值高阶交互散点图可视化

# (4)、全样本各特征shap值蜂群图可视化

# (5)、全局特征热图可视化

# (6)、全局特征重要性排序散点图可视化

#4.2、局部特征重要性可视化

# (1)、单样本全特征条形图可视化

# (2)、全样本单个特征shap值条形图可视化

# (3)、单转双特征全样本局部独立图散点图可视化

# (4全局特征重要性可视化)、双特征全样本散点图可视化

# 4.3、模型特征筛选

# (1)、基于聚类的shap特征筛选可视化

5、模型预测的可解释性(可主要分析误分类的样本)

# 5.1、力图可视化分析：可视化单个或多个样本内各个特征贡献度并对比模型预测值——探究误分类样本

(1)、单个样本力图、条形图、瀑布图可视化(分析单个样本预测的解释)—对比预测

(2)、多个样本力图可视化

# 5.2、决策图可视化分析：模型如何做出决策

# (1)、单个样本决策图可视化

# (2)、多个样本决策图可视化

相关文章
ML之shap：基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例之详细攻略
ML之shap：基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例之详细攻略实现

基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例

1、定义数据集

dtypes_len: 15

age

workclass

fnlwgt

education

education_num

marital_status

occupation

relationship

race

sex

capital_gain

capital_loss

hours_per_week

native_country

salary

State-gov

77516

Bachelors

Never-married

Adm-clerical

Not-in-family

White

Male

2174

United-States

<=50K

Self-emp-not-inc

83311

Bachelors

Married-civ-spouse

Exec-managerial

Husband

White

Male

United-States

<=50K

Private

215646

HS-grad

Divorced

Handlers-cleaners

Not-in-family

White

Male

United-States

<=50K

Private

234721

11th

Married-civ-spouse

Handlers-cleaners

Husband

Black

Male

United-States

<=50K

Private

338409

Bachelors

Married-civ-spouse

Prof-specialty

Wife

Black

Female

Cuba

<=50K

Private

284582

Masters

Married-civ-spouse

Exec-managerial

Wife

White

Female

United-States

<=50K

Private

160187

9th

Married-spouse-absent

Other-service

Not-in-family

Black

Female

Jamaica

<=50K

Self-emp-not-inc

209642

HS-grad

Married-civ-spouse

Exec-managerial

Husband

White

Male

United-States

>50K

Private

45781

Masters

Never-married

Prof-specialty

Not-in-family

White

Female

14084

United-States

>50K

Private

159449

Bachelors

Married-civ-spouse

Exec-managerial

Husband

White

Male

5178

United-States

>50K

2、数据集预处理

# 2.1、入模特征初步筛选

df.columns
14

# 2.2、目标特征二值化

# 2.3、类别型特征编码数字化

filt_dtypes_len： 13 [('age', 'float32'), ('workclass', 'category'), ('fnlwgt', 'float32'), ('education_Num', 'float32'), ('marital_status', 'category'), ('occupation', 'category'), ('relationship', 'category'), ('race', 'category'), ('sex', 'category'), ('capital_gain', 'float32'), ('capital_loss', 'float32'), ('hours_per_week', 'float32'), ('native_country', 'category')]

# 2.4、分离特征与标签

df_adult_display

	age	workclass	education_num	marital_status	occupation	relationship	race	sex	capital_gain	capital_loss	hours_per_week	native_country	salary
0	39	State-gov	13	Never-married	Adm-clerical	Not-in-family	White	Male	2174	0	40	United-States	0
1	50	Self-emp-not-inc	13	Married-civ-spouse	Exec-managerial	Husband	White	Male	0	0	13	United-States	0
2	38	Private	9	Divorced	Handlers-cleaners	Not-in-family	White	Male	0	0	40	United-States	0
3	53	Private	7	Married-civ-spouse	Handlers-cleaners	Husband	Black	Male	0	0	40	United-States	0
4	28	Private	13	Married-civ-spouse	Prof-specialty	Wife	Black	Female	0	0	40	Cuba	0
5	37	Private	14	Married-civ-spouse	Exec-managerial	Wife	White	Female	0	0	40	United-States	0
6	49	Private	5	Married-spouse-absent	Other-service	Not-in-family	Black	Female	0	0	16	Jamaica	0
7	52	Self-emp-not-inc	9	Married-civ-spouse	Exec-managerial	Husband	White	Male	0	0	45	United-States	1
8	31	Private	14	Never-married	Prof-specialty	Not-in-family	White	Female	14084	0	50	United-States	1
9	42	Private	13	Married-civ-spouse	Exec-managerial	Husband	White	Male	5178	0	40	United-States	1

df_adult

	age	workclass	education_num	marital_status	occupation	relationship	race	sex	capital_gain	capital_loss	hours_per_week	native_country	salary
0	39	7	13	4	1	1	4	1	2174	0	40	39	0
1	50	6	13	2	4	0	4	1	0	0	13	39	0
2	38	4	9	0	6	1	4	1	0	0	40	39	0
3	53	4	7	2	6	0	2	1	0	0	40	39	0
4	28	4	13	2	10	5	2	0	0	0	40	5	0
5	37	4	14	2	4	5	4	0	0	0	40	39	0
6	49	4	5	3	8	1	2	0	0	0	16	23	0
7	52	6	9	2	4	0	4	1	0	0	45	39	1
8	31	4	14	4	10	1	4	0	14084	0	50	39	1
9	42	4	13	2	4	0	4	1	5178	0	40	39	1

# 2.5、数据集整体切分

df_len： 32561 ，train_test_index： 30933
X.shape,y.shape： (30933, 12) (30933,)
X_test.shape,y_test.shape： (1628, 12) (1628,)

#3、模型训练与推理

# 3.1、数据集切分

# 3.2、模型建立并训练

# 3.3、模型预测

	age	workclass	education_num	marital_status	occupation	relationship	race	sex	capital_gain	capital_loss	hours_per_week	native_country	y_val_predi	y_val
11311	29	4	9	4	1	3	2	0	0	0	60	39	0	0
12519	33	4	10	4	3	1	2	1	8614	0	40	39	1	1
29225	27	4	13	4	10	1	4	1	0	0	45	39	0	0
5428	22	4	9	2	7	0	4	1	0	0	40	39	0	0
2400	32	7	10	4	1	1	2	0	0	0	40	39	0	0
4319	45	4	10	2	4	0	4	1	0	0	40	39	1	0
26564	43	4	9	2	6	0	4	1	0	0	40	39	0	0
4721	60	0	13	2	0	0	4	1	0	0	8	39	0	1
19518	29	6	9	2	12	0	4	1	0	0	35	39	0	0
25013	33	4	5	2	6	0	4	1	0	0	40	39	0	0

#4、模型特征重要性解释可视化

#4.1、全局特征重要性可视化

# T1、基于模型本身输出特征重要性

XGBR_importance_dict： [('age', 130), ('capital_gain', 125), ('education_num', 86), ('capital_loss', 75), ('hours_per_week', 63), ('relationship', 59), ('marital_status', 52), ('occupation', 52), ('workclass', 20), ('sex', 13), ('native_country', 10), ('race', 6)]

# T2、利用Shap值解释XGBR模型

利用shap自带的函数实现特征贡献性可视化——特征重要性排序与上边类似，但并不相同

# (1)、创建Explainer并计算SHAP值

# T2.1、输出shap.Explanation对象

# T2，2、输出numpy.array数组

shap2exp.values.shape (30933, 12) 
 [[ 0.31074238 -0.16607898  0.5617416  ... -0.04660619 -0.09465054
   0.00530914]
 [ 0.34912622 -0.16633348  0.65308005 ... -0.06718991 -0.9804511
   0.00515459]
 [ 0.21971266  0.02263742 -0.299867   ... -0.0583196  -0.09738331
   0.00415599]
 ...
 [-0.48140627  0.07019287 -0.30844492 ... -0.04253047 -0.10924102
   0.00649792]
 [ 0.39729887 -0.2313431  -0.45257783 ... -0.06502013  0.27416423
   0.00587647]
 [ 0.27594262  0.03170239  0.78293955 ... -0.06743324  0.31613
   0.00530914]]
shap2array.shape (30933, 12) 
 [[ 0.31074238 -0.16607898  0.5617416  ... -0.04660619 -0.09465054
   0.00530914]
 [ 0.34912622 -0.16633348  0.65308005 ... -0.06718991 -0.9804511
   0.00515459]
 [ 0.21971266  0.02263742 -0.299867   ... -0.0583196  -0.09738331
   0.00415599]
 ...
 [-0.48140627  0.07019287 -0.30844492 ... -0.04253047 -0.10924102
   0.00649792]
 [ 0.39729887 -0.2313431  -0.45257783 ... -0.06502013  0.27416423
   0.00587647]
 [ 0.27594262  0.03170239  0.78293955 ... -0.06743324  0.31613
   0.00530914]]
shap2exp.values与shap2array，两个矩阵否相等： True

# (2)、全样本各特征shap值条形图可视化

# (3)、shap值高阶交互散点图可视化

# (4)、全样本各特征shap值蜂群图可视化

# (5)、全局特征热图可视化

使用监督聚类和热图显示数据集的总体子结构

# (6)、全局特征重要性排序散点图可视化

#4.2、局部特征重要性可视化

# (1)、单样本全特征条形图可视化

前测试样本：0

.values =
array([ 0.31074238, -0.16607898,  0.5617416 , -0.58709425, -0.08897061,
       -0.6133537 ,  0.01539118,  0.04758333, -0.3988452 , -0.04660619,
       -0.09465054,  0.00530914], dtype=float32)
.base_values =
-1.3270257
.data =
array([3.900e+01, 7.000e+00, 1.300e+01, 4.000e+00, 1.000e+00, 1.000e+00,
       4.000e+00, 1.000e+00, 2.174e+03, 0.000e+00, 4.000e+01, 3.900e+01])

前测试样本：1

.values =
array([ 0.34912622, -0.16633348,  0.65308005,  0.3069151 ,  0.26878497,
        0.5229906 ,  0.01030679,  0.04531586, -0.15429462, -0.06718991,
       -0.9804511 ,  0.00515459], dtype=float32)
.base_values =
-1.3270257
.data =
array([50.,  6., 13.,  2.,  4.,  0.,  4.,  1.,  0.,  0., 13., 39.])

前测试样本：10

.values =
array([ 0.27578622,  0.02686635, -0.0699547 ,  0.2820353 ,  0.3097189 ,
        0.55229187, -0.03686382,  0.05135565, -0.1607191 , -0.06321771,
        0.38190693,  0.02023092], dtype=float32)
.base_values =
-1.3270257
.data =
array([37.,  4., 10.,  2.,  4.,  0.,  2.,  1.,  0.,  0., 80., 39.])

前测试样本：20

.values =
array([ 0.31008577,  0.00316932,  1.3133987 ,  0.16768128,  0.18239255,
        0.6863757 ,  0.00508371,  0.05159741, -0.15813455, -0.06736177,
        0.31327826,  0.01936885], dtype=float32)
.base_values =
-1.3270257
.data =
array([40.,  4., 16.,  2., 10.,  0.,  4.,  1.,  0.,  0., 60., 39.])

# (2)、全样本单个特征shap值条形图可视化

# (3)、单转双特征全样本局部独立图散点图可视化

# (4全局特征重要性可视化)、双特征全样本散点图可视化

# 4.3、模型特征筛选

# (1)、基于聚类的shap特征筛选可视化

5、模型预测的可解释性(可主要分析误分类的样本)

提供了预测的细节，侧重于解释单个预测是如何生成的。它可以帮助决策者信任模型，并且解释各个特征是如何影响模型单次的决策。

# 5.1、力图可视化分析：可视化单个或多个样本内各个特征贡献度并对比模型预测值——探究误分类样本

提供了单一模型预测的可解释性，可用于误差分析，找到对特定实例预测的解释。如样例0所示：
(1)、模型输出值：5.89；output value 是要高于base value的，也就是说当前这个样本，高于整体水平，而高的0.51-(-2.58)=3.09则是由不同特征贡献的。
(2)、基值：base value即explainer.expected_value，即模型输出与训练数据的平均值；
(3)、绘图箭头下方数字是此实例的特征值。如Age=39；
(4)、红色则表示该特征的贡献是正数(将预测推高的特征)，蓝色表示该特征的贡献是负数(将预测推低的特征)。长度表示影响力；箭头越长，特征对输出的影响(贡献)越大。通过 x 轴上刻度值可以看到影响的减少或增加量。

(1)、单个样本力图、条形图、瀑布图可视化(分析单个样本预测的解释)—对比预测

输出当前测试样本：0

mode_exp_value： -1.3270257

输出当前测试样本：0 
 age               29.0
workclass          4.0
education_num      9.0
marital_status     4.0
occupation         1.0
relationship       3.0
race               2.0
sex                0.0
capital_gain       0.0
capital_loss       0.0
hours_per_week    60.0
native_country    39.0
y_val_predi        0.0
y_val              0.0
Name: 11311, dtype: float64
输出当前测试样本的真实label： 0
输出当前测试样本的的预测概率： 0

输出当前测试样本：1

输出当前测试样本：1 
 age                 33.0
workclass            4.0
education_num       10.0
marital_status       4.0
occupation           3.0
relationship         1.0
race                 2.0
sex                  1.0
capital_gain      8614.0
capital_loss         0.0
hours_per_week      40.0
native_country      39.0
y_val_predi          1.0
y_val                1.0
Name: 12519, dtype: float64
输出当前测试样本的真实label： 1
输出当前测试样本的的预测概率： 1

输出当前测试样本：5

输出当前测试样本：5 
 age               45.0
workclass          4.0
education_num     10.0
marital_status     2.0
occupation         4.0
relationship       0.0
race               4.0
sex                1.0
capital_gain       0.0
capital_loss       0.0
hours_per_week    40.0
native_country    39.0
y_val_predi        1.0
y_val              0.0
Name: 4319, dtype: float64
输出当前测试样本的真实label： 0
输出当前测试样本的的预测概率： 1

输出当前测试样本：7

输出当前测试样本：7 
 age               60.0
workclass          0.0
education_num     13.0
marital_status     2.0
occupation         0.0
relationship       0.0
race               4.0
sex                1.0
capital_gain       0.0
capital_loss       0.0
hours_per_week     8.0
native_country    39.0
y_val_predi        0.0
y_val              1.0
Name: 4721, dtype: float64
输出当前测试样本的真实label： 1
输出当前测试样本的的预测概率： 0

(2)、多个样本力图可视化

# (2.1)、特征贡献度力图可视化，利用深红色深蓝色地图可视化前 5个预测解释，可以使用X数据集。

# (2.2)、误分类力图可视化，肯定要用X_val数据集，因为涉及到模型预测。
如果对多个样本进行解释，将上述形式旋转90度然后水平并排放置，得到力图的变体

# 5.2、决策图可视化分析：模型如何做出决策

# (1)、单个样本决策图可视化

# (2)、多个样本决策图可视化

# (2.1)、部分样本决策图可视化

# (2.2)、误分类样本决策图可视化

QT QML基础绘图入门 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 QT教程 c++
QTQML基础绘图入门补天云火鸟博客创作软件补天云网站1QT_Quick_和_QML_综述1.1QT_Quick_的基本概念1.1.1QT_Quick_的基本概念QT_Quick_的基本概念QT_QT_quick基本概念引言在探索《QTQML基础绘图入门》一书的过程中，我们将在本书的这一章节中深入理解QT快速原型（QtQuick）的基础。QTQuick是一种基于场景绘制技术的框架，它提供了一种以声
探秘 commits-graph：优雅的Git提交图绘制工具农爱宜
探秘commits-graph：优雅的Git提交图绘制工具去发现同类优质开源项目:https://gitcode.com/在软件开发中，Git不仅仅是一个版本控制系统，它还是我们代码历程的一种视觉表达。每次提交都如同历史的一笔，记录着开发者的心血和智慧。而今天，我们要向您推荐一个非常出色的开源项目——commits-graph，这是一个基于HTML5Canvas和jQuery的Git提交图形小部件
Python系列之：Dash从入门到精通系列一快乐骑行^_^ 大数据 python Dash从入门到精通
Python系列之：Dash从入门到精通系列一一、安装Dash二、Dash布局入门案例详解三、开启和关闭热加载四、Dash设置Html样式和颜色五、Dash可重用组件六、Dash组件Graph七、Dash核心组件八、简单的交互式Dash应用程序九、带有图形和滑块的Dash应用程序布局十、具有多个输入的Dash应用程序十一、具有多个输出的Dash应用程序十二、带有链式回调的Dash应用程序十三、带状
【JAVA 基础第（20）课】JDBC JAVA 连接 MySql 数据库黑口罩【JAVA】系列 java
pom.xml导入MySqljar包mysqlmysql-connector-java5.1.30数据库驱动、连接封装成一个工具类DBUtil类importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.ResultSet;importjava.sql.SQLException;importjava.sql.State
QT QML交互设计与用户界面 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 QT教程 c++
QTQML交互设计与用户界面补天云火鸟博客创作软件补天云网站1QT_QML基础与概念1.1理解QML语言及其特点1.1.1理解QML语言及其特点理解QML语言及其特点第五章,理解QML语言及其特点5.1QML的基本概念QML，全称QuickMarkupLanguage（快速标记语言），是Qt中用于创建用户界面的一种元模型描述语言。QML允许开发者通过编写类似于HTML和XML的文本文件来定义用户接
【前端开发】前端开发深度解析：HTML、CSS、JavaScript与Vue.js RS迷途小书童前端开发探索之旅 javascript html css 前端 vue.js
一、HTML：构建网页的基石1.1简介HTML（HyperTextMarkupLanguage，超文本标记语言）是一种用于创建网页的标准标记语言。它使用各种标签（tags）来描述网页上的内容，包括文本、图像、链接、视频、音频等。HTML是网页开发的基础，与CSS（层叠样式表）和JavaScript等技术一起，共同构建出丰富多彩的网页世界。HTML文档由一系列的元素构成，每个元素都由开始标签、内容和
js第一次笔记 chen_zhi_yu javascript 笔记前端
JavaScript显示方案JavaScript能够以不同方式“显示”数据：使用window.alert()写入警告框使用document.write()写入HTML输出使用innerHTML写入HTML元素使用console.log()写入浏览器控制台JavaScript关键词JavaScript语句常常通过某个关键词来标识需要执行的JavaScript动作。下面的表格列出了一部分将在教程中学到
前端开发是随着互联网的发展而逐渐兴起的一种新的开发领域。它一直在不断地发展和演变，经历了许多重要的里程碑事件和技术革新，下面就来回顾一下前端开发的历程和发展趋势。 21级应用技术UI3班何珍锋前端 javascript 前端框架
一、Web1.0时代1990年代末到2000年代初，Web1.0时代是Web发展的初期阶段，这个阶段的Web界面设计以简单的文本和图像为主，用户的互动性和用户体验都很低。在这个时代，浏览器的前端技术主要是基于HTML和CSS的，HTML指的是超文本标记语言，而CSS则指的是层叠样式表。由于这些技术的简单性，前端开发者往往需要手动编写HTML和CSS代码，并进行基本的样式设计。二、Web2.0时代随
[C#]C#连接MySql数据库赵闪闪168. C#数据库 c#mysql
1、要连接MySql数据库必须首先下载MySql官方的连接.net的文件，文件下载地址为http://dev.mysql.com/downloads/connector/net/6.6.html#downloads，下载平台选择.Net&Mono,下载ZIP免安装版。2、解压缩刚才下载的mysql-connector-net-6.6.6-noinstall.zip文件，里面有几个版本选择，在这里我
前端实现PDf文件下载功能南风贰拾捌知识点整理前端 pdf
前言：pc端需要实现生成PDF并下载的功能。方法一：侧重点在前端，后端只需要配合把PDF所需要的数据给到前端即可。准备工作：需要npminstall这两个插件，html2Canvas，JsPDF。注：上面给的不是npm的命令，不可以直接当做npm命令使用//引入importhtml2Canvasfrom'html2canvas'importJsPDFfrom'jspdf'//也可以在main.js
MyBatis性能调优——优化SQL查询和分页查询速度 AI天才研究院大数据AI人工智能自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1.0什么是MyBatis?MyBatis是MyBatisSQLMapperFramework的简称，是一个Java框架，用于存取数据库中的数据。MyBatis将sql映射到java对象上，并将对象映射成sql，最终实现对关系数据库进行持久化操作。MyBatis使用xml或注解的方式来配置映射关系，并通过xml文件或注解来生成mybatis核心配置文件mybat
MyBatis最佳实践:事务苏-言 mybatis java 数据库
事务：定义：一个事务通常对应着一个业务，同时事务不可再分，最小工作单元一个完整的业务需要批量的DML(insert、update、delete)语句共同联合完成事务只和DML语句相关，或者说语句才有事务。这个和业务逻辑相关，业务逻辑不同，DML语句数量也会不相同事务的四大特性：原子性：一个事务是一个不可分割的工作单元一致性：事务在执行前和执行后，数据库的状态必须保持一致。这意味着事务执行过程中的任
CSS语言的编程范式 ByteBlossom666 包罗万象 golang 开发语言后端
CSS语言的编程范式引言随着互联网的发展，网络应用和网站的数量不断增加，前端开发的复杂性也在日益增加。在前端开发中，CSS（层叠样式表）作为一种描述文档外观的语言，扮演着至关重要的角色。虽然CSS语言的设计初心是为HTML文档提供样式和布局，但在实际使用中，它的表达能力与编程范式的结合，使得我们能够以更加高效和灵活的方式来构建用户界面。本文将深入探讨CSS语言的编程范式，分析其基本概念、特点、应用
MATLAB 代码的主要功能是基于功能连接（FC）数据，利用支持向量机（SVM）进行分类，并通过留一法交叉验证、特征选择、超参数寻优、一致性特征分析以及置换检验等步骤，评估分类性能和特征的显著性 max500600 MATLAB 开发语言算法 matlab 支持向量机分类
clear;clcNumROI=37;%ROI数目NumCon=605;%连接数目%选择病人组数据文件夹%path1=spm_select(1,'dir','pleaseselectpatientsdir');path1='D:\siying\42ML_day3\nnnnnn\FC\Patient';%和第7行用一个即可，为手动改路径file1=dir([path1,filesep,'*.txt'
linux下使用脚本实现对进程的内存占用自动化监测浪小满常用问题解决 linux 自动化运维内存占用情况监测
linux系统中常用cat/proc/{pid}/status和pmap-x{pid}来监测某个进程的内存资源占用情况。其中注意各参数的含义如下：VmSize：表示进程当前虚拟内存大小VmPeak：表示进程所占用最大虚拟内存大小VmRSS：表示进程当前占用物理内存的大小(与procrank中的RSS，pmap中的RSS一样)VmLck：表示被锁定的内存大小VmHWM：表示进程所占用物理内存的峰值V
微信小程序开发，底部选择器使用浩宇软件开发微信小程序开发入门微信小程序小程序
文章目录1.官方文档使用指南2.功能描述3.具体代码逻辑实现4.运行效果图5.关于作者其它项目视频教程介绍1.官方文档使用指南使用指南：https://developers.weixin.qq.com/miniprogram/dev/component/picker.html2.功能描述从底部弹起的滚动选择器通用属性属性类型默认值必填说明最低版本header-textstring否选择器的标题，仅
【Tomcat】Tomcat整体架构及其设计精髓分析（上）金鳞踏雨图灵课堂学习笔记 tomcat 架构 java 容器 Servlet
【Tomcat】Tomcat整体架构及其设计精髓分析（上）一、Tomcat整体架构1.什么是Tomcat2.Servlet详解Servlet接口Servlet容器工作原理Servlet代码实现3.Tomcat的目录结构4.web应用部署的方式（了解）（1）拷贝到webapps目录下（2）server.xml的Context标签下配置Context（3）在/conf/Catalina/localho
Kubectl常用命令操作 _Eden_ linux 运维服务器
kubectl命令格式：kubectlcommandtypenamecommand:表示子命令，用于操作kubernetes的集群资源对象，如：createdeletedescribegetapplytype:资源对象的类型name:资源对象的名称1.创建资源对象kubectlcreate-fmy-service.yaml表示根据yaml配置文件创建service2.查看资源对象kubectlge
logback+kafka+ELK实现日志记录（操作）酷酷的码农小哥 java kafka spring boot spring
logback+kafka+ELK实现日志记录前言环境准备配置Logbackpom文件改造新增logback-spring.xmlboot配置文件一下怎么去下载安装我就不多说了，直接上代码。日志平台业务思路用户请求进入后台根据搜索的参数去查询内容返回所有信息,返回json数据，当用户查看详情后根据查询到的内容里面的traceId去es里查询和traceId相等的所有日志信息最后返回给前端业务流程[
k8s中使用MySQL共享存储_k8s使用NFS做动态存储做mysql容器主从同步罗-Moline k8s中使用MySQL共享存储
k8s里面存储一直是比较难搞得，之前做的静态存储，写这篇文档记录一下动态存储创建的过程。使用动态存储的好处是开发者可以更关注自己的开发环境，不用关心后端的资源，还有就是更换存储类型不用做大的改变，只需切换一下storageclassName即可。根据这篇博客来的！谢谢博主！！！https://www.cnblogs.com/00986014w/p/9406962.html我把大致上思路分成三步：1
大模型GUI系列论文阅读 DAY2续2：《使用指令微调基础模型的多模态网页导航》 feifeikon 论文阅读
摘要自主网页导航的进展一直受到以下因素的阻碍：依赖于数十亿次的探索性交互（通常采用在线强化学习），依赖于特定领域的模型设计，难以利用丰富的跨领域数据进行泛化。在本研究中，我们探讨了基于视觉-语言基础模型的数据驱动离线训练方法，以改进网页代理的性能。我们提出了一种名为WebGUM的指令跟随多模态代理，该代理能够同时观察网页截图和HTML页面，并输出网页导航操作，例如点击和输入文本等。WebGUM通过
中国移动魔百盒CM311-1e(s)_S905L3SB芯片_2+16_安卓9_线刷固件包 fatiaozhang9527 机顶盒刷机固件电视盒子魔百盒刷机魔百盒固件移动魔百盒 adb android
中国移动魔百盒CM311-1e(s)_S905L3SB芯片_2+16_安卓9_线刷固件包线刷方法：（新手参考借鉴一下）1、准备好一根双公头USB线刷刷机线，长度30-50CM长度最佳，同时准备一台电脑，拆开盒子；2、电脑上安装好刷机工具AmlogicUSBBurningTool软件→打开软件→文件→导入烧录包→把【擦除flash】和【擦除bootloader】两项勾选先默认去掉（如不识别或进度条不
Sqlite+Springboot配置相对路径和绝对路径 yml Linux 小诺大人 springboot sqlite3 sqlite spring maven
Sqlite配置相对路径和绝对路径yml相对路径（windows和Linux通用）在resource资源文件夹下新建文件夹db里面存放demo.db数据库spring.datasource.driver-class-name=org.sqlite.JDBCspring.datasource.url=jdbc:sqlite::resource:db/demo.dbspring.datasource.
HTML常用标签王磊鑫 html 前端 css
一.标题标签-1.HTML提供了6个等级的网页标题-二.段落和换行标签2.标签用于定义段落，它可以将整个网页分为若干个段落。特点：1）文本在一个段落中会根据浏览器窗口的大小自动换行。2）段落和段落之间保有空隙。3.换行标签，将某段文本强制换行显示。三、文本格式化标签1）加粗或者2)倾斜或者3)删除线或者4)下划线或者四、特殊标签1）和标签是没有语义的，它们就是一个盒子，用来装内容的。2）标签用来布
Linux 使用 docker 安装 Nginx 代理服务器 liupeng_blog docker docker linux nginx
文章目录个人知识库Nginx简介环境要求一.新建文件目录1.1.新建docker-compose.yml1.2.编写docker-compose.yml二.文件赋权限三、新建nginx.conf四.启动容器4.1.启动并下载镜像4.2.停止并删除容器五.访问Nginx六.DockerHub官网更多知识平台个人知识库云网站：http://www.liupeng.cloud语雀：https://www
WPF项目：xaml笔记敲代码的TKP wpf 笔记
1.设置页面无标题栏/全屏/禁止用户调整大小WindowStyle="None"设置页面无标题栏WindowState="Maximized"设置页面全屏最大化ResizeMode="NoResize"禁止用户调整大小注：页面非全屏（小窗口）时，想取消标题栏，必须禁止用户调整大小，否则会有白边
kamailio-5.8.4-centos9编译狂爱代码的码农 VOIP那些事 kamailio
安装必要的依赖包在开始编译之前，你需要安装编译Kamailio所需的一些基础依赖包：dnfinstall-ymakegccgcc-c++flexbisonlibxml2-developenssl-develsqlite-develmysql-develpcre-devellibcurl-devel下载并解压Kamailio源码包假设你已经把kamailio-5.8.4_src.tar.gz文件下载
爬取电影天堂越哥的女人
爬取每部电影的详细信息分析每页的url，可以得到规律是：第t页的url为：http://dytt8.net/html/gndy/dyzz/list_23_t.html于是可以先分析第一页，然后对页数进循环，就可得到所有最新电影的详细信息。fromlxmlimportetreeheaders={"User-Agent":"Mozilla/5.0(WindowsNT6.1;Win64;x64)Appl
python爬取电影天堂beautiful_Python爬虫 -- 抓取电影天堂8分以上电影 carafqy
看了几天的python语法，还是应该写个东西练练手。刚好假期里面看电影，找不到很好的影片，于是有个想法，何不搞个爬虫把电影天堂里面8分以上的电影爬出来。做完花了两三个小时，撸了这么一个程序。反正蛮简单的，思路和之前用nodejs写爬虫一样。爬虫的入口从分页的列表开始，比如美剧的列表第一页地址这样：http://www.ygdy8.net/html/gndy/oumei/list_7_1.html，
用Java发送Email就这么简单五行星辰业务系统应用技术 java 前端
咱程序员在开发过程中，时常会遇到需要发送邮件的场景，好比通知用户注册成功、提醒密码找回啥的。这时候，Java就派上大用场啦，今儿个咱就唠唠咋用Java发送Email。一、准备工作要实现Java发送邮件，咱得先引入相关的依赖。要是用Maven构建项目，在pom.xml文件里加上这几行代码：javax.mailmail1.4.7javax.activationactivation1.1.1这就好比给你
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

ML之shap：基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例之详细攻略

基于adult人口普查收入二分类预测数据集(预测年收入是否超过50k)利用Shap值对XGBoost模型实现可解释性案例

1、定义数据集

2、数据集预处理

# 2.1、入模特征初步筛选

# 2.2、目标特征二值化

# 2.3、类别型特征编码数字化

# 2.4、分离特征与标签

# 2.5、数据集整体切分

#3、模型训练与推理

# 3.1、数据集切分

# 3.2、模型建立并训练

# 3.3、模型预测

#4、模型特征重要性解释可视化

#4.1、全局特征重要性可视化

# T1、基于模型本身输出特征重要性

# T2、利用Shap值解释XGBR模型

# (1)、创建Explainer并计算SHAP值

# (2)、全样本各特征shap值条形图可视化

# (3)、shap值高阶交互散点图可视化

# (4)、全样本各特征shap值蜂群图可视化

# (5)、全局特征热图可视化

# (6)、全局特征重要性排序散点图可视化

#4.2、局部特征重要性可视化

# (1)、单样本全特征条形图可视化

# (2)、全样本单个特征shap值条形图可视化

# (3)、单转双特征全样本局部独立图散点图可视化

# (4全局特征重要性可视化)、双特征全样本散点图可视化

# 4.3、模型特征筛选

# (1)、基于聚类的shap特征筛选可视化

5、模型预测的可解释性(可主要分析误分类的样本)

# 5.1、力图可视化分析：可视化单个或多个样本内各个特征贡献度并对比模型预测值——探究误分类样本

(1)、单个样本力图、条形图、瀑布图可视化(分析单个样本预测的解释)—对比预测

(2)、多个样本力图可视化

# 5.2、决策图可视化分析：模型如何做出决策

# (1)、单个样本决策图可视化

# (2)、多个样本决策图可视化

你可能感兴趣的:(ML,DataScience,shap,XGBoost)