KK.J

kaggle实战——What Causes Heart Disease?

Content

1. Introduction
2. Data
3. 数据预处理
4. Random Forest
5. 模型评估
6. Feature Importance Analysis

6.1 决策树可视化
6.2 Permutation importance
6.3 Partial Dependence Plots

7. 后记

记得有一次去面试，那个公司的HR聊天说，她感觉程序员面试那是面真功夫，会就会，不会装也没用。从这里想开来，还真是，码农学再多理论，终究是要去码砖的。我呢就是原来机器学习和深度学习的理论学的多，实践反而少，所以感觉有时候做事情就慢了些。现在趁着还有些闲工夫，就找一些项目做做，由简单到复杂，慢慢来吧。

欢迎大家收藏我的个人博客 KK’s Notes，2019.4.5 刚搞成功，接下来CSDN和 KK’s Notes 同时更新，各位看官大佬多多指教。

1. Introduction

这个项目来自于kaggle。项目主要是利用患者的个人信息和检查数据，利用机器学习方法来诊断该患者收否患疾病，并且尝试对识别结果作出解释。这个项目虽然简单但将机器学习的全流程和常用预处理和分析方法都涉及到了，我做完一遍还是有很多收获。以下操作皆在 Jubyter notebook 下以 Python 进行的。

主要使用的技术：

Random Forest
Feature Importance Analysis: Permutation importance
Feature Importance Analysis: Partial Dependence Plots

2. Data

Data from：https://www.kaggle.com/ronitf/heart-disease-uci/downloads/heart.csv/
About Data：下载好数据之后直接打开看一看。

import pandas as pd
import numpy as np
data = pd.read_csv('data/heart.csv')
data.info()

Output:

可以看到总共有303条数据以及13个特征和1个标签，数据没有缺失项。接下看下前十个数据。

data.head(10)

Output:

这13个特征的含义分别是：

age: 年龄
sex：该人的性别（1=男性，0=女性）
cp：胸痛经历（值1：典型心绞痛，值2：非典型心绞痛，值3：非心绞痛，值4：无症状）
trestbps：该人的静息血压（入院时为mm Hg）
chol：人体胆固醇测量单位为mg/dl
fbs：该人的空腹血糖（> 120mg/dl，1=true; 0= f=alse）
restecg：静息心电图测量（0=正常，1=有ST-T波异常，2=按Estes标准显示可能或明确的左心室肥厚）
thalach：达到了该人的最大心率
exang：运动诱发心绞痛（1=是; 0=否）
oldpeak：运动相对于休息引起的ST段压低（'ST’与ECG图上的位置有关）
slope：峰值运动ST段的斜率（值1：上升，值2：平坦，值3：下降）
ca：主要血管数量（0-3）
thal：称为地中海贫血的血液疾病（1=正常; 2=固定缺陷; 3=可逆缺陷）
target：心脏病（0=不，1=是）

为了更好的理解数据，我们应该提前查一下每个特征的含义，以及医学上该特征和心脏病的关系。具体这里不再赘述。

3. 数据预处理

这里为了方便后续做心脏病诊断中影响因素分析即Feature Importance Analysis（还是觉得用英文更能表达意思），将部分数值型特征进行转换：

data.loc[data.sex == 1, 'sex'] = 'male'
data.loc[data['sex'] == 0, 'sex'] = 'female'

data.loc[data['cp'] == 1, 'cp'] = 'typical'
data.loc[data['cp'] == 2, 'cp'] = 'atypical'
data.loc[data['cp'] == 3, 'cp'] = 'no_pain'
data.loc[data['cp'] == 4, 'cp'] = 'no_feel'

data.loc[data['fbs'] == 1, 'fbs'] = 'higher than 120 mg/dl'
data.loc[data['fbs'] == 0, 'fbs'] = 'lower than 120 mg/dl'

data.loc[data['restecg'] == 0, 'restecg'] = 'normal'
data.loc[data['restecg'] == 1, 'restecg'] = 'ST-T wave abnormality'
data.loc[data['restecg'] == 2, 'restecg'] = 'left ventricular hypertrophy'

data.loc[data['exang'] == 1, 'exang'] = 'true'
data.loc[data['exang'] == 0, 'exang'] = 'false'

data.loc[data['slope'] == 1, 'slope'] = 'up'
data.loc[data['slope'] == 2, 'slope'] = 'flat'
data.loc[data['slope'] == 3, 'slope'] = 'down'

data.loc[data['thal'] == 1, 'thal'] = 'normal'
data.loc[data['thal'] == 2, 'thal'] = 'fixed defect'
data.loc[data['thal'] == 3, 'thal'] = 'reversable defect'

检查下数据情况：

data.describe(include=[np.object])

Output:

可以看到特征thal有4个值，而我们在转换时只转换了3个。实际上thal存在2个缺失值用0补齐的。为了防止数据类型错误，这里做一下类型转换。

data['thal'] = data['thal'].astype('object')

再看下数据：

data.head()

Output:

模型的训练肯定需要数值型特征。这里对特征进行Onehot编码。

data = pd.get_dummies(data, drop_first=True)
data.head()

Output：

（由于我还不知道在用markdown编辑时怎么显示运行结果，这里用的是截图，只能截取一部分，还有特征没有截取出来）
数据预处理部分就到此为止，接下来上模型。

4. Random Forest

对于 Random Forest 的原理这里就不介绍了，网上介绍的文章也很多。废话不多说，直接import package.

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

import matplotlib.pyplot as plt

将数据分成 train_data 和 test_data 2个集合，二者比例为8:2。

train_x, test_x, train_y, test_y = train_test_split(data.drop(columns='target'),
                                                    data['target'],
                                                    test_size=0.2,
                                                    random_state=10)

简单的画个图调个参。这里 Random Forest 主要的参数有基学习器决策树的最大深度（这里依据经验选5）、基学习器个数 n_estimators。这里基学习器选用CART。

train_score = []
test_score = []

for n in range(1, 100):
    model = RandomForestClassifier(max_depth=5,
                                   n_estimators=n，
                                   criterion='gini')
    model.fit(train_x, train_y)
    train_score.append(model.score(train_x, train_y))
    test_score.append(model.score(test_x, test_y))

训练完，把train和test上的accuracy随基学习器个数的变化画成图。

x_axis = [i for i in range(1, 100)]

fig, ax = plt.subplots()
ax.plot(x_axis, train_score[:99])
ax.plot(x_axis, test_score[:99], c="r")
plt.xlim([0, 100])
plt.ylim([0.0, 1.0])
plt.rcParams['font.size'] = 12
plt.xlabel('n_estimators')
plt.ylabel('accuracy')
plt.grid(True)

Output：

可以看到大概是n_estimators=14的时候效果最好，train和test上的accuracy分别是0.9463，0.8361。看上去没有那么差。

5. 模型评估

训练完模型，用ROC曲线来评估下模型的效果。ROC曲线事宜FPR和TPR分别为横纵轴作出的曲线，其和坐标轴围成的面积越大，说明模型效果越好。具体评判标准见下文。说一下几个概念：

TPR: 真正例率，表示所有真正为正例的样本被正确预测出来的比例，等同于Recall

FNR: 假负例率，FNR = 1 - TPR

FPR: 假正例率，表示所有负例中被预测为正例的比例。

TNR: 真负例率，TNR = 1 - FPR

好吧，我也快晕了。
接下来计算一下正例和负例的recall

from sklearn.metrics import confusion_matrix
from sklearn.metrics import auc, roc_curve

# 混淆矩阵
confusion_m = confusion_matrix(test_y, pred_y) 
print confusion_m

Output:

[[29  6]
 [ 4 22]]

total = confusion_m.sum()
tpr = float(confusion_m[0][0]) / (confusion_m[0][0] + confusion_m[1][0])
tnr = float(confusion_m[1][1]) / (confusion_m[1][1] + confusion_m[0][1])
print tpr, tnr

Output:

0.878787878788 0.785714285714

Just so so!!

画ROC曲线图：

pred_y = model.predict(test_x)  # 预测结果
pred_prob_y = model.predict_proba(test_x)[:, 1]  # 为正例的概率
fpr_list, tpr_list, throsholds = roc_curve(test_y, pred_prob_y)

# 画图
fig, ax = plt.subplots()
ax.plot(fpr_list, tpr_list)
ax.plot([0, 1], [0, 1], transform=ax.transAxes, ls="--", c="r")
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.rcParams['font.size'] = 12
plt.title('roc curve')
plt.xlabel('fpr')
plt.ylabel('tpr')
plt.grid(True)

Output:

前文说了，ROC曲线和坐标轴围成的面积越大，说明模型效果越好。这个面积就叫 AUC .根据AUC的值，可参考下面的规则评估模型：

0.90 - 1.00 = excellent

0.80 - 0.90 = good

0.70 - 0.80 = fair

0.60 - 0.70 = poor

0.50 - 0.60 = fail

看看我们训练模型的AUC

auc(fpr_list, tpr_list)

Output:

0.9032967032967033

OK， working well！

6. Feature Importance Analysis

训练完模型，我们希望能从模型里得到点什么，比如说哪些特征对模型结果贡献率比较大，是不是意味着这些影响因素在实际心脏病诊断中也是很重要对参考，或者说还能发现一些现有医学没有发现的发现。所有接下来我们做的是一件很有意思的事。

6.1 决策树可视化

如果我没记错的话，根据决策树的原理，越先分裂的特征越重要。那么下面对决策树进行可视化，看看它到底做了什么。

from sklearn.tree import export_graphviz

# 输出 feature_name
estimator = model.estimators_[1]
features = [i for i in train_x.columns]

# 0 —> no disease，1 —> disease
train_y_str = train_y.astype('str')
train_y_str[train_y_str == '0'] = 'no disease'
train_y_str[train_y_str == '1'] = 'disease'
train_y_str = train_y_str.values

sklearn 真是个好东西，你能想到对功能他都有。下面用 sklearn 的 export_graphviz 对决策树进行可视化。

export_graphviz(estimator, out_file='tree.dot', 
                feature_names = features,
                class_names = train_y_str,
                rounded = True, proportion = True, 
                label='root',
                precision = 2, filled = True)

生成对这个 tree.dot 文件还不能直接看，网上查了一下，把它输出来看看。

import pydotplus
from IPython.display import Image
img = pydotplus.graph_from_dot_file('tree.dot')
#img.write_pdf('tree.pdf') #输出成PDF
Image(img.create_png())

Output：

实际上这张图就解释来决策树的生成过程。一般我们认为最先分裂的特征越重要，但是从这张图我们并不能很直观的看出特征的重要性。

6.2 Permutation importance

我们换一个工具—Permutation importance. 其原理是依次打乱test_data中其中一个特征数值的顺序，其实就是做shuffle，然后观察模型的效果，下降的多的说明这个特征对模型比较重要。

import eli5
from eli5.sklearn import PermutationImportance

perm = PermutationImportance(model, random_state=20).fit(test_x, test_y)
eli5.show_weights(perm, feature_names=test_x.columns.tolist())

Output：

一目了然，一切尽在不言中。还是说俩句吧，绿色越深表示正相关越强，红色越深表示负相关越强。
实际上我发现改变 PermutationImportance 的参数 random_state 的值结果变化挺大的，不过还是有几个特征位次变化不大，结果还是具有参考意义。

6.3 Partial Dependence Plots

我们试试另一个工具—Partial Dependence Plots. 其原理和 Permutation importance 有点类似，当它判断一个特征对模型的影响时，对于所有样本，将该特征依次取该特征的所有取值，观察模型结果的变化。先画图，再根据图解释一下。

from pdpbox import pdp, info_plots

total_features = train_x.columns.values.tolist()
feature_name = 'oldpeak'
pdp_dist = pdp.pdp_isolate(model=model, dataset=test_x, model_features=total_features, feature=feature_name)

pdp.pdp_plot(pdp_dist, feature_name)
plt.show()

Output：

上图的纵坐标是模型相对于base model 的变化，横坐标是该特征的所有取值，实线表示相对于base model 的变化的平均值，蓝色阴影表示置信度。oldpeak表示运动相对于休息引起的ST段压低，可以看到其取值越大，患心脏病的可能性越低。不知道这个结果可不可信，我觉得需要医学知识作支撑。

又试了几个特征：

Sex：

上图说明男性比女性患心脏病的概率要低些，网上查了一下，还真是这样。

Age：

上图表示60岁以上老人心脏病高发，这个和现有理论相符。

接下来看一下 2D Partial Dependence Plots.

inter = pdp.pdp_interact(model=model, 
						 dataset=test_x, 
						 model_features=total_features, 
						 features=['oldpeak', 'age'])

pdp.pdp_interact_plot(pdp_interact_out=inter, 
					  feature_names=['oldpeak', 'age'], 
					  plot_type='contour')
plt.show()

Output：

这个图一开始没看到，后来仔细看了Partial Dependence Plots 的说明文档才搞明白。图中颜色从浅到深表示患心脏病概率降低，以最深的那个紫色为例，oldpeak > 3.0 && 45 < age < 65 时，患病概率最低，图中黄色部分表示，oldpeak < 0.25 && ( age < 45 || age > 65 ) 时，患病概率最高。

7. 后记

实际上本项目的数据是非常小的，其结果的可靠性也是值得怀疑的。但是通过这个项目，去经历机器学习项目的完整过程，却能学到很多东西。重要的是过程，更重要的是举一反三。该项目还引入了2个很有趣的Feature Importance Analysis的方法，对于我来说是新知识，也算是学到了。

这一篇到这里结束了，期待下一篇。

Pycharm下载链接 Aderic 杂陈
人生苦短，我用python3.4https://download.jetbrains.8686c.com/python/pycharm-community-2018.1.1.tar.gz后续更新可能就是后面版本号码稍微差异，mark！
MySQL入门学习-查询优化.EXPLAIN
在MySQL中，'EXPLAIN'命令用于获取查询执行计划的信息。一、关于'EXPLAIN'的一些常见查询优化方面的特点、使用方法、与其他比较及高级应用：1.特点：-提供查询执行计划的详细信息，帮助了解查询的执行方式。-可以用于优化查询性能，找出潜在的性能问题。-适用于各种类型的查询，包括简单查询和复杂查询。2.使用方法：-在查询语句前添加'EXPLAIN'关键字，例如：'EXPLAINSELEC
天使之吻胜鬘夫人传递者
【天使之吻】(Bisoud’unAnge)文／胜鬘夫人（月光诗人-Véronique）在梦中Dansmonrêve,你给了我一个吻Tumedonnesunbisou,轻轻的吻在脸颊上Unbisoudetendressesurlevisage.那个来自于天堂净土的女孩Lafillevientduparadis轻盈飘逸的身影Lasilhouettelégère留下了天使之吻Melaisseunbiso
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
【论文蒸馏】Recent Advances in Speech Language Models: A Survey Greener_Pat 论文蒸馏语言模型人工智能 AudioLM
AbstractLLM蓬勃发展，但从交互的自然性上看语音大模型(SpeechLM)有巨大的发展空间。直接的方法是ASR(语音转文字)+LLM+TTS(文字转语音)，但是这样有其固有的限制，而端到端的SpeechLM表现更好，本文及其方法论做了一个概览的综述1.Introduction大语言模型提供了强大的AI基础支架，在其它领域有着广泛应用。但交互上不自然，所以需要声学大模型。一种直接的实现方式是
Linux查看服务器日志芝兰生于深谷 Linux linux 服务器 java
Linux查看服务器日志第一种：查看实时变化的日志#默认最后10行tail-fcatalina.out#显示最后20行tail-n20catalina.out#从第5行开始显示tail-n+5catalina.out第一种一般测试的时候使用，或者生产环境下调试。执行完代码及时CTRL+C看下日志打印信息。第二种：搜索关键字附近的日志cat-ncatalina.out|grep“关键字”cat-nc
单点登录实施的前提是什么？ jiangshanhot
单点登录即用户只需要登录一次就可以访问所有相互信任的应用系统，对应4A中的统一认证。我们都知道，统一认证必然会依赖统一帐号，因此单点登录实施的前提就是统一帐号（用户）。最近关注了东软SaCaIAM统一身份认证平台这个产品，很多功能做的都不错，还有详细介绍https://platform.neusoft.com/
都匀可以做亲子鉴定的正规医院—共15家（2024年汇总）基因亲子
在遗产纠纷当中，其实使用司法亲子鉴定的频率相对是比较高的，尤其是在不知道继承人是否为亲生的情况下，一般都会使用这种方法，主要是为了更好的判定继承权到底属于哪一方，毕竟亲缘关系对于遗产的继承比例是有着非常大的影响的。亲子鉴定需要去专门的基因检查机构进行，其中司法亲子鉴定必须在有司法鉴定许可证的司法亲子鉴定机构进行，个人亲子鉴定可以在有亲子鉴定咨询的机构进行。一般医院不做亲子鉴定。医院作为综合性医疗服
C++day01 张张张鱼小丸子 C++基础 c++
从C到C++1.1基本程序框架C++来源于C，其基本程序框架相同：头文件+main函数，有时会自定义函数在main函数中调用#includeusingnamespacestd;//命名空间intmain(){ //写自己的代码 return0;}注：任何C语言的关键字和头文件函数都可在C++中使用定义变量的方法和C语言一模一样1.2C++的输入输出C++的输入cin和输出cout定义在头文件i
最新虚拟串口 Virtual Serial Port Driver V11.0.1068 已经汉化中游鱼虚拟串口汉化虚拟串口 VSPD11.0.1047
最新虚拟串口VirtualSerialPortDriverV11.0.1068已经汉化1、简介1.1、项目技术分析1.2、项目及技术应用场景1.3、项目特点1.4、总结2、软件功能2.1、创建任意数量的虚拟串口对（pairs）2.2、回环(loopback)端口捆绑2.3、串口分割（Splitting）2.4、结合COM端口（Joining）2.5、创建捆绑连接（bundles）2.6、自动切换端
DNS考点
在网络工程师、系统工程师、运维工程师、安全工程师等岗位的面试中，DNS（DomainNameSystem，域名系统）是高频必考知识点。DNS作为互联网的“电话簿”，负责将人类可读的域名（如www.example.com）解析为机器可识别的IP地址（如192.0.2.1），是网络通信的基础组件。以下是系统化的核心考点梳理，涵盖DNS基础概念、工作原理、协议细节及应聘高频问题。一、DNS基础考点1.D
【狂神说JAVA】JVM快速入门-1 Jackson Cortex jvm java
链接http://player.bilibili.com/player.html?aid=76728711&bvid=BV1iJ411d7jS&cid=131232435&page=1http://player.bilibili.com/player.html?aid=76728711&bvid=BV1iJ411d7jS&cid=131232435&page=1内容一、探究JVM0、面试题谈谈对J
Agent架构与工作原理：理解智能体的核心机制 hdzw20 agent学习 ai 机器学习 agent 智能体
Agent架构与工作原理：深入理解智能体的核心机制AIAgent的核心组成部分一个完整的AIAgent通常由以下几个核心模块组成：1.规划模块（PlanningModule）规划模块是Agent的"大脑"，负责制定行动策略。它接收目标任务，分析当前状态，并制定一系列行动计划。规划可以是：短期规划：针对当前步骤的即时决策长期规划：面向整体目标的战略性规划动态规划：根据执行结果实时调整计划2.记忆模块
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
nginx 配置 https http R_miss nginx https http
nginx配置https域名访问参考文档https://blog.csdn.net/heng_yan/article/details/938740351.域名已经分配好这时需要和项目进行关联，能通过域名访问连接调通分配的域名：https://xxx.com2个证书文件：xxx.key文件,xxx.pem证书放在服务器上的使用本地命令把文件放在服务器上2.进入liunx服务器先查询服务器是否配置过n
【PGCCC】PostgreSQL 18 Beta 1发布，有哪些亮点？ PGCCC-PostgeSQL培训认证 postgresql 数据库
PostgreSQL全球开发组于2025年5月8日发布了第一个PostgreSQL18Beta版本，现已开放下载。虽然细节可能会有所改变，但是该版本包含了PostgreSQL18最终正式版中所有新功能的预览。以下是PostgreSQL18引入的部分关键功能亮点。性能优化异步I/O（AIO），通过全新的异步I/O子系统提升I/O吞吐量并隐藏延迟。Linux系统可使用io_uring，其他平台则提供基
程序是如何生成的-以c语言为例
一，序言从代码到能跑的程序，整个过程就像“把外文翻译成母语，再组装成能直接用的东西”，一步步来更清楚：源代码（程序员写的代码，如C语言文件）↓预处理（处理#开头的命令，如#include、#define）↓编译（把预处理后的代码转成汇编语言）↓汇编（把汇编语言转成二进制机器码，生成目标文件，如main.o）↓链接（合并多个目标文件和库文件，解决函数/变量地址问题）↓可执行文件（生成能直接运行的文件
2023-01-04 我们的民谣2022——音乐的纯粹与感情的唤起 Amy艾米的星空
ai奇艺的音乐综艺一直做的不错，从《我是唱作人》到《乐队的夏天》，留下了很多经典的片段和歌曲。2022年年底开启的《我们的民谣2022》也妥妥地戳中了大部分爱音乐人的心窝。搞音乐创作的，或者通俗的说，唱歌的人，都很纯粹。因为音乐是感情的抒发，没有充沛的感情，没有敏感的心灵，很难创作出经典的作品，引起听者的共鸣。像乐队的夏天里面，很多乐队的人都真性情，很有个性。正因为他们能够保持自己的独特性，他们的
apache ignite系列（二）：配置 weixin_30521161
ignite有两种配置方式，一种是基于XML文件的配置，一种是基于JAVA代码的配置：这里将ignite常用的配置集中罗列出来了，一般建议使用xml配置。1，基于XML的配置-->org.cord.*-->java.lang.Longcom.palic.demo.data.domain.CommRate-->-->-->-->-->-->-->-->-->-->-->127.0.0.1:48500
大模型(LLM)推理框架汇总 AIGC大模型吱屋猪 langchain 人工智能 AI-native 百度产品经理神经网络自然语言处理
MLCLLMsubmodulesinMLCLLM大模型(LLM)好性能通用部署方案，陈天奇(tvm发起者)团队开发.项目链接docs:https://llm.mlc.ai/docs/github:https://github.com/mlc-ai/mlc-llm支持的平台和硬件platforms&hardware支持的模型|Architecture|PrebuiltModelVariants||—
Flutter基础（前端教程①⑦-Column竖直-Row水平-Warp包裹-Stack堆叠） aaiier Flutter flutter
MainAxisAlignment是一个枚举类，用于控制主轴（MainAxis）方向上子组件的排列和对齐方式。MainAxisAlignment的常用取值及效果：MainAxisAlignment.start子组件沿主轴的起点对齐（Row左对齐，Column顶部对齐）MainAxisAlignment.end子组件沿主轴的终点对齐（Row右对齐，Column底部对齐）MainAxisAlignme
web登录注册页面 m0_67391518 面试学习路线阿里巴巴前端 java html mysql 数据库
目录web登录注册页面效果图结构图Java代码User.javaUserMapper.javaIndexServlet.javaRegisterServlet.javaDButil.javaxml配置文件mybatis-config.xmldb.propertiesweb.xmlhtml与cssindex.jspindex.cssregister.htmlregister.css文章目录web登录
边缘计算监控突围：Prometheus在5G MEC环境中的瘦身方案
作者：开源大模型智能运维FreeAiOps引言：5GMEC场景下的监控挑战与机遇随着5G多接入边缘计算（MEC）的普及，监控系统面临前所未有的挑战：资源碎片化：边缘节点通常部署在资源受限的硬件上（如ARM服务器、工业网关），CPU和内存容量仅为传统云服务器的1/5网络波动性：MEC设备常位于基站侧或工厂车间，面临高丢包率（5%-15%）和间歇性断网问题数据爆炸：单台MEC设备可能承载数百个物联网终
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
Android UI 组件系列（五）：CheckBox、RadioButton 与 Switch 控件详解
博客专栏：Android初级入门UI组件与布局源码：通过网盘分享的文件：Android入门布局及UI相关案例链接:https://pan.baidu.com/s/1EOuDUKJndMISolieFSvXXg?pwd=4k9n提取码:4k9n引言在Android开发中，用户与应用的交互往往离不开各种“选择”操作，例如：注册表单中选择兴趣爱好（可多选）设置界面中切换通知、Wi-Fi开关（开/关状态）
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
聊聊artemis的SlowConsumerReaperRunnable go4it
序本文主要研究一下artemis的SlowConsumerReaperRunnableSlowConsumerPolicyactivemq-artemis-2.11.0/artemis-server/src/main/java/org/apache/activemq/artemis/core/settings/impl/SlowConsumerPolicy.javapublicenumSlowCo
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
家庭服务具身智能机器人体系架构
硬件方面：差速移动机器人+六轴协作机械臂，软件方面选择ROS系统：底盘控制move_group，机械臂操纵MoveIt，大模型方面采用VLM+LLM：（1）视觉语言模型（VLM），用来实现环境理解与指令解析，候选模型为LLaVA和Qwen-VL。微调VLM需要2~4周，工作量主要是准备环境数据和标注期望输出。（2）大语言模型（LLM），用来实现任务分解与技能调用，候选工具有LangChain（任务
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

kaggle实战——What Causes Heart Disease?

Content

1. Introduction

2. Data

3. 数据预处理

4. Random Forest

5. 模型评估

6. Feature Importance Analysis

6.1 决策树可视化

6.2 Permutation importance

6.3 Partial Dependence Plots

7. 后记

你可能感兴趣的:(AI,Machine,Learning,Random,Forest,AI医疗,心脏病,Machine,Learning,项目实战)