【Python机器学习系列】建立支持向量机模型预测心脏疾病(完整实现过程)

一、问题

    对于表格数据,一套完整的机器学习建模流程如下:

【Python机器学习系列】建立支持向量机模型预测心脏疾病(完整实现过程)_第1张图片

        针对不同的数据集,有些步骤不适用即不需要做,其中橘红色框为必要步骤,由于数据质量较高,本文有些步骤跳过了,跳过的步骤将单独出文章总结!同时欢迎大家关注翻看我之前的一些相关文章。

一文彻底搞懂机器学习中的归一化与反归一化问题

【Python机器学习系列】一文彻底搞懂机器学习中表格数据的输入形式(理论+源码)

【Python特征工程系列】利用随机森林模型分析特征重要性(源码)

【Python特征工程系列】8步教你用决策树模型分析特征重要性(源码)

【Python机器学习系列】拟合和回归傻傻分不清?一文带你彻底搞懂它

【Python机器学习系列】建立决策树模型预测心脏疾病(完整实现过程)

        支持向量机(Support Vector Machine,SVM)是一种常用的监督学习算法,用于二分类和多分类问题。它的主要思想是找到一个最优的超平面,将不同类别的样本分开,并尽可能地使两个类别之间的间隔最大化。SVM 的基本原理如下:

  • 数据表示:将每个样本表示为一个特征向量,其中每个特征表示样本的某个属性或特征。

  • 分类超平面:SVM 的目标是找到一个超平面,可以将不同类别的样本分开。在二维空间中,这个超平面就是一条直线;在更高维空间中,它是一个超平面。

  • 支持向量:支持向量是离分类超平面最近的样本点。这些样本点对于定义超平面并确定分类边界非常重要。

  • 最大间隔:SVM 的目标是找到一个最优的超平面,使得支持向量到分类超平面的距离最大化。这样可以增加分类的鲁棒性和泛化能力。

  • 核函数:SVM 可以使用核函数来将低维特征空间映射到高维特征空间,以处理非线性可分的问题。常用的核函数包括线性核、多项式核和高斯核等。

本文将实现基于心脏疾病数据集建立支持向量机模型对心脏疾病患者进行分类预测的完整过程。

二、实现过程

导入必要的库

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_curve
from sklearn.metrics import auc
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

1、准备数据

data = pd.read_csv(r'Dataset.csv')
df = pd.DataFrame(data)

df:

【Python机器学习系列】建立支持向量机模型预测心脏疾病(完整实现过程)_第2张图片

数据基本信息:

print(df.head())
print(df.info())
print(df.shape)
print(df.columns)
print(df.dtypes)
cat_cols = [col for col in df.columns if df[col].dtype == "object"] # 类别型变量名
num_cols = [col for col in df.columns if df[col].dtype != "object"] # 数值型变量名

2、提取特征变量和目标变量

target = 'target'
features = df.columns.drop(target)
print(data["target"].value_counts()) # 顺便查看一下样本是否平衡

3、数据集划分

df = shuffle(df)
X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=0.2, random_state=0)

4、模型的构建与训练

model = SVC(probability=True)
model.fit(X_train, y_train

参数详解:

svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, 
shrinking=True, probability=False, tol=0.001, cache_size=200,
 class_weight=None, verbose=False, max_iter=-1, decision_function_shape='ovr', random_state=None)
 
- C:C-SVC的惩罚参数C?默认值是1.0,C越大,相当于惩罚松弛变量,希望松弛变量接近0,即对误分类的惩罚增大,趋向于对训练集全分对的情况,这样对训练集测试时准确率很高,但泛化能力弱。C值小,对误分类的惩罚减小,允许容错,将他们当成噪声点,泛化能力较强。
kernel :核函数,默认是rbf,可以是‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’
  – 线性:u’v
  – 多项式:(gamma*u’v + coef0)^degree
  – RBF函数:exp(-gamma|u-v|^2)
  –sigmoid:tanh(gammau’*v + coef0)
- degree :多项式poly函数的维度,默认是3,选择其他核函数时会被忽略。
- gamma : ‘rbf’,‘poly’ 和‘sigmoid’的核函数参数。默认是’auto’,则会选择1/n_features
- coef0 :核函数的常数项。对于‘poly’和 ‘sigmoid’有用。
- probability :是否采用概率估计.默认为False,布尔类型,可选,默认为False,决定是否启用概率估计。需要在训练fit()模型时加上这个参数,之后才能用相关的方法:predict_proba和predict_log_proba
- shrinking :是否采用shrinking heuristic方法,默认为true
- tol :停止训练的误差值大小,默认为1e-3
- cache_size :核函数cache缓存大小,默认为200
- class_weight :类别的权重,字典形式传递。设置第几类的参数C为weight*C(C-SVC中的C)
- verbose :是否启用详细输出,一般为Flase。
- max_iter :最大迭代次数。-1为无限制。
- decision_function_shape :‘ovo’, ‘ovr’ or None, default=None3
- random_state :数据洗牌时的种子值,int值

5、模型的推理与评价

y_pred = model.predict(X_test)
y_scores = model.predict_proba(X_test)
acc = accuracy_score(y_test, y_pred) # 准确率acc
cm = confusion_matrix(y_test, y_pred) # 混淆矩阵
cr = classification_report(y_test, y_pred) # 分类报告
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:, 1], pos_label=1) # 计算ROC曲线和AUC值,绘制ROC曲线
roc_auc = auc(fpr, tpr)
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

cm:

图片

cr:

【Python机器学习系列】建立支持向量机模型预测心脏疾病(完整实现过程)_第3张图片

ROC:

【Python机器学习系列】建立支持向量机模型预测心脏疾病(完整实现过程)_第4张图片

三、小结

        在 scikit-learn(sklearn)库中,支持向量机的分类算法(SVC)被实现在 sklearn.svm 模块中。本文利用scikit-learn(一个常用的机器学习库)实现了基于心脏疾病数据集建立支持向量机模型对心脏疾病患者进行分类预测的完整过程。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信哦

作者简介:

读研期间发表6篇SCI数据挖掘相关论文,现在某研究院从事数据算法相关科研工作,结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创,以最简单的方式理解和学习,关注我一起交流成长。

你可能感兴趣的:(机器学习,机器学习,支持向量机,python)