对于表格数据,一套完整的机器学习建模流程如下:
针对不同的数据集,有些步骤不适用即不需要做,其中橘红色框为必要步骤,由于数据质量较高,本文有些步骤跳过了,跳过的步骤将单独出文章总结!同时欢迎大家关注翻看我之前的一些相关文章。
一文彻底搞懂机器学习中的归一化与反归一化问题
【Python机器学习系列】一文彻底搞懂机器学习中表格数据的输入形式(理论+源码)
【Python特征工程系列】利用随机森林模型分析特征重要性(源码)
【Python特征工程系列】8步教你用决策树模型分析特征重要性(源码)
【Python机器学习系列】拟合和回归傻傻分不清?一文带你彻底搞懂它
【Python机器学习系列】建立决策树模型预测心脏疾病(完整实现过程)
逻辑回归(Logistic Regression)是一种用于解决二分类问题的统计学习方法。尽管名字中带有"回归",但实际上逻辑回归是一种分类算法,用于预测样本属于某个类别的概率。逻辑回归的基本思想是通过线性回归模型的输出值经过一个逻辑函数(也称为sigmoid函数)进行映射,将连续的输出转换为概率值。逻辑回归的参数估计通常使用最大似然估计或梯度下降等方法进行求解。模型训练完成后,可以使用阈值来对概率进行二分类,通常将概率大于等于阈值的样本划分为正类别,概率小于阈值的样本划分为负类别。在实际应用中,逻辑回归广泛用于二分类问题,例如信用评分、疾病预测、垃圾邮件分类等。此外,逻辑回归也可以通过一些技巧进行拓展,用于解决多分类问题。在Python中,逻辑回归算法的实现可以使用scikit-learn库中的LogisticRegression
类,该类提供了灵活的参数设置和方便的模型训练和预测方法。
本文将实现基于心脏疾病数据集建立逻辑回归模型对心脏疾病患者进行分类预测的完整过程。
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_curve
from sklearn.metrics import auc
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
data = pd.read_csv(r'Dataset.csv')
df = pd.DataFrame(data)
df:
数据基本信息:
print(df.head())
print(df.info())
print(df.shape)
print(df.columns)
print(df.dtypes)
cat_cols = [col for col in df.columns if df[col].dtype == "object"] # 类别型变量名
num_cols = [col for col in df.columns if df[col].dtype != "object"] # 数值型变量名
target = 'target'
features = df.columns.drop(target)
print(data["target"].value_counts()) # 顺便查看一下样本是否平衡
df = shuffle(df)
X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=0.2, random_state=0)
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
y_scores = model.predict_proba(X_test)
acc = accuracy_score(y_test, y_pred) # 准确率acc
cm = confusion_matrix(y_test, y_pred) # 混淆矩阵
cr = classification_report(y_test, y_pred) # 分类报告
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:, 1], pos_label=1) # 计算ROC曲线和AUC值,绘制ROC曲线
roc_auc = auc(fpr, tpr)
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()
cm:
cr:
ROC:
本文利用scikit-learn(一个常用的机器学习库)实现了基于心脏疾病数据集建立逻辑回归模型对心脏疾病患者进行分类预测的完整过程。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信哦!
作者简介:
读研期间发表6篇SCI数据挖掘相关论文,现在某研究院从事数据算法相关科研工作,结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创,以最简单的方式理解和学习,关注我一起交流成长。