手把手丨我们在UCL找到了一个糖尿病数据集，用机器学习预测糖尿病

摘要：根据美国疾病控制预防中心的数据，现在美国1/7的成年人患有糖尿病。但是到2050年，这个比例将会快速增长至高达1/3。我们在UCL机器学习数据库里一个糖尿病数据集，希望可以通过这一数据集，了解如何利用机器学习来帮助我们预测糖尿病，让我们开始吧！数据集github链接：https://github.com/susanli2016/Machine-Learning-with-Python/blob/master/diabetes.csv 数据糖尿病数据集可从UCI机器学习库中获取并下载。

根据美国疾病控制预防中心的数据，现在美国1/7的成年人患有糖尿病。但是到2050年，这个比例将会快速增长至高达1/3。我们在UCL机器学习数据库里一个糖尿病数据集，希望可以通过这一数据集，了解如何利用机器学习来帮助我们预测糖尿病，让我们开始吧！

数据集github链接：https://github.com/susanli2016/Machine-Learning-with-Python/blob/master/diabetes.csv

数据

糖尿病数据集可从UCI机器学习库中获取并下载。

特征（怀孕次数，血糖，血压，皮脂厚度，胰岛素，BMI身体质量指数，糖尿病遗传函数，年龄，结果）：

糖尿病数据集由768个数据点组成，各有9个特征：

“结果”是我们将要预测的特征，0意味着未患糖尿病，1意味着患有糖尿病。在768个数据点中，500个被标记为0,268个标记为1。

KNN算法

k-NN算法几乎可以说是机器学习中最简单的算法。建立模型只需存储训练数据集。而为了对新的数据点做出预测，该算法会在训练数据集中找到与其相距最近的数据点——也就是它的“近邻点”。

首先，让我们研究一下是否能够确认模型的复杂度和精确度之间的关系：

上图展示了训练集和测试集在模型预测准确度（y轴）和近邻点个数设置（x轴）之间的关系。如果我们仅选择一个近邻点，那么训练集的预测是绝对正确的。但是当更多的近邻点被选入作为参考时，训练集的准确度会下降，这表明了使用单一近邻会导致模型太过复杂。这里的最好方案可以从图中看出是选择9个近邻点。

图中建议我们应该选择n_neighbors=9，下面给出：

K-NN分类的准确度在训练集中为：0.7

K-NN分类的准确度在测试集中为：0.7

逻辑回归

逻辑回归是最常见的分类算法之一。

训练集准确度：0.781

测试集准确度：0.771

正则化参数C=1（默认值）的模型在训练集上准确度为78%，在测试集上准确度为77%。

训练集准确度：0.785

测试集准确度：0.766

而将正则化参数C设置为100时，模型在训练集上准确度稍有提高但测试集上准确度略降，说明较少正则化和更复杂的模型并不一定会比默认参数模型的预测效果更好。

因此，我们选择默认值C=1。

让我们用可视化的方式来看一下用三种不同正则化参数C所得模型的系数。

更强的正则化(C = 0.001)会使系数越来越接近于零。仔细地看图，我们还能发现特征“DiabetesPedigreeFunction”（糖尿病遗传函数）在 C=100, C=1 和C=0.001的情况下, 系数都为正。这表明无论是哪个模型，DiabetesPedigreeFunction（糖尿病遗传函数）这个特征值都与样本为糖尿病是正相关的。