Azure官网:https://studio.azureml.net/
UCI机器学习数据库的网址:http://archive.ics.uci.edu/ml/
该数据库是加州大学欧文分校(UniversityofCalifornialrvine)提出的用于机器学习的数据库,这个数据库目前共有187个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。数据库不断更新,是所有学习人工智能、机器学习等都需要用到的数据库,是看文章、写论文、测试算法的必备数据集。数据库种类涉及生活、工程、科学各个领域,记录数也是从少到多,最多达几十万条。
我们使用其中:美国人口普查数据集(https://archive.ics.uci.edu/ml/datasets/census+income)的数据,该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K/year。该数据集类变量为年收入是否超过50k,属性变量包含年龄,工种,学历,职业,人种等重要信息,
值得一提的是,14个属性变量中有7个类别型变量,数据集各属性:其中序号0~13是属性, 14是类别
数据集局部图如下图所示:
注意,在插入这些列的标题后,一定要以 .csv 格式保存,且保存时将文件命名为 adult.data.csv 。
将人口收入普查数据集添加了列标题后,我们即可将数据上载至Azure机器学习工作区,并将其纳入预测模型。点击屏幕左下方的"+",然后选择上传的数据集。下图显示上传本地数据文件的选项。
完成信息的输入并点击签入按钮后,您的数据集将异步加载至您的第一个Azure机器学习实验的工作区中:
创建新的实验的方法是点击屏幕左下角的"+NEW"按钮,选择"实验"(EXPERIMENT)>“空白实验”(Blank Experiment):
完成新的空白实验的加载后,您可见到如下图所示的Azure ML Studio可视化设计界面
左侧导航窗格 此区域包含Azure机器学习模块的可搜索列表,此模型可用于创建预测分析模型。
按功能区域分组的模块
数据集的读取和格式转换;
使用和训练机器学习算法;
评估预测模型的结果。
中间窗格 在可视化设计器中,Azure机器学习的实验类似于流程图的形式,可以通过拖拽左侧窗格中的功能模块至可视化设计器的中间窗格组装成工作流。模块可以自由的被拖放在中间窗格的任意位置,模块之间通过输入和输出端口之间画线连接。
右侧窗体 在属性视图中,可在右侧窗体查看和设置被选择模块的属性。
在左侧窗体展开**“已保存的数据集(Saved Datasets)”**选项,便可以看到我们上载的用于Azure机器学习的 Adult.data.csv 数据文件出现在数据集的列表中,如图显示 Adult.data.csv 将被拖放至可视化设计器的中间窗体:
通常,创建Azure机器学习实验后,我们都会将数据集分割为两个分组即训练数据和验证数据,这样做有两个特定目的:
1,训练数据通常用来创建预测模型,基于机器学习算法发现历史数据中的固有模式。
2,验证数据的分组用来测试训练数据创建的预测模型对于已知结果预测的精度和概率。
执行以下的步骤将数据集分割成两部分。
1,在左侧窗体中展开"Data Transformation“即数据转换模块。
2,拖动“Split“即分割模块至Azure 机器学习设计器。
3,连接"Split“模块与Adult.data.csv数据集。
4,点击分割模块并设置"Fraction of rows in the first output dataset"为0.8。这将80%的数据分割至训练数据集中。
以上操作就将数据集中的80%的数据用于训练模型,我们可使用剩余的20%数据验证模型的精度。
借助Azure机器学习算法”教“模型如何评估数据在左侧窗体中展开“"Machine Learning"即机器学习模块然后展开“Train"子模块将“Train Model"拖放至设计器中,最后在设计器中连接"Train Model"和"Split"图形。
然后,我们展开"Machine Learning”即机器学习模块下的"Initialize Model"即初始化模型,展开"Classfication”即分类子模块。在此实验中,我们使用“Two-Class Boosted Decision Tree“即双类提升的决策树算法。在左侧窗体中选中该算法模块并将其拖放至设计器中,至此您的实验应该如下图所示。
要完成算法的配置,我们需要指定数据集中的哪一列数据作为输出或者预测列,数据集中的任意列将基于其他列的数据做预测。若要执行此操作,在设计器中点击"Train Model",属性窗体将在Azure ML Studio的右侧窗体中显示,若您在设计器中设置,请选择"Launch column selector“即启动列选择器,选择"“Include"和列名称为“income“即收入的列。
下图所示的列选择器将数据集中的收入列作为预测列,即要预测的是用户收入。如下图所示。
按照这种方式,Azure机器学习算法从每行数据中的其他列训练模型,以预测收入。我们使用数据集中的80%基于已知的输入和输出数据训练训练模型。
至此,我们已经做好训练模型的准备,选择屏幕底端的“RUN“即运行选项,然后静待Azure机器学习训练我们的模型。您会注意到,实验每个阶段完成的时候,绿色的复选框就出现在每个操作的右侧,如下图所示。
现在我们已经训练完成新的Azure机器学习预测模型,下一步我们从解决方案的适用性的角度评估预测结果的正确性,以确定模型的精度。请牢记,Azure 机器学习解决方案伟大之处在于迭代开发,最终成功的关键是快速试错。
如要实现对模型的评价,首先展开Azure ML Studio左侧的"Machine Learning"即机器学习模块,然后展开"Score Model“即评分模型子模块,将"Score Model"拖放至设计器中,下一步连接"Score Model"和"Train Model",最后链接"Score Model“和“Split"模块。至此,基本上就完成了利用数据集中20%的数据评估预测模型的准确性。
下一步,单击屏幕底部的“Run"即运行按钮等待处理的结果(每个模块右侧出现绿色的复选标记表示运行完毕)。下图是机器学习实验预测收入的运算过程截图。
当所有的模型运算结束后,将鼠标悬停在"Score Model"即评分模型上点击右键,从快捷菜单中选择"Visualize“即可视化,如下图所示。
当您选择可视化新训练的模型数据选项后,会生成一个新的页面。在可视化的界面中滑动滚动条至最右端,您会发现两个额外的列显示在数据集中,如下图所示。
可以看到现在有两个额外的列添加到了我们的数据集中:
1,"Scored Lables“即评分标签表示数据集中此行数据的预测结果
2,"Scored Probabilities“即评分概率表示收入水平超过$50000的概率(或可能性)。
在我们数据集中新增的列提供了算法针对每行数据计算的预测结果和概率因子。概率因子是模型基于数据集中其他列数据预测结果的准确度的概率估计。通常情况下,预测分析是一个多轮迭代的过程。可能您会尝试许多不同的算法,或者将他们联合使用(在高级的机器学习主题文章中被称为集成)以证明预测模型的有效性。
Azure机器学习最引入注目的功能之一就是它能够快速评估不同的算法,只要轻点鼠标就可完成这些功能,这一切都归功于评估模型。
确定模型的精准度的方法很简单,我们只要使用Azure ML Studio内置的评估模型就轻松完成模型的评价。
若要执行此操作,在Azure ML Studio的左侧导航窗格中点击"Machine Learning”即机器学习模块,选择“Evaluate”即评估子模块,最后选择"Evaluate Model"即评估模型的模块,将其拖至可视化设计器页面中的“Score Model"模块下方。连接"Split Model"和"Score Model“即分割模型和评分模型,以及"Evaluate Model"和"Score Model"即评价模型和评分模型,如下图所示。
点击Azure ML Studio屏幕底部的“Run"即运行按钮,在执行过程中您可以查看实验中每个模块的运行情况,如果模块运行完毕会在模块的右侧显示绿色的复选标记。整个过程运行完毕后,右键单击评估模型的模块底部连接器,在快捷菜单中选择"Visualize“即可视化:
评估的结果就会如下图显示:
评分结果以以下三种形式展示:
ROC曲线(Receiver Operator Characteristic) 即受试者工作特征曲线反映的是真阳性占总的实际阳性的比例。将它与在各种阈值设置情况下假阳性占总的实际阴性的比例进行对比。对角连线表示50%预测的准确性,并可作为评价的基准以便后续提高。曲线位于左边高出对角线的部分表示模型的精准度高,当然您也会希望实验的结果曲线出现在此区域。
准确率和召回率是衡量信息检索系统性能的重要指标。准确率是指检索到相关文档数占检索到的文档总数的比例,而召回率是指检索到相关文档数占所有相关文档总数的比例。
lift 曲线 是数据挖掘分类器最常用的方式之一,与ROC曲线不同的是lift考虑分类器的准确性,也就是使用分类器获得的正类数量和不使用分类器随机获取正类数量的比例。
可视化结果中,您可看到两个数据集(“训练”数据集和“验证”数据集)几乎完全相同,即红色和蓝色曲线几乎完全重合,这表明我们的预测模型相当准确。Azure机器学习入门的初衷就是构建合理准确的预测模型,并在下一个阶段中进行应用。
屏幕底部点击"SaveAs"。