机器学习笔记 - 基于Scikit-Learn的各种分类器进行分类并比较

一、概述

        scikit-learn是基于python语言构建机器学习应用程序的最佳库之一。简单易用,并且它有很多示例和教程。除了监督式机器学习(分类和回归)外,它还可用于聚类、降维、特征提取和工程以及数据预处理。该接口在所有这些方法上都是一致的,因此它不仅易于使用,而且也很容易构建一个大型分类器/回归模型集合并使用相同的命令训练它们。

        我们这里基于scikit-learn构建,训练,评估和验证分类器,通过超参数优化改进初始分类器。这里通过两个简单的示例数据集来进行分类。

        这里选择了玻璃数据集和蘑菇数据集,玻璃数据集包含六种玻璃的数据(来自建筑窗户、容器、餐具、前照灯等),每种类型的玻璃都可以通过几种矿物质(例如钠、铁、钾等)的含量来识别。此数据集仅包含数值数据,因此是一个很好的入门数据集。蘑菇数据集包含非数值数据,我们需要一个额外的步骤,将分类数据编码为数值数据。

        玻璃数据集下载地址

Glass Identification - UCI Machine Learning Repository

你可能感兴趣的:(机器学习,机器学习,scikit-learn,分类器,one-hot,EDA)