SciKit-learn轻松使用机器学习(1)Sklearn库初识

1. 引言:Why Sklearn?

1.1. scikit-learn 是基于 Python 语言的机器学习工具

  1. 简单高效的数据挖掘和数据分析工具;
  2. 可供大家在多环境、跨平台中重复使用;
  3. 建立在 NumPy SciPy matplotlib 上;
  4. 开源,可商业使用 - BSD许可证。

SciKit-learn轻松使用机器学习(1)Sklearn库初识_第1张图片

从上图不难发现,sklearn库的官方指南非常详细且简单明了,它一共包含6大部分,分别是:

  • 分类Classification

  • 回归regression

  • 聚类Clustering

  • 降维Dimension Reduction

  • 模型选择Model selection

  • 数据预处理Preprocessing

SciKit-learn轻松使用机器学习(1)Sklearn库初识_第2张图片

SciKit-learn轻松使用机器学习(1)Sklearn库初识_第3张图片

不难看出,sklearn和tf有很大区别。虽然sklearn中也有神经网络模块,但做严肃的、大型的深度学习是不可能依靠sklearn的。虽然tf也可以用于做传统的机器学习、包括清理数据,但往往事倍功半。

更常见的情况下,可以把sklearn和tf,甚至keras结合起来使用。sklearn肩负基本的数据清理任 务,keras用于对问题进行小规模实验验证想法,而tf用于在完整的的数据上进行严肃的调参(炼丹) 任务。

而单独把sklearn拿出来看的话,它的文档做的特别好,初学者跟着看一遍sklearn支持的功能大概 就对机器学习包括的很多内容有了基本的了解。举个简单的例子,sklearn很多时候对单独的知识点 有概述,比如简单的异常检测(2.7. Novelty and Outlier Detection)。因此,sklearn不仅仅是简单 的工具库,它的文档更像是一份简单的新手入门指南。 因此,以sklearn为代表的传统机器学习库(如瑞士军刀般的万能但高度抽象),和以tf为代表的自 由灵活更具有针对性的深度学习库(如乐高般高度自由但使用繁琐)都是机器学习者必须要了解的 工具。

 


1.2 scikit-learn 功能架构

  • Classification分类
  1. SVM支持向量机

  2. k-最近邻

  3. 随机森林等

  • Regression回归
  1. SVR等
  • Clustering聚类
  1. k-means等
  • Dimensionality reduction降维
  1. PCA
  2. 特征选择等
  • Model Selection模型选择
  • Preprocessing数据、模型预处理
  1. 预处理
  2. 特征提取等

1.3 官方文档英/中

学习scikit-learn如同学习机器学习知识一般,理论知识、代码实现和可视化结果,有助于快速入门机器学习。

scikit-learn官方英文文档:https://scikit-learn.org/stable/index.html

考虑到英文文档阅读起来较为吃力,Github上目前已经更新了译者版本的中文文档,请查阅链接:

http://sklearn.apachecn.org/#/


2. SciKit-Learn学习路线

主要内容如下,另外,点击超链接即可传送至视频出处进行详细观看和学习。

  • Sklearn 简介

    1. 1.1 机器学习 (Machine Learning)
    2. 1.2 Why Sklearn?
    3. 1.3 Sklearn 安装
  • 一般使用

    1. 2.1 选择学习方法
    2. 2.2 通用学习模式
    3. 2.3 sklearn 强大数据库
    4. 2.4 sklearn 常用属性与功能
  • 高级使用

    1. 3.1 正规化 Normalization
    2. 3.2 检验神经网络 (Evaluation)
    3. 3.3 交叉验证 1 Cross-validation
    4. 3.4 交叉验证 2 Cross-validation
    5. 3.5 交叉验证 3 Cross-validation
    6. 3.6 保存模型

3. 一般应用

3.1 选择学习方法

3.2 通用学习模式

 

3.3 sklearn 强大库函数

 

3.4 sklearn 常用属性与功能

 

 


4.  高级应用

4.1 正规化

 

4.2 检验神经网络

 

4.3 交叉验证

 

4.4 保存和加载模型

 

 

你可能感兴趣的:(SciKit-Learn,scikit-learn,机器学习,神经网络框架)