机器学习入门

概述

此学习路径专为有兴趣快速掌握机器学习的任何人而设计。学习路径包括分步教程和动手演示,您将在其中构建模型并在应用中使用它们。你将使用 Python 和 scikit-learn 来生成和测试模型。

技能水平

初学者

估计完成时间

约2小时。

学习目标

完成此学习路径后,你将能够:

  • 了解什么是机器学习

  • 了解监督学习与无监督学习

  • 执行数据探索和预处理

  • 准备和训练分类模型

  • 了解线性回归

  • 了解解决基于分类的机器学习问题的基础知识

  • 通过 Python 和 scikit-learn 了解和使用聚类分析算法

机器学习简介

了解算法如何使系统能够使用 Python 学习数据中的模式

机器学习是一门科学,为了预测一个值,算法被应用于系统来学习数据中的模式。通过使用足够的数据,可以建立所有输入变量与要预测的值之间的关系。在给定其他输入变量的情况下,系统可以更轻松地预测新值。这种方法不同于传统编程,在传统编程中,应用程序是根据先前设置的规则开发的。尽管机器学习的基本概念已经存在了一段时间,但由于最先进的处理器和丰富的可用数据,该领域最近获得了发展势头,这两者都是实现准确预测的关键。由于关于机器学习历史的内容已经足够多,因此本文不涉及该主题。相反,我们为您提供了一种实用的方法来理解必要的概念,以帮助您入门。

本文将介绍以下概念:

  • 机器学习基础

  • 监督学习与无监督学习

  • 构建模型

  • 机器学习中的管道

机器学习基础

线性代数

线性代数是数学中的一个领域,处理变量之间的相关性。之所以称为线性变量,是因为输出变量可以用幂(指数)不大于 1 的输入变量来表示。了解线性代数的基础知识对于帮助理解机器学习的一些基础知识大有帮助。在本节中,我们将定义一些常用的关键术语。

什么是张量?

让我们从标量开始。标量表示基本上是任何数字,例如 1、5、23.5 或 42。如果将多个标量组合在一起,则最终会得到一个向量。例如,(1, 5, 23, 2) 是长度为 4 的向量。在向量中,所有元素都应属于同一数据类型,而在元组中,类型可以混合使用。矩阵是大小相等的向量列表。在矩阵中,行数可以与列数不同,但每个元素必须具有相同的类型。具有 m 行和 n 列的矩阵称为 m x n 矩阵。

张量是在多维空间中表示的数据。张量是表示这些表示的通用术语。例如,零维张量是标量,一维张量是向量,二维张量是矩阵。下图显示了 3D 张量的示例,它基本上是矩阵的扩展,但在三维空间中。

机器学习入门_第1张图片

张量在某些方面可以派上用场,例如图像处理。高度可以有一个维度,宽度可以有一个维度,颜色可以有一个维度。

高维向量空间

了解高维向量空间有助于为理解机器学习的工作原理奠定坚实的基础。下图显示了一个包含三列的数据集。这些列称为维度或特征。该表也称为三维数据集。当这些点绘制在 3D 空间中时,我们观察到三个点云。

机器学习入门_第2张图片

直线是二维空间中点的基本分隔。在上图中,您会看到一个划分,用于标记三维空间中点的分隔。3D 空间中的这条线称为平面。如果要从三维到四维或更多,则平面将变为超平面

机器学习入门_第3张图片

识别这些分离至关重要,因为在建立分离后,预测新数据只是确定数据点位于分离的哪一部分。

你可能感兴趣的:(机器学习,人工智能,深度学习)