《西瓜书》+《南瓜书》第一章笔记(Datawhale)

前言

本篇文章主要是笔者日常的一些学习记录和沉淀。大部分都是基于《西瓜书》和《统计学习方法》的一些日常记录,本人学识浅薄,如果有存在理解、记录偏差的地方,希望大家能帮忙指出一下,笔者不胜感激!~

第一章

1.1 引言

什么是机器学习?
《西瓜书》+《南瓜书》第一章笔记(Datawhale)_第1张图片

个人认为:机器学习,是基于历史数据,进行特征化,抽象出具体的数据模型,来预测和推断未来结果。

1.2 基本术语

  • 一组记录的集合称为一个数据集(data set),其中每条记录是关于一个事件或对象的描述,称为一个示例(instance)样本(sample)

  • 反映事件或对象在某个方面的表现或性质的事项,称为属性(attribute)特征(feature),属性上的取值称为属性值(attribute space),属性张成的空间称为属性空间(attribute space)样本空间(sample space)输入空间

  • 由于空间中的每个点对应一个坐标向量,因此也把一个示例称为一个特征向量(feature vector)
    每个示例由d个属性描述,则d称为样本的维数(dimensionality)

  • 从数据中学得模型的过程称为学习(learning)训练(training)。训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样本(training sample),训练样本组成的集合称为训练集(training set)

  • 关于示例结果的信息称为标记(label),拥有了标记信息的示例称为样例(example),所有标记的集合称为标记空间(label space)输出空间

  • 若预测的是离散值,此类学习任务称为分类(classification),如”好瓜“,”坏瓜“;若预测的是连续值,此类学习任务称为回归
    针对“离散”or“连续”补充说明:
    数据是否无限可分是判断连续和离散的依据,身高的数据是整数,如果提高精度可以量出小数点后面很多位,因此是连续数据。计数的、分类的、等级的数据是离散的,因为数据无法继续分割了。如:类别可数就是离散,不可数是连续

  • 对只涉及两个类别的“二分类”(binary classification)任务,通过称其中一个类为正类(positive class),另外一个为反类(negative class);涉及多个类别是,则称为多分类(multi-class classification) 任务。

  • 学得模型后,使用其进行预测的过程称为测试(testing),被预测的样本称为测试样本(testing sample)

  • **聚类(clustering)**有助于我们了解数据的内在规律,能为更深入地分析数据建立基础。

  • 根据训练数据是否拥有标记信息,学习任务可大致分为两大类:监督学习(supervised learning)无监督学习(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。

  • 学得模型适用于新样本的能力,称为**泛化(generalization)**能力。

1.3 假设空间

归纳演绎是科学推理的两大基本手段。
归纳是从特殊一般泛化(generalization)过程,即从具体的事实归结出一般性规律;
演绎则是从
一般
特殊的**特化(specialization)**过程,即从基础原理推演出具体状况。

1.4 归纳偏好

  • 机器学习(Machine-Learning)算法在学习过程中对某种类型假设的偏好,称为归纳偏好,或简称为偏好
    任何一个有效的机器学习(Machine-Learning)算法必有其归纳偏好。
  • 奥卡姆剃刀是一种常用的、自然科学研究中最基本的原则,即若有多个假设与观察一致,则选择最简单的那个
  • 在具体现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

1.5 发展历程

  • 机器学习(Marchine-Learning)是人工智能(AI)研究发展到一定阶段的必然产物。
  • 决策树学习技术由于简单易用,到今天仍是最常用的机器学习(Marchine-Learning)技术之一。
  • 连接主义学习的最大局限性是其试错性,简单来说,其学习过程涉及大量参数,二参数的设置缺乏理论指导,主要靠手工调参,夸张一点说,参数调解上失之毫厘,学习结果可能差之千里。
  • 以往机器学习技术在应用中取得好性能,对使用者的要求较高;而深度学习技术涉及的模型复杂度非常高,以至于只要下工夫调参,把参数调节好,性能往往就好。因此,深度学习虽然缺之严格的理论基础,但它品普降低了机器学习应用者的门槛,为机器学习 (MachineLearning)技术走向工程实践带来了便利。
  • 深度学习如今火起来的基本原因有两个:数据大了、计算能力强了。深度学习模型拥有大量参数,若数据样本少,则很容易过拟合:如此复杂的横型、如此大的数据样本,若缺乏强力计算设备,根本无法求解。

你可能感兴趣的:(机器学习,机器学习,算法,人工智能)