机器学习皮毛

机器学习皮毛

专门研究计算机怎样模拟或实现人类的学习行为,以获取新知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

现在主要是在所给的数据中不断用模型(函数)拟合结果并找出较优即拟合效果较好的模型,以求达到能最近似预估结果。

数据集:

一组样本构成的集合称为数据集。一般将数据集分为两部分:训练集和测试集。训练集中的样本是用来训练模型的,而测试集中的样本是用来检验模型好坏的。

监督学习:

从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。常见任务包括分类与回归。

(1)分类:

训练模型预测定性目标,先对数据结果进行分类,学习到一个分类决策函数或分类模型。再对一个新的输入进行预测,输出一个有限的离散值(与实际结果有偏差)。

1°二分类:非此即彼。是猫猫还是狗狗。

2°多分类:通过更细致的特征分为更细致的类。如工作中的狗狗和休息的狗狗。

分类系统的构建通常遵循以下四个步骤:

  1. 收集训练数据。比如 (x,y)对,x表示输入,y则表示输出类标签

  2. 查找表示输入数据的特征

  3. (可选)训练分类器以找到最佳映射函数 f

  4. 将分类器应用于未观察到的数据(检验/应用)

    KNN最邻近分类器:

    将没有标签的数据与原来有标签的样本数据进行特征比较,选取每个标签下的前k个最相似点,若该标签下的数目最多,则给此数据划为此标签。

    如果k值的选取过小,会导致过拟合;如果k值选取过大,会导致欠拟合。

(2)回归:

1.模型的选取:选取一个用来拟合数据的函数。一般次数高的多元项拟合程度高。但会出现过拟合的情况,例如数据集的选取上出现误差,过拟合就会将误差放大,过犹不及。

2.数据处理:

构造矩阵:为方便计算,对数据进行整理。

数据标准化:为了消除计算梯度时带来的损耗。将特征量化到一定区间内。

损失函数:

损失函数(loss function)就是用来度量模型的预测值f(x)与真实值Y的差异程度的运算函数,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的拟合度越好,预测值就越靠近真实值。

几个较常用的损失函数:

均方误差损失函数:

在回归问题中,均方误差损失函数用于度量样本点到回归曲线的距离,通过最小化平方损失使样本点可以更好地拟合回归曲线。

在这里插入图片描述

欧式距离:

通常用于度量数据点之间的相似度。它能提供最大似然(最接近结果的模型)估计,使得它成为回归问题、模式识别、图像处理中最常使用的损失函数。

在这里插入图片描述

曼哈顿距离:

表示残差的绝对值之和。残差零点0处不可导,且对梯度下降影响较大。

在这里插入图片描述

平方损失函数:

机器学习皮毛_第1张图片

梯度下降:

为了获得更好的模型预测结果,我们要让损失函数L(w)的值尽可能小,所以我们希望回归系数w可以向减小损失函数值的方向移动。

学习率太大会越过最低点,导致难以收敛。如果学习率太小,会导致速率降低。

机器学习皮毛_第2张图片

机器学习皮毛_第3张图片

无监督学习:

没有标注的训练数据集,需要根据样本间的统计规律对样本集进行分析,常见任务如聚类等。

聚类问题:

聚类问题,算法的思想就是**“物以类聚,人以群分”**,聚类算法感知样本间的相似度,进行类别归纳,对新的输入进行输出预测,输出变量取有限个离散值

K-means:

①随机选择K个随机的点(称为聚类中心);

②对于数据集中的每个数据点,按照距离K个中心点的距离,将其与距离最近的中心点关联起来,与同一中心点关联的所有点聚成一类;

③计算每一组的均值,将该组所关联的中心点移动到平均值的位置;

④重复执行2-3步,直至中心点不再变化。

半监督学习:

结合(少量的)标注训练数据和(大量的)未标注数据来进行数据的分类学习。

•聚类假设:处在相同聚类中的样本示例有较大的可能拥有相同的标记。根据该假设,决策边界就应该尽量通过数据较为稀疏的地方。

学习:

结合(少量的)标注训练数据和(大量的)未标注数据来进行数据的分类学习。

•聚类假设:处在相同聚类中的样本示例有较大的可能拥有相同的标记。根据该假设,决策边界就应该尽量通过数据较为稀疏的地方。

•流形假设:处于一个很小的局部区域内的样本示例具有相似的性质,因此,其标记也应该相似。在该假设下,大量未标记示例的作用就是让数据空间变得更加稠密,从而有助于更加准确地刻画局部特性,使得决策函数能够更好地进行数据拟合。

你可能感兴趣的:(人工智能,算法)