1.机器学习基本概念学习笔记

1. 机器学习基本概念

!!!!内容来源:https://github.com/scutan90/DeepLearning-500-questions.git

1.1 机器学习本质

Machine Learning机器学习,让机器去学习,解决如何构建计算机程序使用“经验”自动改进。

如何让计算机学习呢?
设计一个算法,让算法能够提取出数据所蕴含的规律。
如果输入的数据是带有标签的,就称为有监督学习;如果输入的数据是无标签的,就称为无监督学习。

1.2 深度学习

深度学习是一种模拟大脑的行为,可以从所学习对象的机制以及行为等很多关联的方面进行学习,从而模仿类型行为以及思维。

深度学习不是走一步看一步的解决问题,而是要求我们从开始到结束都要基于一个目标,为了优化最终目标结果去处理数据以及将数据放到数据应用平台上,这就是端到端。

端到端:把源和结果连接起来,中间的实现过程采用各种算法。

1.3 机器学习的学习方式

1.3.1 监督学习

监督学习是使用已知正确答案的示例来训练网络。
已知数据和其标签一一对应,训练一个预测模型,将输入数据映射到标签的过程。

1.3.2 非监督式学习

数据集没有标签的情况。学习模型是为了推断预测出数据的一些内在结构。

1.3.3 半监督式学习

部分数据被标记。
通过对已标记数据建模,在此基础上对未标记数据进行推断预测。

1.3.4 弱监督学习

数据被标记,但是标记的信息可能不正确,出现多种标记,标记不充分,局部标记。
已知数据和其弱标签一一对应,训练一个智能算法,使得输入数据映射到一组标记更强的标签。

标签的强弱指标签蕴含的信息量的多少。
弱标签:分类(判断一张图片中是否有气球)
强标签:分割,(得出气球在图片中的位置以及气球和背景的分界线)

1.4 监督学习的步骤

监督学习是使用已知正确答案的示例来训练网络,每组训练数据有一个明确的标识或结果。例如,训练一个网络,让其从照片库中识别出气球的照片。

1.4.1 数据集的创建和分类

数据集在上面的例子中就是照片库中的照片,确定所有包含气球的照片,然后进行标注。然后,将所有照片分为训练集验证集。我们的目标就是在深度网络中找出一个函数,当照片中包含气球时输出1,不包含则输出0.

1.4.2 数据增强

我们的数据集,也就是照片库中的照片可能存在各种的问题,比如图片模糊不清,颜色界限模糊等问题。这就需要把我们准备的这些数据洗一洗,晒一晒了,让他们变得干干净净。所以数据增强一般包括图像旋转、平移、颜色变换、裁剪、仿射变换等。

1.4.3 特征工程

特征工程包含特征提取特征选择

1.4.4构建预测模型和损失

将原始数据映射到特征空间之后,就得到了比较合理的输入。下一步是构建合适的预测模型得到对应输入的输出。
如何保证模型的输入和输出标签的一致性,就需要构建模型预测和标签之间的损失函数,通过优化方法不断迭代,使模型从最初的初始化状态一步步成为有预测能力的模型,这就是学习过程。

什么是损失函数? 用来衡量算法的运行情况,估量模型的预测值与真实值的不一致程度,是一个非负实值函数,通常使用 L(Y, f(x))​来表示。损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。

1.4.5训练

选择合适的模型和超参数进行初始化,其中超参数比如支持向量机中核函数、误差项惩罚权重等。当模型初始化参数设定好后,将制作好的特征数据输入到模型,通过合适的优化方法不断缩小输出与标签之间的差距,当迭代过程到了截止条件,就可以得到训练好的模型。

1.4.6 验证和模型选择

训练完训练集图片后,需要进行模型测试。利用验证集来验证模型是否可以准确地挑选出含有气球在内的照片。
​在此过程中,通常会通过调整和模型相关的各种事物(超参数)来重复步骤2和3,诸如里面有多少个节点,有多少层,使用怎样的激活函数和损失函数,如何在反向传播阶段积极有效地训练权值等等。

1.4.7 测试及应用

当有了一个准确的模型,就可以将该模型部署到你的应用程序中。你可以将预测功能发布为API(Application Programming Interface, 应用程序编程接口)调用,并且你可以从软件中调用该API,从而进行推理并给出相应的结果。

你可能感兴趣的:(机器学习,机器学习,笔记,人工智能)