1.预备知识
人工智能:用人工的方法在机器(计算机)上实现的智能;或者说是人们使机器具有类似于人的智能。
人工智能学科:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
2.日常生活中的机器学习:
①
称为RGB(由红色,绿色,蓝色组成),这种是欠拟合
欠拟合和过拟合区别:
• 欠拟合(Underfitting): 模型在训练数据上表现不佳,无法很好地捕捉数据中的规律。通常是因为模型过于简单,无法学习到数据中的复杂关系。
• 过拟合(Overfitting): 模型在训练数据上表现非常好,但在测试数据上表现很差。这是因为模型过度学习了训练数据中的噪声和细节,导致泛化能力差。
(也可以用草木皆兵来解释,学霸学习能力强,会学除了该学之外的跟这个有关的,当遇到叶子时,叶子没有锯齿,边缘是光滑的,当再遇到有锯齿的会认为不是叶子(过拟合);学渣学习能力弱,只偶尔记住老师说是绿色的(欠拟合))
②语音识别系统:小爱、siri等
采集一个包含大量音频样本的数据集,并对包含和不包含唤醒词的样本进行标注;设计一个灵活的程序算法,其输出由许多参数决定,然后使用数据集来确定当下的“最佳参数集”这些参数通过某种性能度量方式来达到完成任务的最佳性能。
③参数,参数可以被看作旋钮,旋钮的转动可以调整程序的行为。
任一调整参数后的程序被称为模型,通过操作参数而生成的所有不同程序的集合称为“模型族”。
使用数据集来选择参数的元程序被称为学习算法
④典型训练过程
1.从一个随机初始化参数的模型开始,这个模型基本没有“智能";
2.获取一些数据样本(例如,音频片段以及对应的是或否标签);
3.调整参数,使模型在这些样本中表现得更好;
4.重复第 (2) 步和第(3)步,直到模型在任务中的表现令人满意。
⑤机器学习中的关键组件
无论什么类型的机器学习问题,都会遇到这些组件:
1.可以用来学习的数据(data);
2.如何转换数据的模型(model);
3.一个目标函数(objective function),用来量化模型的有效性;
4.调整模型参数以优化目标函数的算法(algorithm)
➊数据
每个数据集由一个个样本组成,大多时候,它们遵循独立同分布。样本有时也叫做数据点或者数据实例,通常每个样本由一组称为特征(features,或协变量(covariates))的属性组成。
当处理图像数据时,每一张单独的照片即为一个样本,它的特征由每个像素数值的有序列表示。
拥有越多数据的时候,工作就越容易。更多的数据可以被用来训练出更强大的模型,从而减少对预先设想假设的依赖。仅仅拥有海量的数据是不够的,还需要正确的数据。
➋模型
任一调整参数后的程序被称为模型。
这些模型由神经网络错综复杂的交织在一起,包含层层数据转换,因此被称为深度学习。,
➌目标函数
“学习",是指自主提高模型完成某些任务的效能。
什么才算真正的提高呢?在机器学习中,我们需要定义模型的优劣程度的度量,这个度量在大多数情况是“可优化”的,这被称之为目标函数。
定义一个目标函数,并优化它到最小值--损失函数。
预测数值任务--平方误差:预测值与实际值之差的平方。
预测分类任务--最小化错误率:预测与实际情况不符的样本比例。
损失函数是根据模型参数定义的,并取决于数据集。在一个数据集上,我们可以通过最小化总损失来学习模型参数的最佳值。
➍优化算法
当我们获得了一些数据源及其表示、一个模型和一个合适的损失函数,接下来就需要一种算法,它能够搜索出最佳参数,以最小化损失函数。深度学习中,大多流行的优化算法通常基于一种基本方法-一梯度下降(gradient descent)在每个步骤中,梯度下降法都会检查每个参数,看看如果仅对该参数进行少量变动,训练集损失会朝哪个方向移动。然后,它在可以减少损失的方向上优化参数。