深度学习(DL):是机器学习领域中一个新的研究方向,是一个复杂的机器学习算法,是学习样本数据内在瑰丽和表示层次;学习过程获得的信息对文字、声音和图像等数据的解释有很大的帮助
最终目标:是让机器能像人一样具有分析学习能力,能够识别文字图像声音等数据
人工神经网络(Artificial Neural Networks,简写为ANNs):也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的
机器学习(ML):是一种让机器通过样本自动学习规则的方法
ML目标:使学得的模型能够很好地适用于新的样本
学习:指对于某类任务T和性能度量P,一个计算机程序在T上以P衡量的性能随着经验E而自我完善,则称这个计算机程序在从经验E学习
有/无监督学习:根据训练数据集中是否包含人工标注的标签划分
半监督学习:数据集中的某些数据包含标签而大多数数据不包含标签,该算法试图让学习器自动对大量未标记数据进行利用,以辅助少量有标记数据的学习
强化学习:主要用于解决多步决策问题,如围棋、游戏、视觉导航等
机器学习流程:
← 数据收集 → 数据清洗 → 特征提取与选择 → 模型训练 → 模型评估测试 → 模型部署与整合 → ← 反馈迭代 →
完成数据清洗和特征提取后,进行模型构建
模型构建流程:
数据集:机器学习项目中使用的一组数据
样本:数据集中的每个数据
特征:反映样本在某方面的表现或性质的事项或属性
训练集:训练过程中使用的数据集
训练样本:训练集中的每个样本
学习(训练):从数据中学得模型的过程
测试:使用模型进行预测的过程
测试集:测试使用的数据集
测试样本:测试集中的每个样本
建模:利用数据获得经验的过程
推理:利用经验对新数据做出估计或者预测的过程
脏数据:
数据清洗:填充缺失值、发现并消除数据异常点的过程
特征:是输入变量所对应的可用于模型的数值表示,模型所处理的都是特征
数据预处理:
鲁棒性:鲁棒是Robust的音译,也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力,指系统在不确定性的扰动下,具有保持某种性能不变的能力
泛化能力(鲁棒性):学得的模型适用于新样本的能力
误差:学到的模型在样本上的预测结果与样本的真实结果之间的差值
训练误差:指模型在训练集上的误差
泛化误差:指模型在新样本(测试集)上的误差
假设空间:模型形式确定,所有可能的函数构成的一个空间
欠拟合:过于简单的数学模型,或训练时间太短,都会使模型的训练误差很大,需用更复杂模型重新训练或延长时间
过拟合:模型过于复杂导致模型训练误差很小,而泛化能力较弱,泛化误差较大,应适当简化模型
方差:是模型的预测结果在均值附近偏移的程度
偏差:是模型预测结果的均值与试图预测的正确值之间的差异
参数:模型从历史训练数据中学到的一部分
超参数:是模型的外部配置,常用于估计模型参数的过程中,优化目标是提高模型的泛化能力
区别:参数由模型自动学习,超参数由人工手动设定
模型训练:指优化模型参数,通过梯度下降算法完成
梯度下降算法思想:将当前位置负梯度作为搜索方向,该方向为当前位置最快下降方向
机器学习常见算法:
传统机器学习:特征由人工进行选定(可解释性很强),算法适合小数据量训练,对计算机硬件要求较低,计算量级有限,一般不需要配用GPU和显卡做并行运算
深度学习:寻求一种可以自动提取特征的算法,避免人工选择特征引入的固有偏见(削弱了特征的可解释性,但提高了模型对不同问题的适应性),采用端到端的学习模型,结合高维的权重参数,可依赖海量训练数据获得较传统更优性能,硬件要求较高,需配用GPU做并行加速,是一种基于神经网络的机器学习模型
人工神经网络:旨在模拟人脑结构及其功能的信息处理系统,反映了人脑功能的若干基本特征,如并行信息处理、学习、联想、模式分类、记忆等,是由人工神经元互连组成的网络,是从微观结构和功能上对人脑的抽象与简化,模拟人类智能
单层感知器:相当于一个分类器,本质上是一种线性模型,只能处理线性分类问题,无法处理非线性数据
多层感知器(前馈神经网络):使感知器可以处理非线性数据
损失函数:用来描述目标分类的错误,反映了感知器目标输出和实际输出间的误差