机器学习相关名词解释【学习笔记】

深度学习(DL):是机器学习领域中一个新的研究方向,是一个复杂的机器学习算法,是学习样本数据内在瑰丽和表示层次;学习过程获得的信息对文字、声音和图像等数据的解释有很大的帮助

        最终目标:是让机器能像人一样具有分析学习能力,能够识别文字图像声音等数据

人工神经网络(Artificial Neural Networks,简写为ANNs):也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的

机器学习(ML):是一种让机器通过样本自动学习规则的方法

        ML目标:使学得的模型能够很好地适用于新的样本

学习:指对于某类任务T和性能度量P,一个计算机程序在T上以P衡量的性能随着经验E而自我完善,则称这个计算机程序在从经验E学习

有/无监督学习:根据训练数据集中是否包含人工标注的标签划分

半监督学习:数据集中的某些数据包含标签而大多数数据不包含标签,该算法试图让学习器自动对大量未标记数据进行利用,以辅助少量有标记数据的学习

强化学习:主要用于解决多步决策问题,如围棋、游戏、视觉导航等

机器学习流程:

← 数据收集 → 数据清洗 → 特征提取与选择 → 模型训练 → 模型评估测试 → 模型部署与整合 → ← 反馈迭代 →

完成数据清洗和特征提取后,进行模型构建

模型构建流程:

  • 分割数据:将数据分为训练集、测试集和验证集
    • 训练模型:使用经过数据清洗与特征选择的数据来训练
      • 验证模型:使用验证集来验证模型的有效性
        • 测试模型:使用测试数据来评估模型在真实环境中的泛化能力
          • 部署模型:将模型部署到实际的生产场景中
            • 微调模型:根据业务场景的真实数据对模型进行不断微调

数据集:机器学习项目中使用的一组数据

样本:数据集中的每个数据

特征:反映样本在某方面的表现或性质的事项或属性

训练集:训练过程中使用的数据集

训练样本:训练集中的每个样本

学习(训练):从数据中学得模型的过程

测试:使用模型进行预测的过程

测试集:测试使用的数据集

测试样本:测试集中的每个样本

建模:利用数据获得经验的过程

推理:利用经验对新数据做出估计或者预测的过程

脏数据:

  • 不完整:数据缺少属性或缺失值
    • 多噪声:包含错误拼写或异常点
      • 不一致:存在矛盾的、有差异的记录

数据清洗:填充缺失值、发现并消除数据异常点的过程

特征:是输入变量所对应的可用于模型的数值表示,模型所处理的都是特征

数据预处理:

  • 数据过滤
    • 处理数据缺失
      • 处理可能的错误或异常值
        • 合并多个数据源数据
          • 数据汇总

鲁棒性:鲁棒是Robust的音译,也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力,指系统在不确定性的扰动下,具有保持某种性能不变的能力

泛化能力(鲁棒性):学得的模型适用于新样本的能力

误差:学到的模型在样本上的预测结果与样本的真实结果之间的差值

训练误差:指模型在训练集上的误差

泛化误差:指模型在新样本(测试集)上的误差

假设空间:模型形式确定,所有可能的函数构成的一个空间

欠拟合:过于简单的数学模型,或训练时间太短,都会使模型的训练误差很大,需用更复杂模型重新训练或延长时间

过拟合:模型过于复杂导致模型训练误差很小,而泛化能力较弱,泛化误差较大,应适当简化模型

方差:是模型的预测结果在均值附近偏移的程度

偏差:是模型预测结果的均值与试图预测的正确值之间的差异

参数:模型从历史训练数据中学到的一部分

超参数:是模型的外部配置,常用于估计模型参数的过程中,优化目标是提高模型的泛化能力

        区别:参数由模型自动学习,超参数由人工手动设定

模型训练:指优化模型参数,通过梯度下降算法完成

梯度下降算法思想:将当前位置负梯度作为搜索方向,该方向为当前位置最快下降方向

机器学习常见算法:

  • 线性回归:利用数理统计中回归分析的方法,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,属于监督学习
    • 逻辑回归:是一种分类模型,用来解决分类问题
    • 决策树:是一个树结构分类器
      • 支持向量机(SVM):是一种定义在特征空间上的间隔最大的线性分类器
        • K邻近算法(KNN):是一种非参数方法,理论上比较成熟,也是最简单的机器学习算法之一
          • 朴素贝叶斯:是一种简单的多分类算法
            • 集成学习:是一种机器学习范式,多个学习者被训练和组合以解决同一个问题

传统机器学习:特征由人工进行选定(可解释性很强),算法适合小数据量训练,对计算机硬件要求较低,计算量级有限,一般不需要配用GPU和显卡做并行运算

深度学习:寻求一种可以自动提取特征的算法,避免人工选择特征引入的固有偏见(削弱了特征的可解释性,但提高了模型对不同问题的适应性),采用端到端的学习模型,结合高维的权重参数,可依赖海量训练数据获得较传统更优性能,硬件要求较高,需配用GPU做并行加速,是一种基于神经网络的机器学习模型

人工神经网络:旨在模拟人脑结构及其功能的信息处理系统,反映了人脑功能的若干基本特征,如并行信息处理、学习、联想、模式分类、记忆等,是由人工神经元互连组成的网络,是从微观结构和功能上对人脑的抽象与简化,模拟人类智能

单层感知器:相当于一个分类器,本质上是一种线性模型,只能处理线性分类问题,无法处理非线性数据

多层感知器(前馈神经网络):使感知器可以处理非线性数据

损失函数:用来描述目标分类的错误,反映了感知器目标输出和实际输出间的误差

你可能感兴趣的:(机器学习,机器学习,人工智能,深度学习)