学习笔记(一):机器学习绪论

什么是机器学习

  • 计算机使用输入给其的数据,利用我们赋予的算法得到某种模型,然后使用该模型来预测未知数据的信息或者结果
  • 机器学习在统计理论下的本质:追求合理的假设空间(Hypothesis Space)和泛化能力(Generalization)。
  • 假设空间:模型在数学上的使用场合。
  • 泛化能力:模型在未知数据上的表现。

机器学习常用术语

  • 数据集(Date Set):即数据的集合。
  • 样本(Sample):即每一条单独的数据。
  • 属性(Attribute)或特征(Feature):即每个样本具有的属性或特征,特征具体取值为特征值(Feature Value).
  • 特征空间(Feature Space)和样本空间(Sample Space):特征和样本张成的空间,简单理解为样本和特征可能存在的空间
  • 标签空间(Label Space):模型输出可能存在的空间;当模型是分类器时,又称类别空间
  • 数据集又分为以下三类:
    • 训练集(Training Set):总的数据集中用于训练模型的部分。
    • 测试集(Test Set):总的数据集中用于测试、评估模型泛化能力的部分。
    • 交叉验证集(Cross-Validation Set,CV Set):用于调整模型具体参数。
  • 过拟合(Over Fitting)和欠拟合(Under Fitting):前者因为对少量样本的特征/属性过度重视,训练时效果很好,但导致测试数据表现不好;后者因为对样本/属性提取太少,模型的训练数据都无法匹配。
  • 通过选取合适的假设空间来规避过拟合,即对模型精简化,对于个别特征/属性或者样本不应太过重视。
  • 交叉验证(Cross-Validation)用于判断过拟合的程度,常用交叉验证方法有以下三种:
    • S折交叉验证(S-fold Cross-Validation):
      • 将数据分成S份:D = {D1,D2,… ,Ds},一共做S次实验。
      • 在第i次实验中,使用D-Di作为训练集,Di作为测试集对模型进行训练和评测。
      • 最终选择平均测试误差最小的模型。
    • 留一交叉验证(Leave-one-out Cross Validation):S折交叉验证的特殊情况,此时S=N
    • 简易交叉验证:简单将数据随机分组,最后达到训练集约占原数据70%,以测试误差为标准选择模型。

机器学习的应用

  • 机器视觉(Machine Vision):深度学习的广泛应用其中,例如CNN卷积神经网络。
  • 语音识别(Voice Recognition):微软Cortana。
  • 数据挖掘(Data Mining):大数据相关领域。
  • 模式识别(Pattern Recognition):人脸识别,文字识别,语音识别等。
  • 自然语言处理(Natural Language Processing)。

你可能感兴趣的:(机器学习)