机器学习要知道的基础概念和简单框架

机器学习相关的基础概念

All models are wrong but some are useful(所有模型都是错误的,但有些是有用的)

机器学习:简言之涉及概率论、统计学、模型算法等,就是说算法解析数据,从中学习,然后对事物做出决定或预测。


数据集:如下图所示我们所看到的数据集合。

特征:如下表中的年龄,奖金等,特征是对样本的描写。

特征向量:事物的特征组成的向量。

标签:因变量Y,即该组数据的结果描述。

属性值:下图示例中的—18,5000等则为属性值。

缺失数据:数据中为空的数据。

样本空间:训练数据中出现的属性值构成的集合空间,也叫属性空间。

假设空间:理论上所有可能的属性值构成的集合空间。

回归:预测连续型变量。

分类:预测分类型变量,且类别已知。

聚类:预测分类型变量,但类别不知。


数据集分为三份

训练集:在机器学习的过程中使用,负责学习模型,训练模型。

验证集:验证模型,调整参数优化模型。

测试集:测试模型,用于判断模型的可用程度。

(备注:也可分为两份,即训练集和测试集,分配比例0.25(0.2) / 0.75(0.2))。

机器学习的简单框架

监督学习:Supervised learning

同时具有特征(feature)和标签(label),即便是当面对没有标签的数据,机器也可通过特征判断出标签。

简单来记—一定是知道目标变量(即因变量Y)


无监督学习:Unsupervised learning

只有特征,没有标签,不知道数据与特征之间的关系,需要通过学习得到数据与特征之间的联系。

简单来记—数据中肯定没有目标变量(即因变量Y)


半监督学习:Semi-Supervised learning

数据一部分有标签,一部分没有标签。


强化学习:Reinforcement learning

也是使用没有标签的数据,通过奖惩函数得知我们与正确答案距离的远近。

你可能感兴趣的:(机器学习要知道的基础概念和简单框架)