机器学习笔记-1

基本概念:
1.机器学习研究的内容:
从数据中产生模型的算法,从而预测未知数据。
(模型泛指数据中学得的结果)

2.样本空间:
属性张成的空间,又称属性空间。它可以是多维的,每一个维度代表了一个特征;空间中的每一个点对应一个坐标向量,可以称为一个特征向量。
D = {X1, X2…Xm}; -> 表示含m个示例的数据集
Xi = {Xi1,Xi2… Xid}; -> 表示d维空间X中的一个向量。
Xij -> i: 表示样本编号 j:表示在第j个特征值上的取值

3.训练集:
训练样本组成的集合。

4.假设:
学习模型的潜在规律,可以理解为我们要求解的方程,这个方程可以用来预测新的数剧。

5.标记:
示例结果信息,我们的数据的是好是坏的一个标记。
(所有标记的集合称为 -> 标记空间,输出空间)

6.分类
6.1监督学习:有标记; eg:分类&回归
6.2无监督学习:无标记;eg:聚类

假设空间:
1.假设的表示一旦确定,假设空间的规模就可以确定了。我们可以理解学习的过程就是在所有假设组成的空间中进行搜索的过程。通俗的说就是根据训练集我们产生了一个假设(模型),根据这个训练集我们可以有多个假设(模型)。

2.版本空间
因为假设空间往往很大,所以可能有多个假设空间与训练集一致。那么称这个假设空间为 版本空间。

归纳偏好:
假如有n个假设与训练集一致,那么我们在一个新的数据过来的时候是选择哪一个假设与之匹配呢?这时候需要机器学习根据自己的偏好来选择假设。

一个结论:
无论多聪明的算法,他的期望性能是相同的。
机器学习笔记-1_第1张图片
所以要根据实际情况选择合适的算法。

你可能感兴趣的:(机器学习笔记-1)