西瓜书学习笔记day1

一、基本术语

①示例/样本:对一个事件或对象的描述,也被称为一个特征向量。
②属性:反映事件或者对象在某方面的表现或性质的事项。
③属性值:属性的取值
④属性空间/样本空间:属性张成的空间
⑤数据集:样本的集合
⑥维数:令D={x1,x2…xm}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例xi=(xi1,xi2,xi3…xid)是d维样本空间X上的一个向量。d称为样本空间的“维数”
⑦训练/学习:从数据中获取模型的行为,通过执行算法完成。
⑧算法分类:
根据预测的值进行分类:若预测的为离散值,被称作“分类”;若预测的是连续值,被称为“回归”:若自动聚合簇,则称为聚类。
根据训练数据是否拥有标记信息:有标记信息的称为“监督学习”(分类、回归):没有标记信息的称为“无监督学习”(聚类)
⑨泛化能力:模型适用于新样本的能力
⑩采样依据:独立同分布

二、假设空间

可以把学习过程看作一个在所有假设组成的空间里进行搜索的过程,目标是找到与训练集匹配的假设。

在进行训练时,会出现多个与训练集匹配的假设,但是对于一个算法,只能产生一个模型,,就需要设置“归纳偏好”来选择算法最“偏好”的那一个。

三、选择偏好

选择偏好的原则:奥卡姆剃刀原则,若有多个假设与观察一致,选择最简单的那个。

NFL定理:没有免费的午餐:
机器学习算法的期望性能是相同的,对一个算法A,若在某些问题上他比B算法表现好,那么它必然存在另外一些问题。
NFL原理:
西瓜书学习笔记day1_第1张图片西瓜书学习笔记day1_第2张图片
西瓜书学习笔记day1_第3张图片

你可能感兴趣的:(西瓜书学习笔记,学习,机器学习,算法)