开始学ML了!第一次用CSDN写blog,聊以自娱,也算是监督和动力叭
【机器学习】 研究如何通过计算的手段,利用经验来改善系统自身的性能(研究对象:学习算法)
(【统计学习】是一套以理解数据为目的的庞大工具集)
【学习算法】 在计算机上从数据中产生模型的算法 L \mathcal{L} L
【模型 / 学习器】 从数据中学得的结果(全局性or局部性)
【数据集】记录的集合 D = { x1, x2, …, xm }
【示例 / 样本 / 特征向量】 关于一个事件或对象的描述(记录)- 通常假设每个样本iid分布 xi = ( xi1, xi2, …, xid ) (青绿,蜷缩,浊响)
【属性 / 特征】 反映事件或对象在某方面的表现或性质的事项 色泽
【属性值】 属性的取值 xij 乌黑
【属性空间 / 样本空间 / 输入空间】 属性张成的空间 χ \chi χ (色泽,根蒂,敲声)
【标记】 关于示例结果的信息 yi 好瓜
【标记空间 / 输出空间】所有标记的集合 Υ \Upsilon Υ = { y1, y2, …, yn } {好瓜,坏瓜}
【样例】 拥有了标记信息的示例 ( xi , yi ) ((青绿,蜷缩,浊响),好瓜)
【训练数据-训练集】 & 【测试数据-测试集】
【泛化能力】学得模型适用于新样本的能力 —> 【归纳学习】
【归纳】泛化过程 【演绎】特化过程
【假设空间】所有假设组成的空间 好瓜 <-> (色泽=?) /\ (根蒂=?) /\ (敲声=?) (ps:通配符*)
【版本空间 / 假设集合】与训练集一致的假设集合
【归纳偏好】算法在学习过程中对某种类型假设的偏好
机器学习分类 | 特点 | 主要算法 | 用途 |
---|---|---|---|
监督式学习 | 有标记信息 | 分类(二分类or多分类 - 离散)、回归(连续) | 面向预测的统计模型的建立;对一个或多个给定的输入(input) 估计某个输出(output) |
非监督式学习 | 没有标记信息 | 聚类 | 学习数据的关系和结构 |