机器学习入门-西瓜书总结笔记

西瓜书第一章-绪论

  • First step
  • 引言+基本术语
  • 假设空间
  • 归纳偏好
  • 发展历程与应用现状

First step

对于西瓜书内容做总结笔记,以下都是个人总结,如果有错误欢迎指证。

引言+基本术语

  • “模型” (model) 从数据中产生
  • “学习算法”(learning alogrithm) 从数据中产生模型的算法
  • ”数据集“(data set) 示例(instance)样例(sample) 的集合
  • “属性”(atrribute)"特征”(feature) 反映事件或对象在某方面的表现或性质的事项
  • “属性值”(attribute value)
  • “属性空间”(attribute space) “样本空间”(sample space)
  • “特征向量”(feature vector) 将示例张成向量

例:D={x1,x2,…,xN} 含有N个示例或样本的数据集,
xi有d个属性,d称为xi的维数, xi是d维样本空间 X \mathcal X X的一个向量

  • “训练数据”(training data) “训练样本”(training sample) “训练集”(training set)
  • “假设”(hypothesis) 从数据集中总结出的模型(学习器),接近数据集中的潜在规律 “真实”(grouth-truth)
  • “标记”(label) 关于示例结果的信息。标记空间(label space)
  • “分类”(classification) 预测的样本值是离散的;“回归”(regression) 预测的样本值是连续的
  • “二分类”(binary classification) 正例(positive class)反例(negative class)
  • “多分类”(multi-class classification)

例:对样本集 D = ( x i , y i )   i = 1 , 2 , . . . , N D={(x_i,y_i)}\quad\ i=1,2,...,N D=(xi,yi) i=1,2,...,N,进行学习,实际上是建立一个样本空间 X \mathcal X X到y的一个映射。如果 y ∈ { − 1 , 1 } y\in\{-1,1\} y{1,1}或者 y ∈ { 0 , 1 } y\in\{0,1\} y{0,1},则学习的是二分类问题,如果 ∣ y ∣ |y| y>2,则学习的是多分类问题,如果 y ∈ R y\in\mathbb{R} yR,则学习的是回归问题。

  • “测试”(test) 用模型 f f f预测的过程,“测试集”(testing set) y = f ( x ) y=f(x) y=f(x)
  • “聚类”(clustering) 将样本集分成各个 “簇”(cluster)
  • “监督学习”(supervised learning) 分类和回归
  • “无监督学习” (unsupervised learning) 聚类
  • “泛化”(generalization) 学习的目的不是在训练集上表现好,而是为了预测“新样本”
  • 假设空间服从一个未知的 “分布”(distribution) D D D,我们获得的样本都是从这个空间中独立的采样得到的, “独立同分布”(independent and identically distributed, i i d iid iid)

假设空间

  • 归纳(induction) 从特殊到一般的泛化(generalization),即从特殊的样例中总结出泛化性良好的规律
  • 演绎(deduction) 特化(specialization)的过程,从规律到特例的过程
  • “归纳学习”(inducted learning) 从样例中学习的过程
  • “概念”(concept) 一般都是黑箱学习,布尔概念学习0/1
  • 记住样本就是所谓的“机器学习”,我们学习的过程可以看作是在所有假设(hypothesis)存在的空间中寻找最能匹配(fit)结果的假设
  • “版本空间”(version space)存在多个假设与训练集一致“假设集合”

在西瓜问题中,如何根据训练集求所对应的版本空间?
①写出假设空间:先列出所有可能的样本点(即特征向量)(即每个属性都取到所有的属性值)
②对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除。
即可得出与训练集一致的假设集合,也就是版本空间了。
机器学习入门-西瓜书总结笔记_第1张图片
(绿色加号代表正类样本,红色小圈代表负类样本)
GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary),;
SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary)
GB与SB之间所围成的区域就是版本空间。
原文链接:https://blog.csdn.net/m0_37688984/article/details/79461983

归纳偏好

  • “归纳偏好”(inductive bias) ,机器学习在学习过程中对某种学习类型的偏好。学习算法都会有偏好,例如喜欢“尽可能特殊”,或者喜欢“尽可能一般”
    机器学习入门-西瓜书总结笔记_第2张图片
    图中A,B为两种不同算法偏好
  • “奥卡姆剃刀”(Occam’s razor) 若多种假设存在,则选择最简单的那个,偏好A曲线 y = − x 2 + 6 x + 1 y=-x^2+6x+1 y=x2+6x+1 更平滑
    机器学习入门-西瓜书总结笔记_第3张图片

A曲线 ζ a \zeta a ζa算法习得,而B曲线 ζ b \zeta b ζb算法习得,在不同的问题上,两个的泛化性不同,A或B都可能是最优曲线。

假设样本空间 X \mathcal X X和假设空间 H H H都是离散的, P ( h ∣ ζ a , X ) P(h|\zeta a,\mathcal X) P(hζa,X)代表算法 ζ a \zeta a ζa基于样本 X \mathcal X X产生假设 h h h的概率, f f f代表想学习的真实目标函数, ζ a \zeta a ζa的训练集之外所有样本的误差:
E o t e ( ζ a ∣ X , f ) = ∑ h ∑ x ∈ X − X P ( x ) Π ( h ( x ) ≠ f ( x ) ) P ( h ∣ ζ a , X ) , E_{ote}(\zeta a|X,f) = \sum_{h}\sum_{x\in\mathcal X -X}P(x)\Pi(h(x)\ne f(x))P(h|\zeta a,\mathcal X), Eote(ζaX,f)=hxXXP(x)Π(h(x)=f(x))P(hζa,X),
其中 Π ( ⋅ ) \Pi(\cdot) Π()是指示函数,若 ⋅ \cdot 真为1, ⋅ \cdot 假为0
考虑二分类问题,真实函数可以是任意函数 X ↦ { 0 , 1 } \mathcal X\mapsto \{0,1\} X{0,1},函数空间为 { 0 , 1 } ∣ X ∣ \{0,1\}^{|\mathcal X|} {0,1}X,对所有可能的 f f f按照均匀分布求误差
∑ f E o t e ( ζ a ∣ X , f ) = ∑ h ∑ x ∈ X − X P ( x ) Π ( h ( x ) ≠ f ( x ) ) P ( h ∣ ζ a , X ) = ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ ζ a , X ) ∑ f Π ( h ( x ) ≠ f ( x ) ) = ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ ζ a , X ) 1 2 2 ∣ X ∣ = 1 2 2 ∣ X ∣ ∑ x ∈ X − X P ( x ) ∑ h P ( h ∣ ζ a , X ) = 2 ∣ X ∣ − 1 ∑ x ∈ X − X P ( x ) ⋅ 1 \begin{aligned} \sum_{f}E_{ote}(\zeta a|X,f)& = \sum_{h}\sum_{x\in\mathcal X -X}P(x)\Pi(h(x)\ne f(x))P(h|\zeta a,\mathcal X)\\ &= \sum_{x\in\mathcal X -X}P(x)\sum_{h}P(h|\zeta a,\mathcal X)\sum_{f}\Pi(h(x)\ne f(x)) \\ &= \sum_{x\in\mathcal X -X}P(x)\sum_{h}P(h|\zeta a,\mathcal X)\frac{1}{2}2^{|\mathcal X|} \\ &= \frac{1}{2}2^{|\mathcal X|}\sum_{x\in\mathcal X -X}P(x)\sum_{h}P(h|\zeta a,\mathcal X) \\ &= 2^{|\mathcal X|-1}\sum_{x\in\mathcal X -X}P(x)\cdot1 \\ \end{aligned} fEote(ζaX,f)=hxXXP(x)Π(h(x)=f(x))P(hζa,X)=xXXP(x)hP(hζa,X)fΠ(h(x)=f(x))=xXXP(x)hP(hζa,X)212X=212XxXXP(x)hP(hζa,X)=2X1xXXP(x)1
与算法无关
“没有免费的午餐”(NFL)

NFL的意义是脱离实际问题,所有算法都没有意义
我们根据自己需要解决的问题,选择与问题匹配偏好的算法

发展历程与应用现状

主要是大数据时代的到来,与各种硬件的发展,导致数据量增多和算力提升,让原本算法可以快速解决问题。同时深度学习的发展,也导致人工智能的进一步火热。

  • 数据挖掘(data mining) 机器学习和统计学为数据挖掘提供数据分析技术

拓展:

全样本假设 ∏ i = 1 N ( t i + 1 ) + 1 \prod_{i=1}^N(t_i+1)+1 i=1N(ti+1)+1。属性取值数量 t i t_i ti+1(1是泛化取值*) + 1(空集合 Φ \Phi Φ)。
表1.1中数据集的假设空间中包含 ( 2 + 1 ) × ( 3 + 1 ) × ( 3 + 1 ) + 1 = 49 (2+1)\times(3+1)\times(3+1)+1=49 (2+1)×(3+1)×(3+1)+1=49种假设。

你可能感兴趣的:(学习笔记,机器学习)