周志华《机器学习》第一章笔记+公式推导+课后习题

文章目录

    • 一、何为机器学习
    • 二、基本术语与基本概念
      • 2.1 基本术语
      • 2.2 学习任务分类
      • 2.3 假设空间
      • 2.4 归纳偏好
    • 三、机器学习发展历程
    • 四、课后习题

    用作者的话说,本书的主要目的就是为读者提供一张“初级地形图“,给初学者指路。故西瓜书的第一章主要介绍何为机器学习、机器学习相关基础概念、发展历程以及应用现状,力求使读者能够一窥机器学习全貌。

一、何为机器学习

    人类可以学习经验对新情况做出判断,那么计算机要怎么做这件事呢?

    机器学习正是这样一门学科,他致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,在计算机中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。

    也就是说,机器学习致力于研究如何产生“模型”的学习算法。当有了“学习算法”,我们把经验数据丢给它,就会得到一个“模型”。在面临新的数据时,“模型”便会做出相应的判断。

二、基本术语与基本概念

2.1 基本术语

  1. 样本(sample),又称示例(instance),是关于对象的一个描述,记作 x ⃗ \vec{x} x .
  2. 数据集(data set),若干样本的集合,记作 D ⃗ \vec{D} D ={ x 1 ⃗ \vec{x_1} x1 , x 2 ⃗ \vec{x_2} x2 ,…, x m ⃗ \vec{x_m} xm }.
  3. 属性(attribute),又称特征(feature),反映对象在某方面的表现或者性质.
  4. 属性值(attribute value),属性的取值.
  5. 属性空间(attribute space),又称样本空间(sample space),是属性张成的空间,记作 χ \chi χ.

    一般的,令 D ⃗ = ( x 1 ⃗ , x 2 ⃗ , . . . , x m ⃗ ) \vec{D}=({\vec{x_1},\vec{x_2},...,\vec{x_m}}) D =(x1 ,x2 ,...,xm )表示包含m个示例的数据集,每个示例由 d d d个属性组成, x i ⃗ = ( x i 1 , x i 2 , . . . , x i d ) \vec{x_i}=(x_{i1},x_{i2},...,x_{id}) xi =(xi1,xi2,...,xid) d d d维属性空间 χ \chi χ的一个向量, x i ⃗ ∈ χ \vec{x_i}\in\chi xi χ,其中 x i j x_{ij} xij x i ⃗ \vec{x_i} xi 的第 j j j个属性的取值。

    从数据中通过“学习算法”学得模型的过程叫做”训练“或者“学习”,每个样本叫做“训练样本”,“训练样本”组成“训练集”。学得模型对应了数据的某种潜在规律,因此学得模型也可称为“假设”,可用 h ( x ) h(x) h(x)表示,相应的潜在规律用 f ( x ) f(x) f(x)表示。学习的过程就是不断调整 h ( x ) h(x) h(x)来逼近 f ( x ) f(x) f(x)

    为了能够学习数据并进行预测,除了“示例”,还需要“示例的结果”,又称“标签”( l a b e l label label)。示例+标签=样例,常用 ( x i ⃗ , y i ) (\vec{x_i},y_i) (xi ,yi)表示,其中 y i ∈ γ y_i\in\gamma yiγ是示例 x i ⃗ \vec{x_i} xi 的标记, γ \gamma γ是所有标记的集合,称为“标记空间”或者“输出空间”。

    学得模型之后,利用其进行预测的过程称为“测试”。例如在学得 f f f之后,对测试例 x x x,可得其预测标记 f ( x ) f(x) f(x)

一般的,预测任务是希望通过对训练集 { ( x 1 ⃗ , y 1 ) , ( x 2 ⃗ , y 2 ) , . . . , ( x m ⃗ , y m ) } \{(\vec{x_1},y_1),(\vec{x_2},y_2),...,(\vec{x_m},y_m)\} {(x1 ,y1),(x2 ,y2),...,(xm ,ym)}进行学习,建立一个从输入空间到输出空间的映射: χ ↦ γ \chi\mapsto\gamma χγ

2.2 学习任务分类

  1. 根据预测值类型分:预测离散值为“分类”( c l a s s i f i c a t i o n classification classification),预测连续值为“回归”( r e g r e s s i o n regression regression)。而在“分类”中又可细分为二分类与多分类。
  2. 根据训练数据有无标记信息,学习任务可分为“有监督学习”与“无监督学习”。分类与回归均属于有监督学习,而聚类属于无监督学习。

    学得模型需要适用于新样本,即“泛化”能力一定要强。但是训练集只是样本空间的很小一部分,不能完全代表样本空间。通常假设样本空间中每个样本服从同一分布 D \mathcal{D} D,我们每次选取的训练集中的每个训练样本都是独立的从样本空间中取出,即独立同分布。显而易见,训练集越大,学得模型越准确, h ( x ) h(x) h(x)越逼近 f ( x ) f(x) f(x)

2.3 假设空间

    机器学习是“从样例中学习”,是从具体事实出发归结出一般性规律的过程,即“归纳”,归纳的好坏通过学得模型的泛化能力来体现。因此,“从样例中学习”又可称为“归纳学习”。广义来讲,“归纳学习”大体可以理解为从样例中学习;狭义来看,“归纳学习”是指从训练数据中学得概念,即“概念学习”。目前来看,从训练数据中学习到语义明确且泛化能力强的概念较为困难,因此应用广泛的为广义归纳学习。
    我们可以把学习过程看成是一个在所有假设组成的假设空间中进行搜索的过程,搜索的目标就是寻找与训练集“匹配”的假设。显而易见,假设的表示方法一旦确定,假设空间的大小规模也就随之确定。对假设空间的搜索可以采用多种方式,例如自上而下、自下而上等等,通过不断删除与训练集不一致的假设,最终会得到所有满足训练数据的假设构成的”子空间“。
    由于训练集只是样本空间中很小的一部分,所以对于来自同一样本空间的不同训练集,学得模型也势必是不同的。换句话说,不同训练集会导致学得模型不同,即“假设”不同,由此得到的假设“子空间”也势必不会一样,将每次搜索得到的子空间叫做“版本空间”(version space)。以书中西瓜为例,版本空间如图1所示:

色泽=* 根蒂=蜷缩 敲声=浊响
色泽=* 根蒂=蜷缩 敲声=*
色泽=* 根蒂=* 敲声=浊响
图1 西瓜问题的版本空间

2.4 归纳偏好

    由上可知,对同一样本空间的不同训练集进行训练会得到不同的假设。这些假设在没有设定约束条件时,并无优劣之分。因此在实际情境中,我们需要告诉机器应该选择何种模型。
    定义机器学习算法在学习过程中对某种类型假设的偏好为“归纳偏好”。“归纳偏好”可认为是学习算法在假设空间中进行搜索时的启发式或“价值观”。由此我们很容易会想到:有没有一般性法则,可以告诉机器,哪些学习算法是优于其他学习算法呢?换句话说,有没有一般性准则,可以用来引导学习算法确立正确的“价值观”呢?“奥卡姆剃刀”在这里可以派上用场,即:“如无必要,勿增实体”。但是奥卡姆剃刀并非唯一准则,也不一定是最好的准则,还是需要结合实际情况具体分析,选择合适的“归纳偏好”。
    现在思考这样一个问题:
    有没有一些“归纳偏好”是永远优于另外一些“归纳偏好”的呢?回答:没有。西瓜书上简要证明了这一结论(NFL定理),有些地方我认为说得过于简洁,现在结合自己的理解做一些解释:
    证明:对于任意算法 L a \mathfrak{L_a} La L b \mathfrak{L_b} Lb,在无其他附加条件时,是无优劣之分的。
    设样本空间 χ \chi χ和假设空间 H \mathcal{H} H都是离散的,令 P { h ∣ X , L a } P\{h|X,\mathfrak{L_a}\} P{hX,La}表示算法 L a \mathfrak{L_a} La在训练集 X X X上产生假设 h h h的概率;设 f f f为我们希望学习到的真是目标函数(正确的假设)。学习算法 L a \mathfrak{L_a} La在样本空间中训练集外的所有样本上的误差为:
E o t e ( L a ∣ X , f ) = ∑ h ∑ x ∈ χ − X P ( x ) Ⅱ ( h ( x ) = f̸ ( x ) ) P ( h ∣ X , L a ) (1) E_{ote}(\mathfrak{L_a}|X,f)=\displaystyle{\sum_{h}}\displaystyle{\sum_{x\in\chi-X}}P(x)Ⅱ(h(x)=\not f(x))P(h|X,\mathfrak{L_a})\tag{1} Eote(LaX,f)=hxχXP(x)(h(x)=f(x))P(hX,La)(1)

    其中 Ⅱ ( ⋅ ) Ⅱ(\cdot) ()是指示函数,若 ( ⋅ ) (\cdot) ()为真则输出1,为假则输出0。这个式子很好理解:
     ∑ h ∑ x ∈ χ − X \displaystyle{\sum_{h}}\displaystyle{\sum_{x\in\chi-X}} hxχX{选择训练集外样本 x x x的概率}✖{是否存在误差}✖{在训练集 X X X上学到假设 h h h的概率}, X X X不变, h h h亦不变。式(1)是在真实目标函数 f f f已经确定的情况下计算的总体误差。那么如果情况任意, f f f不再唯一,需要再次求和计算总体误差。
    假设我们现在考虑二分类问题,输入空间到输出空间的映射关系: χ ↦ { 0 , 1 } \chi\mapsto\{0,1\} χ{0,1},并且认为真实目标函数可以是任意函数。对所有可能的 f f f按照均匀分布计算总体误差:
∑ f E o t e ( L a ∣ X , f ) = ∑ f ∑ h ∑ x ∈ χ − X P ( x ) Ⅱ ( h ( x ) = f̸ ( x ) ) P ( h ∣ X , L a ) (2) \displaystyle{\sum_{f}}E_{ote}(\mathfrak{L_a}|X,f)=\displaystyle{\sum_f}\displaystyle{\sum_{h}}\displaystyle{\sum_{x\in\chi-X}}P(x)Ⅱ(h(x)=\not f(x))P(h|X,\mathfrak{L_a})\tag{2} fEote(LaX,f)=fhxχXP(x)(h(x)=f(x))P(hX,La)(2)
    这里书上直接变形式(2)让人有点不理解,做一些解释:
    式(2)先选定训练集外样本 x x x,计算在训练集 X X X上产生 h h h的概率,对 x x x求第一次和,计算出特定假设 h h h条件下训练集外样本上的概率和;再对 h h h求第二次和,最后再对 f f f求和,计算所有可能的真实目标函数。现在换个角度理解原式:对于所有可能的 h h h,先计算有多少假设与真实目标函数相符,进行第一次求和;再计算产生假设 h h h的误差总和,最后计算所有的 x x x,由此将原式变形为式(3):
∑ f E o t e ( L a ∣ X , f ) = ∑ x ∈ χ − X P ( x ) ∑ h P ( h ∣ X , L a ) ∑ f Ⅱ ( h ( x ) = f̸ ( x ) ) (3) \displaystyle{\sum_{f}}E_{ote}(\mathfrak{L_a}|X,f)=\displaystyle{\sum_{x\in\chi-X}}P(x)\displaystyle{\sum_{h}}P(h|X,\mathfrak{L_a})\displaystyle{\sum_f}Ⅱ(h(x)=\not f(x))\tag{3} fEote(LaX,f)=xχXP(x)hP(hX,La)f(h(x)=f(x))(3)

    由于前提条件中说明 f f f是均匀分布的, f f f的总个数,也就是总体假设空间的大小为 2 ∣ χ ∣ 2^{|\chi|} 2χ。( χ \chi χ为属性空间,由于是二分类问题,总体假设空间自然是 2 ∣ χ ∣ 2^{|\chi|} 2χ)继续推导:
∑ f E o t e ( L a ∣ X , f ) = ∑ x ∈ χ − X P ( x ) ∑ h P ( h ∣ X , L a ) ∑ f Ⅱ ( h ( x ) = f̸ ( x ) ) = ∑ x ∈ χ − X P ( x ) ∑ h P ( h ∣ X , L a ) ⋅ 1 2 2 ∣ χ ∣ = 2 ∣ χ ∣ − 1 ∑ x ∈ χ − X P ( x ) ∑ h P ( h ∣ X , L a ) = 2 ∣ χ ∣ − 1 ∑ x ∈ χ − X P ( x ) (4) \begin{aligned} \displaystyle{\sum_{f}}E_{ote}(\mathfrak{L_a}|X,f)&={\displaystyle{\sum_{x\in\chi-X}}P(x)\displaystyle{\sum_{h}}P(h|X,\mathfrak{L_a})\displaystyle{\sum_f}Ⅱ(h(x)=\not f(x))} \\&=\displaystyle{\sum_{x\in\chi-X}}P(x)\displaystyle{\sum_{h}}P(h|X,\mathfrak{L_a})\cdot\frac{1}{2}2^{|\chi|} \\&=2^{|\chi|-1}\displaystyle{\sum_{x\in\chi-X}}P(x)\displaystyle{\sum_{h}}P(h|X,\mathfrak{L_a})\\&=2^{|\chi|-1}\displaystyle{\sum_{x\in\chi-X}}P(x) \end{aligned}\tag{4} fEote(LaX,f)=xχXP(x)hP(hX,La)f(h(x)=f(x))=xχXP(x)hP(hX,La)212χ=2χ1xχXP(x)hP(hX,La)=2χ1xχXP(x)(4)
    注意这里由于 f f f是均匀分布,有一半的 f f f x x x的预测与 h h h的预测不一致,所以 ∑ f Ⅱ ( h ( x ) = f̸ ( x ) ) = 1 2 2 ∣ χ ∣ \displaystyle{\sum_f}Ⅱ(h(x)=\not f(x))=\frac{1}{2}2^{|\chi|} f(h(x)=f(x))=212χ。我们发现,式(4)推导出的总体误差竟然与最开始的学习算法 L a \mathfrak{L_a} La无关,由此可以得出结论: ∀ L a , L b , \forall\mathfrak{L_a},\mathfrak{L_b}, La,Lb,均有 ∑ f E o t e ( L a ∣ ∣ X , f ) = ∑ f E o t e ( L b ∣ ∣ X , f ) \displaystyle{\sum_{f}}E_{ote}(\mathfrak{L_a|}|X,f)=\displaystyle{\sum_{f}}E_{ote}(\mathfrak{L_b|}|X,f) fEote(LaX,f)=fEote(LbX,f),即“NFL”定理(NO FREE LUNCH THEOREM)。
    注:NFL定理虽然揭示出算法本身并无优劣之分,但是它本身有一些假设需要进一步探究:

  1. NFL定理的一个前提是认为所有的问题同样重要,出现的机会也同样多。但是事实果真如此吗?在NFL定理的推导中,默认所有的问题同样重要,我们才能将所有训练集外的样本误差累加起来。可是实际情况是:我们通常只关心要解决的问题,至于学得模型能否帮助我们解决别的问题甚至是相近问题,这并不重要。
  2. NFL定理假设 f f f为均匀分布,但是这与实际情况并不是很符合。书中以西瓜为例做出了解释:考虑两个假设:假设1&假设2,由NFL定理,这两个假设一样好。如果西瓜满足假设1或者假设2,均可以认为该西瓜是好瓜。但是满足假设1的西瓜可能经常出现,而满足假设2的西瓜却十分罕见。换个例子,小时候魔法师方便面里面有三国演义的卡片,当时大家收集的不亦乐乎,可总是有那么一些人物,无论你买了多少袋,总是中不了。而有一些人物,比如贾诩、曹彰,手里已经有了十多张,还再不停地中。跑题了,溜了溜了。

    总之,NFL定理告诉我们,并不存在一种学习算法是永远优于另外一种算法的,实际情况不同,算法的优劣性也不同。这就回答了我们刚开始提出的问题,那就是不存在一类“归纳偏好”能够永远优于其他的“归纳偏好”,不考虑实际问题地大谈特谈“学习算法”,都是耍流氓。

三、机器学习发展历程

  1. 二十世纪五十年代到七十年代初,人工智能处于“推理期”,人们认为只要机器拥有逻辑推理能力,就具有智能。
  2. 二十世纪七十年代中期开始,人们意识到光有逻辑推理能力是远远不够的,机器还必须具有知识。这一时期出现了大量的专家系统,取得了许多成果。
  3. 发展:人们逐渐意识到专家系统面临“知识工程瓶颈”。通过人类总结知识,输入给机器是是相当困难的。人们开始希望机器能够自己学习知识。

    早在二十世纪五十年代图灵就提出过机器学习的可能。五十年代中后期,出现基于神经网络的“连接主义”学习,代表工作包括:感知机、Adaline、以及目前异常火爆的深度学习;六七十年代,基于逻辑表示的“符号主义”学习开始发展,代表性工作包括:结构学习系统、基于逻辑的归纳学习系统、概念学习系统、与以决策理论为基础的学习技术等。

    机器学习研究可分为:

    1. 机械学习 2. 示教学习 3. 类比学习 4. 归纳学习

    归纳学习相当于“从样例中学习”,即广义归纳学习。它是目前被研究最多、涵盖最广的机器学习,包括监督学习与无监督学习。下图不全:

从样例中学习
1.符号主义学习
决策树
基于逻辑的学习
2.基于神经网络的连接主义学习
1.深度学习
3.统计机器学习
SVM
kernel

四、课后习题

1.1 表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间。
周志华《机器学习》第一章笔记+公式推导+课后习题_第1张图片答:[青绿;蜷缩;浊响]
    [青绿;蜷缩; ∗ * ]
    [青绿; ∗ * ;浊响]
    [ ∗ * ;蜷缩;浊响]
    [ ∗ * ∗ * ;浊响]
    [ ∗ * ;蜷缩; ∗ * ]
    [青绿; ∗ * ∗ * ]
    共七种。由于正反例均存在, ∅ \varnothing 与[ ∗ * ∗ * ∗ * ]的情况不必考虑。
1.2与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算有多少种可能的假设。
    知识补充:设A是一个命题公式,A中出现的命题变元为p1,p2,…,pn,以Qi表示pi或┐pi,i=1,…,n。称Q1∧…∧Qn是p1,…,pn的一个合取项,若干个互不相同的析取项的合取称为一个合取范式,与命题公式A逻辑等价的合取范式称为A的合取范式。析合范式就是若干个合取式的析取。
    表1.1中西瓜一共有3种属性,所有可能性为: 3 × 4 × 4 = 48 3\times4\times4=48 3×4×4=48,所以 k k k的最大数值是 48 48 48。题中要求使用最多包含k个合取式的析合范式来表达西瓜分类问题的假设空间,也就是求 ∑ C 48 k \displaystyle{\sum{\mathrm{C}_{48}^k}} C48k。这里面还包含了许多冗余情况,书中要求考虑。恕本人才疏学浅,还没想明白这里怎么做。

1.3若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择

    将属性相近或者相同的数据进行聚类,无法与其他数据聚类的训练样本,认为其被噪声污染严重,剔除。剩下的样本可认为噪声影响相对较小,利用这些数据评价假设。

1.4本章1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量 l l l,试证明没有免费的午餐”定理仍成立

    换成其他性能度量之后,总体误差改写为:
∑ f E o t e ( L a ∣ X , f ) = ∑ f ∑ h ∑ x ∈ χ − X P ( x ) l ( h ( x ) = f̸ ( x ) ) P ( h ∣ X , L a ) = ∑ x ∈ χ − X P ( x ) ∑ h P ( h ∣ X , L a ) ∑ f l ( h ( x ) = f̸ ( x ) ) (5) \begin{aligned} \displaystyle{\sum_{f}}E_{ote}(\mathfrak{L_a}|X,f)&=\displaystyle{\sum_f}\displaystyle{\sum_{h}}\displaystyle{\sum_{x\in\chi-X}}P(x)l(h(x)=\not f(x))P(h|X,\mathfrak{L_a}) \\&={\displaystyle{\sum_{x\in\chi-X}}P(x)\displaystyle{\sum_{h}}P(h|X,\mathfrak{L_a})\displaystyle{\sum_f}l(h(x)=\not f(x))} \end{aligned}\tag{5} fEote(LaX,f)=fhxχXP(x)l(h(x)=f(x))P(hX,La)=xχXP(x)hP(hX,La)fl(h(x)=f(x))(5)

    由于 f f f仍然是均匀分布的, f f f的总个数,也就是总体假设空间的大小仍为 2 ∣ χ ∣ 2^{|\chi|} 2χ,且满足 P ( h ( x ) = f ( x ) ) = 0.5 P(h(x)=f(x))=0.5 P(h(x)=f(x))=0.5,故:
∑ f l ( h ( x ) = f̸ ( x ) ) = 2 ∣ χ ∣ ⋅ 0.5 ⋅ [ l ( h ( x ) = f ( x ) ) + l ( h ( x ) = f̸ ( x ) ) ] \displaystyle{\sum_f}l(h(x)=\not f(x))=2^{|\chi|}\cdot0.5\cdot [l(h(x)=f(x))+l(h(x)=\not f(x))] fl(h(x)=f(x))=2χ0.5[l(h(x)=f(x))+l(h(x)=f(x))]
     所 以 l ( h ( x ) = f ( x ) ) + l ( h ( x ) = f̸ ( x ) ) 所以l(h(x)=f(x))+l(h(x)=\not f(x)) l(h(x)=f(x))+l(h(x)=f(x))是常值时,NFL定理若仍然成立:
∑ f E o t e ( L a ∣ X , f ) = ∑ f ∑ h ∑ x ∈ χ − X P ( x ) l ( h ( x ) = f̸ ( x ) ) P ( h ∣ X , L a ) = ∑ x ∈ χ − X P ( x ) ∑ h P ( h ∣ X , L a ) ∑ f l ( h ( x ) = f̸ ( x ) ) = ∑ x ∈ χ − X P ( x ) ∑ h P ( h ∣ X , L a ) ⋅ 1 2 2 ∣ χ ∣ ⋅ [ l ( h ( x ) = f ( x ) ) + l ( h ( x ) = f̸ ( x ) ) ] = 2 ∣ χ ∣ − 1 ⋅ [ l ( h ( x ) = f ( x ) ) + l ( h ( x ) = f̸ ( x ) ) ] ⋅ ∑ x ∈ χ − X P ( x ) ∑ h P ( h ∣ X , L a ) = 2 ∣ χ ∣ − 1 ⋅ [ l ( h ( x ) = f ( x ) ) + l ( h ( x ) = f̸ ( x ) ) ] ⋅ ∑ x ∈ χ − X P ( x ) \begin{aligned} \displaystyle{\sum_{f}}E_{ote}(\mathfrak{L_a}|X,f)&=\displaystyle{\sum_f}\displaystyle{\sum_{h}}\displaystyle{\sum_{x\in\chi-X}}P(x)l(h(x)=\not f(x))P(h|X,\mathfrak{L_a}) \\&={\displaystyle{\sum_{x\in\chi-X}}P(x)\displaystyle{\sum_{h}}P(h|X,\mathfrak{L_a})\displaystyle{\sum_f}l(h(x)=\not f(x))} \\&=\displaystyle{\sum_{x\in\chi-X}}P(x)\displaystyle{\sum_{h}}P(h|X,\mathfrak{L_a})\cdot\frac{1}{2}2^{|\chi|}\cdot [l(h(x)=f(x))+l(h(x)=\not f(x))] \\&=2^{|\chi|-1}\cdot [l(h(x)=f(x))+l(h(x)=\not f(x))]\cdot\displaystyle{\sum_{x\in\chi-X}}P(x)\displaystyle{\sum_{h}}P(h|X,\mathfrak{L_a}) \\&=2^{|\chi|-1}\cdot [l(h(x)=f(x))+l(h(x)=\not f(x))]\cdot\displaystyle{\sum_{x\in\chi-X}}P(x) \end{aligned} fEote(LaX,f)=fhxχXP(x)l(h(x)=f(x))P(hX,La)=xχXP(x)hP(hX,La)fl(h(x)=f(x))=xχXP(x)hP(hX,La)212χ[l(h(x)=f(x))+l(h(x)=f(x))]=2χ1[l(h(x)=f(x))+l(h(x)=f(x))]xχXP(x)hP(hX,La)=2χ1[l(h(x)=f(x))+l(h(x)=f(x))]xχXP(x)
1.5 略

你可能感兴趣的:(个人学习,人工智能)