【机器学习-周志华】学习笔记-第七章

记录第一遍没看懂的
记录觉得有用的
其他章节:
        第一章
        第三章
        第五章
        第六章
        第七章
        第八章
        第九章
        第十章
        十一章
        十二章
        十三章
        十四章
        十五章
        十六章

第七章的前提:所有相关概率都已知
【机器学习-周志华】学习笔记-第七章_第1张图片
        7.1节首先定义了条件风险(公式7.1),然后把每一个样本的条件风险的数学期望表达了出来(公式7.2),然后返回来定义使得每个样本达到最小的分类器记录下来(公式7.3)。

极大似然估计

【机器学习-周志华】学习笔记-第七章_第2张图片
在这里插入图片描述

        极大似然估计是要先假设参数服从一个先验分布。可以看公式(7.12)(7.13)对应的例子,他假设了概率密度函数复制高斯分布,而高斯分布形式为: p ( x ) = ( 2 π σ 2 ) − 1 2 e x p ( − ( x − μ ) 2 2 σ 2 ) p(x)=(2\pi\sigma^2)^{-\dfrac{1}{2}}exp(-\dfrac{(x-\mu)^2}{2\sigma^2}) p(x)=(2πσ2)21exp(2σ2(xμ)2)。因此,相当与把高斯分布的表达式代入(7.10)之中,去解(7.11)中的问题。首先代入可得:
L L ( θ c ) = ∑ x ∈ D c l o g ( p θ c ( x ) ) = ∑ x ∈ D c l o g ( ( 2 π σ c 2 ) − 1 2 e x p ( − ( x − μ c ) 2 2 σ c 2 ) ) = ∑ x ∈ D c − 1 2 l o g 2 π σ c 2 − ( x − μ c ) 2 2 σ c 2 LL(\theta_c)=\sum_{x\in D_c}log(p\theta_c(x))=\sum_{x\in D_c} log((2\pi\sigma^2_c)^{-\dfrac{1}{2}}exp(-\dfrac{(x-\mu_c)^2}{2\sigma^2_c }))=\sum_{x\in D_c}-\dfrac{1}{2}log2\pi\sigma^2_c-\dfrac{(x-\mu_c)^2}{2\sigma^2_c } LL(θc)=xDclog(pθc(x))=xDclog((2πσc2)21exp(2σc2(xμc)2))=xDc21log2πσc22σc2(xμc)2
        然后是求偏导等于0:
∂ L L / ∂ μ c = ∑ x ∈ D c − ( x − μ c ) / σ c 2 = 0 ⇒ ∑ x ∈ D c x = ∑ x ∈ D c μ c ∂ L L / ∂ σ c 2 = ∑ x ∈ D c − 1 2 σ c 2 + ( x − μ c ) 2 2 ( σ c 2 ) 2 = 0 ⇒ ∑ x ∈ D c σ c 2 = ∑ x ∈ D c ( x − μ c ) 2 \partial LL/\partial \mu_c = \sum_{x\in D_c}-(x-\mu_c)/\sigma^2_c = 0 \rArr \sum_{x\in D_c}x= \sum_{x\in D_c} \mu_c\\ \partial LL/\partial \sigma^2_c = \sum_{x\in D_c}-\dfrac{1}{2\sigma^2_c }+\dfrac{(x-\mu_c)^2}{2(\sigma^2_c)^2 }=0 \rArr \sum_{x\in D_c}\sigma^2_c= \sum_{x\in D_c} (x-\mu_c)^2\\ LL/μc=xDc(xμc)/σc2=0xDcx=xDcμcLL/σc2=xDc2σc21+2(σc2)2(xμc)2=0xDcσc2=xDc(xμc)2
        即,参数最大似然估计为:
【机器学习-周志华】学习笔记-第七章_第3张图片

朴素贝叶斯分类器

        核心:假设所有属性相互独立,有
【机器学习-周志华】学习笔记-第七章_第4张图片
        对于离散属性:
在这里插入图片描述
        对于连续属性:在这里插入图片描述

EM算法

        在已知 x x x和上一步的 Θ t \Theta^t Θt的条件之下,隐变量 Z Z Z的数学期望:
【机器学习-周志华】学习笔记-第七章_第5张图片

你可能感兴趣的:(#,机器学习,机器学习,算法,人工智能)