【机器学习-周志华】学习笔记-第六章

记录第一遍没看懂的
记录觉得有用的
其他章节:
        第一章
        第三章
        第五章
        第六章
        第七章
        第八章
        第九章
        第十章
        十一章
        十二章
        十三章
        十四章
        十五章
        十六章

6.2 对偶问题

        支持向量机的基本型:
在这里插入图片描述
        他转换成对偶问题算一个标准问题(数学细节解释在附录)。
首先转换成数学的标准写法,即 1 − y i ( w T x i + b ) ≤ 0 1-y_i(w^Tx_i+b)\le0 1yi(wTxi+b)0;由于拉格朗日乘子法要求约束是等于0,而我们这里是小于等于0,因此只是利用类似的方式,给出一个拉格朗日函数。
在这里插入图片描述
        同样求偏导,类似于之前的拉格朗日乘子法中的求偏导,并让偏导等于0(相当于一个中间结果)。
【机器学习-周志华】学习笔记-第六章_第1张图片
        代入,注意 ∑ \sum 里面的下标,改成j是为了便于区分,其实只要注意是一个 ∑ \sum 的即可:
L = 1 2 ∣ ∣ w ∣ ∣ 2 + ∑ i = 1 m a i ( 1 − y i ( w T x i + b ) ) = 1 2 ( ∑ a i y i x i ) T ( ∑ a i y i x i ) + ∑ a i ( 1 − y i ( ( ∑ a j y j x j ) T x i + b ) ) = 1 2 ( ∑ a i y i x i ) T ( ∑ a i y i x i ) + ∑ a i − ∑ a i y i ( ∑ a j y j x j ) T x i + ∑ a i y i b = 1 2 ( ∑ a i y i x i ) T ( ∑ a i y i x i ) + ∑ a i − ( ∑ a i y i x i ) T ( ∑ a j y j x j ) = − 1 2 ( ∑ a i y i x i ) T ( ∑ a i y i x i ) + ∑ a i = ∑ a i − 1 2 ∑ i ∑ j a i a j y i y j x i T x j \begin{aligned} L &=\dfrac{1}{2}||w||^2+\sum_{i=1}^m a_i(1-y_i(w^Tx_i+b))\\ &=\dfrac{1}{2}(\sum a_i y_i x_i)^T(\sum a_i y_i x_i)+\sum a_i(1-y_i((\sum a_j y_j x_j)^T x_i +b))\\ &=\dfrac{1}{2}(\sum a_i y_i x_i)^T(\sum a_i y_i x_i)+\sum a_i-\sum a_i y_i(\sum a_j y_j x_j)^T x_i +\sum a_i y_ib\\ &=\dfrac{1}{2}(\sum a_i y_i x_i)^T(\sum a_i y_i x_i)+\sum a_i-(\sum a_iy_ix_i)^T(\sum a_jy_jx_j)\\ &=-\dfrac{1}{2}(\sum a_i y_i x_i)^T(\sum a_i y_i x_i)+\sum a_i\\ &=\sum a_i-\dfrac{1}{2}\sum_i \sum_j a_ia_jy_iy_jx_i^Tx_j \end{aligned} L=21∣∣w2+i=1mai(1yi(wTxi+b))=21(aiyixi)T(aiyixi)+ai(1yi((ajyjxj)Txi+b))=21(aiyixi)T(aiyixi)+aiaiyi(ajyjxj)Txi+aiyib=21(aiyixi)T(aiyixi)+ai(aiyixi)T(ajyjxj)=21(aiyixi)T(aiyixi)+ai=ai21ijaiajyiyjxiTxj
        根据附录B.1拉格朗日乘子法,可以解释KKT条件和为什么之前都是求极小,到公式(6.11)变成max了。
【机器学习-周志华】学习笔记-第六章_第2张图片
【机器学习-周志华】学习笔记-第六章_第3张图片
        核函数是用 ϕ ( x ) \phi(x) ϕ(x)这样类似一个非线性变化替换 x x x;软间隔是允许某些样本不满足约束,引入损失函数;6.5节化分类为回归。

6.6 核方法

        关于(6.59)到(6.64):
在这里插入图片描述
在这里插入图片描述
        首先是核函数的参数 α \alpha α,我们可以写成列向量的形式, α = [ α 1 , α 2 , . . . , α m ] T \alpha=[\alpha_1,\alpha_2,...,\alpha_m]^T α=[α1,α2,...,αm]T;核函数在书中写了是 ϕ ( x i ) T ϕ ( x ) \phi(x_i)^T\phi(x) ϕ(xi)Tϕ(x)。把带有 x i x_i xi的两项合起来,也就是书中公式(6.65), w = ∑ i = 1 m α i ϕ ( x i ) w=\sum_{i=1}^m\alpha_i\phi(x_i) w=i=1mαiϕ(xi)。若 Φ = [ ϕ ( x 1 ) , ϕ ( x 2 ) , . . . , ϕ ( x m ) ] T \Phi=[\phi(x_1),\phi(x_2),...,\phi(x_m)]^T Φ=[ϕ(x1),ϕ(x2),...,ϕ(xm)]T,则 w = α Φ T w=\alpha\Phi^T w=αΦT
         α \alpha α组成的列向量每一个元素都是第 i i i个核函数的系数,因此是个 m m m行1列的列向量;而 Φ \Phi Φ里面的 ϕ ( x i ) \phi(x_i) ϕ(xi)对于每个样本点变换后特征不确定,可以先定为有 d d d个不同的特征。那么 w w w d ∗ 1 d*1 d1的特征。那么(6.60)可以写为:
m a x α J ( w ) = w T S b ϕ w w T S w ϕ w = α T Φ S B ϕ Φ T α α T Φ S w ϕ Φ T α max_\alpha J(w)=\dfrac{w^TS_b^\phi w}{w^TS_w^\phi w}=\dfrac{\alpha^T\Phi S_B^\phi\Phi^T\alpha}{\alpha^T\Phi S_w^\phi\Phi^T\alpha} maxαJ(w)=wTSwϕwwTSbϕw=αTΦSwϕΦTααTΦSBϕΦTα
        我们希望公式最后写成跟 α \alpha α有关的形式,业技术公式(6.70)。推导详细过程如下:首先是分子 α T M α \alpha^TM\alpha αTMα的来源,根据(6.60),分子应该是 w T S b ϕ w w^TS_b^\phi w wTSbϕw,那么先代入展开:。
w T S b ϕ w = α T Φ ( μ 1 ϕ − μ 0 ϕ ) ( μ 1 ϕ − μ 0 ϕ ) T Φ T α w^TS_b^\phi w=\alpha^T \Phi(\mu_1^\phi-\mu_0^\phi)(\mu_1^\phi-\mu_0^\phi)^T \Phi^T \alpha\\ wTSbϕw=αTΦ(μ1ϕμ0ϕ)(μ1ϕμ0ϕ)TΦTα
        把经过非线性变换后的中心点进行处理:
μ 1 ϕ = 1 m 1 ∑ x ∈ X 1 ϕ ( x ) = 1 m 1 ( ∑ x ∈ X 1 ϕ ( x ) ∗ 1 + ∑ x ∈ X 0 ϕ ( x ) ∗ 0 ) = 1 m 1 ∑ x ∈ A l l ϕ ( x i ) ∗ l l i = 1 m 1 Φ T l 1 \begin{aligned} \mu_1^\phi &= \dfrac{1}{m_1} \sum_{x \in X_1} \phi(x)\\ &= \dfrac{1}{m_1}( \sum_{x \in X_1} \phi(x)*1+ \sum_{x \in X_0} \phi(x)*0)\\ &=\dfrac{1}{m_1} \sum_{x \in All}\phi(x_i)*l_{li}\\ &=\dfrac{1}{m_1} \Phi^T l_1 \end{aligned} μ1ϕ=m11xX1ϕ(x)=m11(xX1ϕ(x)1+xX0ϕ(x)0)=m11xAllϕ(xi)lli=m11ΦTl1
        因此,结合公式(6.66)和公式(6.68),可得:
w T S b ϕ w = α T Φ ( μ 1 ϕ − μ 0 ϕ ) ( μ 1 ϕ − μ 0 ϕ ) T Φ T α = α T Φ Φ T ( l 1 m 1 − l 0 m 0 ) ( l 1 m 1 − l 0 m 0 ) T ( Φ Φ T ) T α = α T K ( l 1 m 1 − l 0 m 0 ) ( l 1 m 1 − l 0 m 0 ) T K T α = α T ( μ 0 ˉ − μ 1 ˉ ) ( μ 0 ˉ − μ 1 ˉ ) T α = α T M α \begin{aligned} w^TS_b^\phi w &=\alpha^T \Phi(\mu_1^\phi-\mu_0^\phi)(\mu_1^\phi-\mu_0^\phi)^T \Phi^T \alpha\\ &=\alpha^T \Phi \Phi^T (\dfrac{l_1}{m_1}-\dfrac{l_0}{m_0})(\dfrac{l_1}{m_1}-\dfrac{l_0}{m_0})^T (\Phi \Phi^T)^T \alpha\\ &=\alpha^TK(\dfrac{l_1}{m_1}-\dfrac{l_0}{m_0})(\dfrac{l_1}{m_1}-\dfrac{l_0}{m_0})^T K^T \alpha\\ &=\alpha^T(\bar{\mu_0}-\bar{\mu_1})(\bar{\mu_0}-\bar{\mu_1})^T \alpha\\ &=\alpha^TM\alpha \end{aligned} wTSbϕw=αTΦ(μ1ϕμ0ϕ)(μ1ϕμ0ϕ)TΦTα=αTΦΦT(m1l1m0l0)(m1l1m0l0)T(ΦΦT)Tα=αTK(m1l1m0l0)(m1l1m0l0)TKTα=αT(μ0ˉμ1ˉ)(μ0ˉμ1ˉ)Tα=αTMα

你可能感兴趣的:(#,机器学习,机器学习,支持向量机,算法)