【机器学习-周志华】学习笔记-第三章

记录第一遍没看懂的
记录觉得有用的
其他章节:
        第一章
        第三章
        第五章
        第六章
        第七章
        第八章
        第九章
        第十章
        十一章
        十二章
        十三章
        十四章
        十五章
        十六章

第二章主要是一些基础的介绍,实际做一次项目以后,都很好理解;并且,个人感觉,在实际应用中,很多东西是需要现查的(超小声)

第三章

        三个不同思路使用线性模型:
        3.2是让线性模型尽可能误差小的通过所有数据点
        3.3用非线性变化后的线性模型代表标签的后验概率
        3.4通过数据点映射到线性模型代表的子空间,使得数据更容易被分类

3.2 线性回归

超重要的式子
        找一个合适的w和b,使得误差平方和极小->平方损失
【机器学习-周志华】学习笔记-第三章_第1张图片
        在计算误差的时候,(3.4)中的x,y其实是常数,而w和b反而成为了未知量。那么可以以先展开E(w,b)如下:

E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 = ∑ i = 1 m ( x i 2 w 2 + y i 2 + b 2 − 2 y i x i w − 2 y i b − 2 w b x i ) = ∑ ( x i 2 ) w 2 + m b 2 + ( − 2 ∑ ( x i y i ) ) w + ( − 2 ∑ y i ) b + ∑ y i 2 \begin{aligned} E(w,b) &=\sum_{i=1}^{m}(y_i-wx_i-b)^2\\ &=\sum_{i=1}^{m}(x_i^2w^2+y_i^2+b^2-2y_ix_iw-2y_ib-2wbx_i)\\ &=\sum(x_i^2)w^2+mb^2+(-2\sum(x_iy_i))w+(-2\sum y_i)b+\sum y_i^2 \end{aligned} E(w,b)=i=1m(yiwxib)2=i=1m(xi2w2+yi2+b22yixiw2yib2wbxi)=(xi2)w2+mb2+(2(xiyi))w+(2yi)b+yi2
以w和b为未知项,可以看出,这是一个关于w和b的二次曲面。Ei为了求二次曲面的极小点,对w和b分别求导:
【机器学习-周志华】学习笔记-第三章_第2张图片
得到:
【机器学习-周志华】学习笔记-第三章_第3张图片
        扩展到整个数据集
在这里插入图片描述
        再求导得到:(完整的求梯度的过程在附录A中)
在这里插入图片描述
        求解得到:(重要公式)
在这里插入图片描述

3.3 对数几率回归

对数几率回归:
在这里插入图片描述
概率替换重写为:
在这里插入图片描述
由于连乘项不方便求导,一般方法就是对连乘项取对数变成累加。且取对数以后,并不影响w的大小判断。
在这里插入图片描述
(3.27-3.31)这几个式子,没咋看太懂,且没太想清楚,有啥用QWQ

3.4 线性判别分析

【机器学习-周志华】学习笔记-第三章_第4张图片
        样本协方差写全为(里面的协方差矩阵的展开可以参考公式(3.33))
Σ 0 = ∑ ( x − μ 0 ) ( x − μ 0 ) T w T Σ 0 w = ∑ w T ( x − μ 0 ) ( x − μ 0 ) T w \Sigma_0=\sum(x-\mu_0)(x-\mu_0)^T \\ w^T\Sigma_0w=\sum w^T(x-\mu_0)(x-\mu_0)^Tw Σ0=(xμ0)(xμ0)TwTΣ0w=wT(xμ0)(xμ0)Tw
        那么最大化目标就是希望,分子(类中心之间的距离)尽可能大,其分母(同类投影点的协方差)尽可能小,也就是最大化目标整体尽可能大。

【机器学习-周志华】学习笔记-第三章_第5张图片
        关于这里的拉格朗日乘子法的计算,(3.36)可以写成目标函数+限制的形式
m i n ( − w T S b w + λ ( w T S w w − 1 ) ) min(-w^TS_bw+\lambda(w^TS_ww-1)) min(wTSbw+λ(wTSww1))
        可以看出,这是一个关于w的二次曲面。那么要求最优的w,可以求梯度(和3.2一样的原理,同样也需要附录公式)
【机器学习-周志华】学习笔记-第三章_第6张图片
        也就是(两个分别代入,同时除以-2),得到(3.37)

∂ [ − w T S b w + λ ( w T S w w − 1 ) ] / ∂ w = S b − λ S w w = 0 \partial[-w^TS_bw+\lambda(w^TS_ww-1)]/\partial w=S_b-\lambda S_ww=0 [wTSbw+λ(wTSww1)]/w=SbλSww=0
        参考(3.32)式
S b w = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w → ( μ 0 − μ 1 ) S_bw=(\mu_0-\mu1)(\mu_0-\mu1)^Tw \rightarrow(\mu_0-\mu1) Sbw=(μ0μ1)(μ0μ1)Tw(μ0μ1)
        而(μ01)T w是个标量,所以方向完全由(μ01)决定,大小乘以任意一个常数对方向没有影响。

你可能感兴趣的:(#,机器学习,机器学习,人工智能,矩阵)