李航《统计学习方法》第二章习题和笔记

李航《统计学习方法》第二章习题和笔记

  • 感知机模型
  • 点到平面公式的推导两种思路
  • 习题

感知机模型

模型 f ( x ) = s i g n ( w ⃗ ⋅ x ⃗ + b ) f(x) = {\rm sign}(\vec w \cdot \vec x +b) f(x)=sign(w x +b) 注意w和b是n维向量,b是常数偏置
策略:损失函数: L ( w ⃗ , b ) = − ∑ x i ∈ M y i ( w ⃗ ⋅ x ⃗ i + b ) L(\vec w, b) = -\sum \limits_{x_i\in M}y_i(\vec w \cdot \vec x_i +b) L(w ,b)=xiMyi(w x i+b) M是误分类点的集合,L是误分类点到超平面的总距离。策略即为通过算法,学习出使得损失函数最小的参数w和b
算法:随机梯度下降(SGD)
书中给出的梯度公式过分简洁,工科生表示一下子转不过来。精确到参数向量/梯度向量的每一个维度的话,可以写成这样:(参考吴老大cs229 lecture notes)
∇ w L ( w ⃗ , b ) = ∂ ∂ w L ( w ⃗ , b ) = ( ∂ ∂ w ( 1 ) L ( w ⃗ , b ) , ⋯   , ∂ ∂ w ( n ) L ( w ⃗ , b ) ) T \nabla_wL(\vec w, b)=\frac{\partial}{\partial w}L(\vec w, b) =\left( \frac{\partial}{\partial w^{(1)}}L(\vec w, b) ,\cdots, \frac{\partial}{\partial w^{(n)}}L(\vec w, b)\right)^T wL(w ,b)=wL(w ,b)=(w(1)L(w ,b),,w(n)L(w ,b))T
其中梯度向量的第k项为:
∂ ∂ w ( k ) L ( w ⃗ , b ) = ∂ ∂ w ( k ) ( − ∑ x i ∈ M y i ( w ⃗ ⋅ x ⃗ i + b ) ) \dfrac{\partial}{\partial w^{(k)}}L(\vec w, b)=\dfrac{\partial}{\partial w^{(k)}}\left(-\sum \limits_{x_i\in M}y_i(\vec w \cdot \vec x_i +b)\right) w(k)L(w ,b)=w(k)(xiMyi(w x i+b))
= ∂ ∂ w ( k ) ( − ∑ x i ∈ M y i ( w ( 1 ) x i ( 1 ) + ⋯ w ( k ) x i ( k ) ⋯ + w ( n ) x i ( n ) + b ) ) =\dfrac{\partial}{\partial w^{(k)}}\left(-\sum \limits_{x_i\in M}y_i\left(w^{(1)} x_i^{(1)}+\cdots w^{(k)} x_i^{(k)} \cdots+w^{(n)} x_i^{(n)}+b\right)\right) =w(k)(xiMyi(w(1)xi(1)+w(k)xi(k)+w(n)xi(n)+b))
= − ∑ x i ∈ M y i x i ( k ) =-\sum\limits_{x_i\in M}y_ix_i^{(k)} =xiMyixi(k)
对于每一个维度(k = 1~n)都是一样的,由此可得到书中的梯度公式,对b过程一样。
注意,随机梯度下降一次只用了误分类点集M中随机的一个(不像梯度下降算法,每次更新参数要用到每一个误分类点处的梯度)

点到平面公式的推导两种思路

从向量投影的角度考虑可以参考这篇博文
转化为拉格朗日乘子法,对点到平面上任一点的距离做最小化,可以参考这篇pdf讲义

习题

1: 感知机不能表示异或
可以从直观上看发现线性不可分,或者拿第3题的定理证。。
2:Python感知机模型建立
3:定理证明
第一步:直观理解凸壳定义。从公式可以看出来,凸壳内的一点是S内所有点的加权平均,或者说是总权重为1的线性组合。所以在任意一个维度上的值都介于S内点的最小值和最大值之间。所以这个集合代表了S内的点能围出的最大的凸多边形内的所有点。按公式画个图:
李航《统计学习方法》第二章习题和笔记_第1张图片

参考资料:

点面距离,投影 https://blog.csdn.net/yutao03081/article/details/76652943
点面距离,拉格朗日乘子法 http://www.staff.city.ac.uk/o.castro-alvaredo/teaching/lagrange.pdf
斯坦福cs229 讲义: https://see.stanford.edu/Course/CS229

你可能感兴趣的:(统计学习)