NNDL 作业2:第三章课后题

目录

习题3-2

习题3-5

习题3-6


习题3-2

在线性空间中,证明一个点x到平面f(x;w)=w^{T}+b=0的距离为\left | f(x;w) \right |/\left \| w \right \|

答:

设平面内有一点x',使得x-x^{'}垂直于此平面,

又因为w垂直于此平面,所以有x-x^{'}平行于w

即:x-x^{'}=kw(k为常数)

因此点x到平面的距离为\left | k \right |\left \| w \right \|

w^{T}x+b=f(x;w)

w^{T}x^{'}+b=0

所以f(x;w)=w^{T}(x-x^{'})

代入kw

f(x;w)=w^{T}kw

两边同时取模:

\left | f(x;w) \right |=\left \| w \right \|\left | k \right |\left \| w \right \|

得到点到平面的距离为

\left | k \right |\left \| w \right \|=\frac{f(x;w)}{\left \| w \right \|}

证明完毕

习题3-5

在Logistic回归中,是否可以用\hat{y}=\sigma (w_{T}x)去逼近正确的标签y,并用平方损失(y-\hat{y})^{2}最小化来优化参数w

答:

结论为:在使用sigmoid为激活函数时,不能使用平方损失作为损失函数,效果远不如交叉熵损失函数。

(1)当以平方损失作为loss function时:

L=\frac{1}{2}(\hat{y}-y)^{2}

\frac{\partial L }{\partial \omega }= (\hat{y}-y) {\sigma }'x

\omega=\omega-\eta \frac{\partial L}{\partial \omega }=\omega -\eta (\hat{y}-y){\sigma }'x

NNDL 作业2:第三章课后题_第1张图片

 

由sigmoid函数图可知,横坐标较小或较大时,sigmoid函数趋于平缓,因此在大多数情况下其导数几乎为0,导致\frac{\partial L}{\partial \omega }几乎为0,w很难去优化。

(2)当以 cross entropy 作为 loss function时:

{\sigma }'=\sigma\cdot (1-\sigma )y=\sigma(\omega ^{T}x)

L=-yln\hat{y}-(1-y)ln(1-\hat{y})

\frac{\partial L}{\partial \omega }=-y\frac{1}{\hat{y}}{ \sigma }'x-(1-y)\frac{1}{1-\hat{y}}(-1){\sigma }'x

\frac{\partial L}{\partial \omega }=-\frac{y\sigma (1-\sigma )x(1-\hat{y})}{\hat{y}(1-\hat{y})}+\frac{(1-y)\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}

\frac{\partial L }{\partial \omega }=\frac{\hat{y}\sigma (1-\sigma )x-y\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}

\frac{\partial L}{\partial \omega }=\frac{(\hat{y}-y)\hat{y}(1-\hat{y})x}{\hat{y}(1-\hat{y})}=(\hat{y}-y)x

可以看到梯度公式中没有{\sigma }'这一项,权重受到误差(y-\hat{y})的影响,所以当误差大的时候,权重更新快;当误差小的时候,权重更新慢。这是一个很好的性质。

所以当使用sigmoid作为激活函数的时候,常用交叉熵损失函数而不是用均方误差损失函数。

习题3-6

在 Softmax 回归的风险函数中,如果加上正则化项会有什么影响?

答:

Softmax 回归的风险函数公式:

R(\omega )=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}

加入正则化后:

R(\omega )=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda \omega ^{T}\omega

gif.latex?%5Cfrac%7B%5Cpartial%20R%28w%29%7D%7B%5Cpartial%20w%7D%3D-%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bn%3D1%7D%5E%7BN%7D%28%5Chat%7By%7D%5E%7B%28n%29%7D-y%5E%7B%28n%29%7D%29x%5E%7B%28n%29%7D+2%5Clambda%20w

更新参数时:

\omega =\omega +\alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda \omega

加入正则化后,在更新参数时每次需要减去2\lambda W,使得参数不会太大,便不会造成溢出之类的错误发生,同时也会抑制过拟合。

Softmax回归中使用的个权重向量是冗余的,即对所有的权重向量都减去一个同样的向量 ,不改变其输出结果。因此,Softmax回归往往需要使用正则化来约束其参数。此外,我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题。

你可能感兴趣的:(java,前端,开发语言)