神经网络与深度学习 作业2:第三章课后习题

习题3-2:在线性空间中,证明一个点x到平面f(x,w)=w^{T}x+b=0的距离为|f(x;w)|/||w||.

证明:设平面内有一点{x}',使得x-{x}'垂直于此平面,因为w垂直于此平面,因此又有x-{x}'平行与w

即:x-{x}'=kw(k为常数),因此点x到平面的距离为|k|*||w||,

又因为w^{T}x+b=f(x;w)w^{T}{x}'+b=0。所以f(x;w)=w^{T}(x-{x}')

代入kw,得到f(x;w)=w^{T}kw

对两边同时取模得到:|f(x;w)|=||w||*|b|*||w||,

距离为|k|*||w||=f(x;w)/||w||

习题3-5:在Logistic回归中,是否可以用\hat{y}=\sigma (w^{T}x)去逼近正确的标签y ,并用平方损失(y-\hat{y})^{2}最小化来优化参数w

在Logistic回归中可以用sigmoid函数去逼近正确的标签y ,但用平方损失(y-\hat{y})^{2}最小化来优化参数w则不太可行。

神经网络与深度学习 作业2:第三章课后习题_第1张图片 

E=\frac{1}{2}\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}

其中: 

\hat{y}=\sigma (w^{T}x)

\frac{\partial E}{\partial w}=\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}\hat{y}_{n}(1-\hat{y}_{n})x_{n}

因此,更新公式为:

w=w-\mu \frac{\partial E}{\partial w}=w-\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}\hat{y}_{n}(1-\hat{y}_{n})

因为sigmoid函数值域为[0,1],所以\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}\hat{y}_{n}(1-\hat{y}_{n})的函数值非常小,更新速率特别慢,因此不太适用。

习题3-6:在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响?

加上正则化后:

R(w)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda w^{T}w

则:

\frac{\partial R(w)}{\partial w}=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)}) x^{(n)}+2\lambda w

由此可得w的更新公式为:

w=w+a\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda w

加入正则化后,使得在更新参数时每次都要减去2\lambda w,使得新的参数不会太大,也不会造成溢出错误的发生,抑制了过拟合的发生。

Softmax回归中使用的个权重向量是冗余的,即对所有的权重向量都减去一个同样的向量 ,不改变其输出结果。因此,Softmax回归往往需要使用正则化来约束其参数。此外,我们还可以利用这个特性来避免计算Softmax函数时在数值计算上溢出问题。

参考文章: 

邱锡鹏《神经网络与深度学习》—— 部分习题答案整理_小笠凹的博客-CSDN博客_神经网络与深度学习课后习题

你可能感兴趣的:(《神经网络与深度学习》课后习题)