NNDL 作业2: 第三章课后题

习题3-2:在线性空间中,证明一个点x到平面f(x,w)=w^{T}x+b=0的距离为

|f(x;w)|/||w||.

证明:

对于任一点x_{0}=(x_{1}^{0},x_{2}^{0},....,x_{n}^{0})^{T},设其在超平面w^{T}+b=0上的投影点为x1,则w^{T}x_{1}+b=0,且向量\vec{x_{1}x_{0}}与垂直于该平面,即与超平面的法向量平行。同时||x_{1}x_{0}||

 就是我们要求的值。

易得w\vec{x_{1}x_{0}}平行,即\vec{x_{1}x_{0}}=kw(k为常数),因此点到平面的距离是\left | k \right |\left \| w \right \|,又因为f(x,w)=w^{T}x+b=0

w^{T}x_{1}+b=0

所以

f\left ( x,w\right )=w^{T}\left ( x-x_{1} \right )=w^{T}\vec{x_{1}x_{0}}

带入kw

f\left ( x,w\right )=w^{T}kw

两边同时取模:

\left | f\left ( x,w\right ) \right |=\left \| w \right \|\left | k \right |\left \| w \right \|

\left | k \right |\left \| w \right \|=\frac{f\left ( x,w \right )}{\left \| w \right \|}=\left \| \vec{x_{0}x_{1}} \right \|

证毕

习题3-5:在Logistic回归中,是否可以用\hat{y}=\sigma (w^{T}x)去逼近正确的标签y ,并用平方损(y-\hat{y})^{2}最小化来优化参数w?

在Logistic回归中可以用sigmoid函数去逼近正确的标签y ,但用平方损失(y-\hat{y})^{2}最小化来优化参数w不可行。

E=\frac{1}{2}\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}

其中:

\hat{y}=\sigma (w^{T}x)

\frac{\partial E}{\partial w}=\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}\hat{y}_{n}(1-\hat{y}_{n})x_{n

因此,更新公式为:

w=w-\mu \frac{\partial E}{\partial w}=w-\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}\hat{y}_{n}(1-\hat{y}_{n})

因为sigmoid函数值域为[0,1],所以\sum_{n=1}^{N}(y_{n}-\hat{y}_{n})^{2}\hat{y}_{n}(1-\hat{y}_{n})的函数值很小,更新速率特别慢,因此不太合适。

习题3-6:在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响?

当我们加入正则化后:R(w) = -\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda W^{T}W

\frac{\partial R(W)}{\partial W} = -\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)} - y^{(n)})x^{(n)} + 2\lambda W

更新参数时:W = W + \alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)} - y^{(n)})x^{(n)} - 2\lambda W

加入正则化后,在更新参数时每次需要减去2\lambda W,使得参数不会过大,不会造成溢出之类的错误,同时也防止过拟合。

你可能感兴趣的:(NNDL 作业2: 第三章课后题)