深度学习第2次作业

3-2   在线性空间中,证明一个点x到平面f(x;w) = w^{T}x + b = 0的距离为\frac{|f(x;w)|}{||w||}.证明:设平面内有一点 x^{'},使得 x-x^{'}垂直于此平面

证:

 设平面内有一点{x}',使得x-{x}'垂直于此平面

又∵w垂直于此平面,所以有x-{x}'平行于w

即:x-{x}'=kw(k为常数)

因此点x到平面距离为\left | k \right |\left \| w \right \|

w^{T}+b=f(x;w)       w^{T}x^{'}+b=0

所以 f(x;w)=w^{T}(x-x^{'})

带入kw

f(x;w)=w^{T}kw

两边同时取模

\left | f(x;w)\right |=\left \| w \right \|\left | k \right |\left \| w \right \|

\left | k \right |\left \| w \right \|=\frac{f(k;w)}{\left \| w \right \|}

证毕

3-5  在Logistic回归中,是否可以用\hat{y} = \sigma (w^{T}x)去逼近正确的标签 y,并用平方损失(y-\hat{y})^{2}最小化来优化参数 w ?

 ① 平方损失函数作为激活函数时

L=\frac{1}{2}(\hat{y}-y)^{2}

\frac{\vartheta L}{\vartheta w}=(\hat{y}-y)\delta ^{'}x

w=w-\eta \frac{\vartheta L}{\vartheta w}=w-\eta (\hat{y}-y)\sigma ^{'}x

出当横坐标较小或较大时,sigmoid函数趋于平缓,因此在大多数情况下其导数几乎为0,导致 \frac{\vartheta L}{\vartheta w}几乎为0,w很难去优化。

②以交叉熵损失作为损失函数

\sigma ^{'} = \sigma (1-\sigma )y = \sigma (w^{T}x)

L = -yln\hat{y} - (1-y)ln(1-\hat{y})

\frac{\partial L}{\partial w} = -y\frac{1}{\hat{y}}\sigma ^{'}x - (1-y)\frac{1}{1-\hat{y}}(-1)\sigma 'x = -\frac{y\sigma (1-\sigma )x(1-\hat{y})}{\hat{y}(1-\hat{y})} + \frac{(1-y)\hat{y}\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}

=\frac{\hat{y}\sigma (1-\sigma )x - y\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}=\frac{ (\hat{y}-y)\sigma (1-\sigma )x}{\hat{y}(1-\hat{y})}=\frac{(\hat{y}-y)\hat{y}(1-\hat{y})x}{\hat{y}(1-\hat{y})}=(\hat{y}-y)x

3-6:在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响?

 

 R(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}

加入正则化

R(W)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})log\hat{y}^{(n)}+\lambda W^TW

 则\frac{\partial R(W)}{\partial W}=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}+2 \lambda W

 更新参数时W=W+\alpha \frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{n})x^{n}-2\lambda W

 加入正则化后,在更新参数时每次需要减去2\lambda W,使得参数不会太大,便不会造成溢出之类的错误发生,同时也会抑制过拟合。

 

 

 

 

 

你可能感兴趣的:(深度学习第2次作业)