NNDL 作业2:第三章课后题

NNDL 作业2:第三章课后题_第1张图片

习题3-2:

证明:

首先证明权重向量w与决策平面正交:

任取决策平面上向量a,有:

gif.latex?x_%7B1%7D%2Cx_%7B2%7D%5Cepsilon%20a

gif.latex?w%5E%7BT%7Dx_%7B1%7D+b%3D0

gif.latex?w%5E%7BT%7Dx_%7B2%7D+b%3D0

gif.latex?w%5E%7BT%7D%28x_%7B1%7D-x_%7B2%7D%29%3D0

若两向量正交,则向量内积为0,所以w与平面正交。

设平面内有一点x',使得x-x'垂直于此平面。

又因为w与平面正交,所以有x-x'平行于w,即:gif.latex?x-x%27%3Dkw(k为常数).

因此点x到平面的距离为|k| ||w||.

因为gif.latex?f%28x%3Bw%29%3Dw%5E%7BT%7Dx+b,x'在平面内,所以满足gif.latex?w%5E%7BT%7D%7Bx%7D%27+b%3D0

联立得,gif.latex?f%28x%3Bw%29%3Dw%5E%7BT%7D%28x-x%27%29,将gif.latex?x-x%27%3Dkw代入得:

gif.latex?f%28x%3Bw%29%3Dw%5E%7BT%7Dkw,两边同时取模,得:

gif.latex?%7Cf%28x%3Bw%29%7C%3D%7C%7Cw%7C%7C%7Ck%7C%7C%7Cw%7C%7C

因此点x到平面的距离为gif.latex?%7Ck%7C%7C%7Cw%7C%7C%3D%5Cfrac%7Bf%28x%3Bw%29%7D%7B%7C%7Cw%7C%7C%7D.

 习题3-5:

不能。

若以平方损失最小来优化,gif.latex?%5Cfrac%7B%5Cpartial%20L%7D%7B%5Cpartial%20w%7D%3D%28%5Chat%7By%7D-y%29%20%7B%5Csigma%7D%27x

则权重w的更新公式为gif.latex?w%3Dw-%5Ceta%20%5Cfrac%7B%5Cpartial%20L%7D%7B%5Cpartial%20w%7D%3Dw-%5Ceta%28%5Chat%7By%7D-y%29%20%7B%5Csigma%7D%27x

结合sigmoid函数图像,NNDL 作业2:第三章课后题_第2张图片

对它求导大部分情况都为0,即w的更新公式很难更新,也就是很难优化。

而以交叉熵损失函数来优化时,得到gif.latex?%5Cfrac%7B%5Cpartial%20L%7D%7B%5Cpartial%20w%7D%3D%28%5Chat%7By%7D-y%29%20x,发现权重w的更新与gif.latex?%7B%5Csigma%7D%27无关。

一个好的损失函数应该随着gif.latex?yf%28x%3Bw%29的增大而减小。上式表明当误差很大的时候,权重w更新比较快;误差小的时候,w更新的就慢。这样看,是一个很好的性质。

  习题3-6:

加入正则化后,gif.latex?R%28w%29%3D-%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bn%3D1%7D%5E%7BN%7D%28y%5E%7B%28n%29%7D%29%5E%7BT%7Dlog%5Chat%7By%7D%5E%7B%28n%29%7D+%5Clambda%20w%5E%7BT%7Dw

gif.latex?%5Cfrac%7B%5Cpartial%20R%28w%29%7D%7B%5Cpartial%20w%7D%3D-%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bn%3D1%7D%5E%7BN%7D%28%5Chat%7By%7D%5E%7B%28n%29%7D-y%5E%7B%28n%29%7D%29x%5E%7B%28n%29%7D+2%5Clambda%20w

w的更新公式为:gif.latex?w%3Dw+%5Calpha%20%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bn%3D1%7D%5E%7BN%7D%28%5Chat%7By%7D%5E%7B%28n%29%7D-y%5E%7B%28n%29%7D%29x%5E%7B%28n%29%7D-2%5Clambda%20w

即在每一次的更新参数中都要减去gif.latex?2%5Clambda%20w,使得新的参数不会太大,也就不会造成溢出的错误发生,抑制了过拟合的发生。要注意的是,Softmax回归中使用的c个权重向量是冗余的,即对所有的权重向量都减去一个同样的向量,不改变其输出结果.因此,Softmax 回归往往需要使用正则化来约束其参数.

 参考文章:《神经网络与深度学习-邱锡鹏》习题解答-第3章 线性模型 - 知乎

你可能感兴趣的:(算法,线性代数,机器学习)