深度学习第二次作业

3-2 在线性空间中,证明一个点x到f(x;w)=w_{T}x+b=0的距离为

证:

 设平面内有一点{x}',使得x-{x}'垂直于此平面

又∵w垂直于此平面,所以有x-{x}'平行于w

即:x-{x}'=kw(k为常数) 

因此点x到平面距离为\left | k \right |\left \| w \right \|

w^{T}+b=f(x;w)       w^{T}x^{'}+b=0

所以 f(x;w)=w^{T}(x-x^{'})

带入kw

f(x;w)=w^{T}kw

两边同时取模:

\left | f(x;w)\right |=\left \| w \right \|\left | k \right |\left \| w \right \|

\left | k \right |\left \| w \right \|=\frac{f(k;w)}{\left \| w \right \|}

3-5 在Logistic回归中,是否可以用\hat y=\sigma (w_{T}x)去逼近正确的标签y,并用平方损失(y-\hat y)^2最小化来优化参数w?

 从理论上来说,平方损失函数也可以用于分类问题,但不适合。首先,最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计,然而大部分分类问题的误差并不服从高斯分布。而且在实际应用中,交叉熵在和Softmax激活函数的配合下,能够使得损失值越大导数越大,损失值越小导数越小,这就能加快学习速率。然而若使用平方损失函数,则损失越大导数反而越小,学习速率很慢。

3-6:在Softmax回归的风险函数(公式(3.39))中,如果加上正则化项会有什么影响?

R(w)=-\frac{1}{N}\sum_{n=1}^{N}(y^{(n)})^{T}log\hat{y}^{(n)}+\lambda w^{T}w

则:

\frac{\partial R(w)}{\partial w}=-\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)}) x^{(n)}+2\lambda w

由此可得w的更新公式为:

w=w+a\frac{1}{N}\sum_{n=1}^{N}(\hat{y}^{(n)}-y^{(n)})x^{(n)}-2\lambda w

加入正则化后,使得在更新参数时每次都要减去2\lambda w,使得新的参数不会太大,也不会造成溢出错误的发生,抑制了过拟合的发生。

 

 

你可能感兴趣的:(java,开发语言)