FrancisQiu

《神经网络与深度学习》习题解答（至第七章）

部分题目的个人解答，参考了github上的习题解答分享与知乎解答。题目是自己做的，部分解答可能出错，有问题的解题部分欢迎指正。原文挂在自己的自建博客上。

第二章

2-1

直观上，对特定的分类问题，平方差的损失有上限(所有标签都错，损失值是一个有效值)，但交叉熵则可以用整个非负域来反映优化程度的程度。

从本质上看，平方差的意义和交叉熵的意义不一样。概率理解上，平方损失函数意味着模型的输出是以预测值为均值的高斯分布，损失函数是在这个预测分布下真实值的似然度，softmax损失意味着真实标签的似然度。

分类问题中的标签，是没有连续的概念的。1-hot作为标签的一种表达方式，每个标签之间的距离也是没有实际意义的，所以预测值和标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。

大部分分类问题并非服从高斯分布

根据吴恩达机器学习视频： $J(\theta)=\frac{1}{m}\sum^m_{i=1}\frac{1}{2}(h_{\theta}(x^{(i)})-y^{(i)})^2$ ，h表示的是你的预测结果，y表示对应的标签，J就可以理解为用二范数的方式将预测和标签的差距表示出来，模型学习的过程就是优化权重参数，使得J达到近似最小值，理论上这个损失函数是很有效果的，但是在实践中却又些问题，它这个h是激活函数激活后的结果，激活函数通常是非线性函数，例如sigmoid之类的，这就使得这个J的曲线变得很复杂，并不是凸函数，不利于优化，很容易陷入到局部最优解的情况。吴恩达说当激活函数是sigmoid的时候，J的曲线就如下图所示，可以看到这个曲线是很难求出全局最小值的，稍不留神就是局部最小值。

交叉熵的公式为： $Cost(h_{\theta}(x),y)=-y\cdot log(h_{\theta}(x))+(y-1)\cdot log(1-h_{\theta}(x))$

使用交叉熵的时候就变成：

2-2

最优参数

令 $[\overline{r}^{(n)}]^2 = r^{(n)}$ ，则：
$\begin{aligned} R(w) &=\frac{1}{2}\sum^N_{n=1}[\overline{r}^{(n)}]^2(y^{(n)}-w^\top x^{(n)})^2 \\ & =\frac{1}{2}\sum^N_{n=1}(\overline(r)^{(n)}(y^{(n)}-w^\top x^{(n)}))^2 \\ & =\frac{1}{2}||\overline{r}^\top(y-\overline{X}w)||^2 \end{aligned}$
损失函数对参数 $w$ 求导：
$\begin{aligned} \frac{\partial R(w)}{\partial w}&= \frac{\frac{1}{2}||\overline{r}^\top(y-\overline{X}w)||^2}{\partial w} \\ &= -X\overline{r}\overline{r}^\top (y-X^\top w) \\ &= 0 \end{aligned}$
于是有： $w^* =(X\overline{r}\overline{r}^\top X^\top)^{-1}X\overline{r}\overline{r}^\top y$

参数 $r^{(n)}$

这个参数是为了对不同的数据进行加权，相当于不同数据对结果的影响程度会不同，如果某个数据比较重要，希望对其高度重视，那么就可以设置相对较大的权重，反之则设置小一点。

2-3

已知定理： $A 、 B$ 分别为 $\times m,m\times s$ 的矩阵，则 $rank(AB)\leq min\{rank(A),rank(B)\}$

$X\in \mathbb{R}^{(d+1)\times N}，X^T \in \mathbb{R}^{N\times (d+1)}$

$rank(X)=rank(X^\top)=min((d+1),N),Nrank(X)=rank(X⊤)=min((d+1),N),N<d+1$

$rank(XX^\top)\leq{N,N}=N$

2-4

$R(w)=\frac{1}{2}||y-X^\top w||^2+\frac{1}{2}\lambda||w||^2$ ， $w^* = (XX^\top+\lambda I)^{-1}Xy$

可得：
$\begin{aligned} \frac{\partial R(w)}{\partial w} &=\frac{1}{2}\frac{\partial ||y-X^\top w||^2+\lambda||w||^2}{\partial w} \\ &=-X(y-X^\top w)+\lambda w \\ &= 0 \end{aligned}$
因此有：
$-XY+XX^\top w+\lambda w = 0 \\ (XX^\top+\lambda I)w =XY \\ w^* = (XX^\top+\lambda I)^{-1}Xy$

2-5

根据题意，有： $\log p(y|X;w,\sigma) =\sum^N_{n=1}\log N(y^{(n)}w^\top x^{(n)},\sigma^2)$

令 $\frac{\partial \log p(y|X;w,\sigma)}{\partial w} = 0$ ，因此有：
$\frac{\partial(\sum^N_{n=1}-\frac{(y^{(n)}-w^\top x^{(n)})^2}{2\beta})}{\partial w}=0 \\ \frac{\partial \frac{1}{2}||y-X^\top w||^2}{\partial w} =0 \\ -X(y-X^\top w) = 0$
因此有： $w^{ML}=(XX^\top)^{-1}Xy$

2-6

样本均值

参数 $\mu$ 在样本上的似然函数为： $p(x|\mu,\sigma^2)=\sum^N_{n=1}(x^{(n)};\mu,\sigma^2)$

对数似然函数为： $\log p(x;\mu,\sigma^2)=\sum^N_{n=1}\log p(x^{(n)};\mu,\sigma^2)=\sum^N_{n=1}(\log \frac{1}{\sqrt{2\pi}\sigma}-\frac{(x^{(n)}-\mu)^2}{2\sigma^2})$

我们的目标是找到参数 $\mu$ 的一个估计使得似然函数最大，等价于对数自然函数最大。

令 $\frac{\partial \log p(x;\mu,\sigma^2)}{\partial \mu}=\frac{1}{\sigma^2}\sum^N_{n=1}(x^{(n)}-\mu)=0$ ，得到： $\mu^{ML}=\frac{1}{N}\sum^N_{n=1}x^{(n)}$ ，即样本均值

MAP证明

参数 $\mu$ 的后验分布： $p(\mu|x;\mu_0,\sigma_0^2)\propto p(x|\mu;\sigma^2)p(\mu;\mu_0,\sigma_0^2)$

令似然函数 $p(x|\mu;\sigma^2)$ 为高斯密度函数，后验分布的对数为：
$\begin{aligned} \log p(\mu|x;\mu_0,\sigma_0^2)&\propto\log p(x|\mu;\sigma^2)+\log p(\mu;\mu_0,\sigma^2) \\ &\propto -\frac{1}{\sigma^2}\sum^N_{n=1}(x^{(n)}-\mu)^2-\frac{1}{\sigma^2}(\mu-\mu_0)^2 \end{aligned}$
令 $\frac{\partial \log p(\mu|x;\mu_0,\sigma_0^2)}{\partial \mu}=0$ ，得到： $\mu^{MAP}=(\frac{1}{\sigma^2}\sum^N_{n=1}x^{(n)}+\frac{\mu_0}{\sigma_0^2})/(\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2})$

证明完毕

2-7

$\sigma\rightarrow \infty$ ， $\mu^{MAP}=\frac{1}{N}\sum^N_{n=1}x^{(n)}$

2-8

因为 $f$ 可测量，故 $\sigma$ 可测量，又 $f$ 有界，有： $\mathbb{E}_y[f^2(x)|x]=f^2(x),\ \mathbb{E}_y[yf(x)|x]=f(x)\cdot \mathbb{E}_y(y|x)$

$R(f)=\mathbb{E}_x[\mathbb{E}_y[(y-f(x))^2|x]]=\mathbb{E}_x[\mathbb{E}_y[y^2|x]+\mathbb{E}_y[f^2(x)|x]-2\mathbb{E}_y[yf(x)|x]]$

$R(f)=\mathbb{E}_x[\mathbb{E}_y[y^2|x]+f^2(x)-2f(x)\mathbb{E}_y[y|x]]$

由Jensen不等式： $\mathbb{E}_y[y^2|x]\geq \mathbb{E}_y[y|x]^2$

故： $R(f)\geq \mathbb{E}_x[\mathbb{E}_y[f(x)-\mathbb{E}_y[y|x]]]^2$

故： $f^*(x)=\mathbb{E}_{y\sim p_r(y|x)}[y]$

2-9

高偏差原因：数据特征过少；模型复杂度太低；正则化系数 $\lambda$ 太大；

高方差原因：数据样例过少；模型复杂度过高；正则化系数 $\lambda$ 太小；没有使用交叉验证

2-10

对于单个样本 $E_D$ ， $f^*(x)$ 是常数，因此： $E_D[f^*(x)]=f^*(x)$

$\begin{aligned} E_D[(f_D(x)-f^*(x))^2] &= E_D[(f_D(x)-E_D[f_D(x)]+E_D[f_D(x)]-f*(x))^2] \\ &=E_D[(f_D(x)-E_D[f_D(x)])^2+(E_D[f_D(x)]-f^*(x))^2+2(f_D(x)-E_D[f_D(x)])(E_D[f_D(x)]-f^*(x))] \\ &=E_D[(f_D(x)-E_D[f_D(x)])^2]+E_D[E_D[f_D(x)]^2+(f^*(x))^2-2E_D[f_D(x)]f^*(x)]+2E_D[(f_D(x)-E_D[f_D(x)])(E_D[f_D(x)]-f^*(x))] \\ &=E_D[(f_D(x)-E_D[f_D(x)])^2]+E_D[f_D(x)]^2+(f^*(x))^2-2E_D[f_D(x)+2E_D[(f_D(x)-E_D[f_D(x)])(E_D[f_D(x)]-f^*(x))] \\ &=E_D[(f_D(x)-E_D[f_D(x)])^2]+(E_D[f_D(x)]-f^*(x))^2+2E_D[(f_D(x)-E_D[f_D(x)])(E_D[f_D(x)]-f^*(x))] \\ &=E_D[(f_D(x)-E_D[f_D(x)])^2]+(E_D[f_D(x)]-f^*(x))^2+2(E_D[f_D(x)])^2-2E_D[f_D(x)f^*(x)]-2(E_D[f_D(x)])^2+2E_D[f_D(x)f^*(x)] \\ &=E_D[(f_D(x)-E_D[f_D(x)])^2]+(E_D[f_D(x)]-f^*(x))^2 \end{aligned}$

2-11

2-12

用笔算一下就OK，9

第三章

3-1

设任意 $\alpha$ 为超平面上的向量，取两点 $\alpha_1,\alpha_2 \in a$ ，则满足：
$\begin{cases} \omega^\top\alpha_1+b=0 \\\\ \omega^\top\alpha_2+b=0 \\\\ \end{cases}$
两式相减，得到： $\omega^T(\alpha_1-\alpha_2)=0$ ，由 $\alpha_1-\alpha_2$ 平行于 $a$ ，故 $\omega \perp \alpha$ ，即 $\omega$ 垂直于决策边界。

3-2

设 $x$ 投影到平面 $f(x,\omega)=\omega^\top x+b=0$ 的点为 $x^{'}$ ，则：可知 $x - x^{'}$ 垂直于 $f(x,\omega)$ ，由3-1有 $x - x^{'}$ 平行于 $\omega$

于是有： $\delta=||x-x'||=k||\omega||$ ，又：
$\begin{cases} f(x,\omega)=\omega^\top x+b \\\\ \omega^\top x_2+b=0 \end{cases}$
故有： $w^T(x-x')=f(x,\omega)$ ，带入 $x-x'=k\omega$ 有： $k||\omega||^2=f(x,\omega)$

故： $\delta=\frac{|f(x,\omega)|}{||\omega||}$

3-3

由多线性可分定义

可知： $\omega_cx_1>\omega_{\tilde{c}}x_1$ ， $\omega_cx_2>\omega_{\tilde{c}}x_2$ ，又 $\rho \in[0,1]$ ，故： $\rho>0,1-\rho>0$

线性组合即有： $\rho\omega_cx_1+(1-\rho)\omega_cx_2>\rho\omega_{\tilde{a}}x_1+(1-\rho)\omega_{\tilde{c}}x_2$

3-4

对于每个类别 $c$ ，他们的分类函数为 $f_c(x;\omega_c)=\omega^T_cx+b_c，c\in \{1,\cdots,C\}$

因为每个类都与除它本身以外的类线性可分，所以： $\omega_c^\top x^ {(n)}>\omega_{\tilde{c}}^\top x^{(n)}$

因此有： $\sum^N_{n=1}(\omega^\top_cx^{(n)}-\omega^\top_{\tilde{c}}x^{(n)})>0$ ，即： $X^T\omega_c-X^T\omega_{\tilde{c}}>0$ ，故整个数据集线性可分。

3-5

从理论上来说，平方损失函数也可以用于分类问题，但不适合。首先，最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计，然而大部分分类问题的误差并不服从高斯分布。而且在实际应用中，交叉熵在和Softmax激活函数的配合下，能够使得损失值越大导数越大，损失值越小导数越小，这就能加快学习速率。然而若使用平方损失函数，则损失越大导数反而越小，学习速率很慢。

Logistic回归的平方损失函数是非凸的： $L=\frac{1}{2}\sum_t(\hat{y}-y)^2$ ， $\hat{y}=\sigma(\omega^Tx)$

$\frac{\partial L}{\partial \omega} =\sum_t(\hat{y}-y_i)\frac{\partial \hat{y}}{\partial \omega}=\sum_i(\hat{y}-y_i)\hat{y}(1-\hat{y})x_i=\sum_i(-\hat{y}^3+(y_i+1)\hat{y}^2-y_i\hat{y})x_i$

进一步地： $\frac{\partial^2 L}{\partial \omega^2}=\sum(-3\hat{y}^2+2(y_i+1)\hat{y}-y_i)\frac{\partial \hat{y}}{\partial \omega}x_i=\sum[-3\hat{y}^2+2(y_i+1)\hat{y}-y_i]\hat{y}(1-\hat{y})x_i^2$

又 $\hat{y}\in[0,1]，y\in{0,1}$ ，二阶导数不一定大于零。

3-6

不加入正则化项限制权重向量的大小，可能造成权重向量过大，产生上溢。

3-7

原式中： $\overline{\omega}=\frac{1}{T}\sum^K_{k=1}c_k\omega_k$ ，又 $c_k=t_{k+1}-t_k$

即： $\overline{\omega}=\frac{1}{T}\sum^K_{k=1}(t_{k+1}-t_k)\omega_k$ ，即只需要证明算法和该式等价。

根据算法第8、9行有： $\omega_k=y^{(n)}x^{(n)}$ ，故原算法中： $\overline{\omega}=\omega_T-\frac{1}{T}u=\sum^K_{k=1}\omega_k-\frac{1}{T}u$

又有： $u=\sum^K_{k=1}t_{k}\omega_k$

故算法3.2能得到： $\overline{\omega}=\sum^K_{k=1}(1-\frac{1}{T}t_k\omega_k)$ ，由算法第12行可知： $t_{k+1}=T$ 并带入可得到：

$\overline{\omega}=\frac{1}{T}\sum^K_{k=1}(T-t_k)\omega_k=\frac{1}{T}\sum^K_{k=1}(t_{k+1}-t_k)\omega_k$ ，证毕。

3-8

$\omega_k=\omega_{k-1}+\phi(x^{(k)},y^{(k)})-\phi(x^{(k)},z)$

因此可知： $||\omega_K||^2=||\omega_{K-1}+\phi(x^{(k)},y^{(k)})-\phi(x^{(k)},z)||^2$

即 $||\omega_K||^2=||\omega_{K-1}||^2+||\phi(x^{(k)},y^{(k)})-\phi(x^{(k)},z)||^2+2\omega_{K-1}\cdot(\phi(x^{(n)},y^{(n)})-\phi(x^{(n)},z))$

因为 $z$ 为 $\omega_{K-1}$ 的最倾向的候选项，因此 $2\omega_{K-1}\cdot(\phi(x^{(n)},y^{(n)})-\phi(x^{(n)},z))$ 将小于0。

故： $||\omega_K||^2\leq||\omega_{K-1}||^2+R^2$

迭代到最后有： $||\omega_K||^2\leq KR^2$ ，找到了上界。

再寻找下界： $||\omega_K||^2=||\omega^*||^2\cdot||\omega_K||^2\geq||\omega^{*\top}\omega_K||^2$

带入 $\omega_K$ 有： $||\omega_K||^2\geq ||\omega^{*\top}\sum^K_{k=1}(\phi(x^{(n)},y^{(n)})-\phi(x^{(n)}.z))||$

即： $||\omega_K||^2\geq [\sum^K_{k=1}\langle\omega^*,(\phi(x^{(n)},y^{(n)})-\phi(x^{(n)}.z))\rangle]^2$

根据广义线性可分有： $\langle\omega^*，\phi(x^{(k)},y^{(k)})\rangle-\langle\omega^*,\phi(x^{(k)},z)\rangle\geq\gamma$

因此： $||\omega_K||^2\geq K^2\gamma^2$

因此结合起来就得到了： $K^2\gamma^2\leq KR^2$ ，即 $K\leq\frac{R^2}{\gamma^2}$ ，证毕

3-9

存在性证明：

因为数据集线性可分，因此该最优化问题存在可行解，又根据线性可分的定义可知目标函数一定有下界，所以最优化问题一定有解，记作： $(\omega^*,b^*)$

因为 $y\in \{1,-1\}$ ，因此 $(\omega^*,b^*)\not=(0,b^*)$ ，即 $\omega^*\not=\mathbb{O}$ ，故分离的超平面一定存在。

唯一性证明（反证法）：

假定存在两个最优的超平面分别为 $\omega_1^*x+b=0$ 和 $\omega_2^*x+b=0$

因为为最优，故有： $||\omega_1^*||=||\omega_2^*||=C$ ，其中C为一个常数。

于是令： $\omega=\frac{\omega_1^*+\omega_2^*}{2}$ ， $b=\frac{b_1^*+b_2^*}{2}$ ，可知该解也为可行解。

于是有： $C\leq||\omega||$ ，又根据范数的三角不等式性质： $\||\omega||\leq\frac{||\omega_1^*||}{2}+\frac{||\omega_2^*||}{2}=C$

因此： $2||\omega||=||\omega_1^*||+||\omega^*_2||$

又根据不等式取等号的条件可以得到： $\omega_1^*=\lambda\omega_2^*$

代入可知： $\lambda=1$ （-1的解舍去，会导致 $\omega=0$ ）

因此不存在两个超平面最优，故该超平面惟一。

证毕

3-10

$\phi(x)=[1,\sqrt{2}x_1,\sqrt{2}x_2,\sqrt{2}x_1x_2,x_1^2,x_2^2]^{\top}$ ， $\phi(z)=[1,\sqrt{2}z_1,\sqrt{2}z_2,\sqrt{2}z_1z_2,z_1^2,z_2^2]^{\top}$

故： $\phi(x)^\top\phi(z)=1+2x_1z_1+2x_2z_2+2x_1x_2z_1z_2+x_1^2z_1^2+x_2^2z_2^2=(1+（x_1 \ x_2)(z_1 \ z_2)^\top)^2$

即： $\phi(x)^\top\phi(z)=(1+x^\top z)^2=k(x,z)$ ，证毕

3-11

原问题：
$\begin{array}{c} min\frac{1}{2}||w||^2+C\sum^N_{n=1}\xi_n \\\\ s.t. 1-y_n(w^\top x_n+b)-\xi_n\leq 0,\forall n\in\{1,\cdots,N\} \\\\ \xi_n\geq0,\forall n\in\{1,\cdots,N\} \end{array}$
使用拉格朗日乘子法，可得：
$L(w,b,\xi,\lambda,\mu)=\frac{1}{2}||w||^2+C\sum^N_{i=1}\xi_i+\sum^N_{i=1}\lambda_i(1-y_i(w^\top x_i+b)-\xi_i)-\sum^N_{i=1}\mu_i\xi_i$
将其转化为最小最大问题：
$\begin{array}{c} \min\limits_{w,b,\xi} \ \max\limits_{\lambda,\mu} \ L(w,b,\xi,\lambda,\mu) \\\\ s. t. \lambda_i\geq0,\forall n\in\{1,\cdots,N\} \end{array}$
转化为对偶问题：
$\begin{array}{c} \max\limits_{\lambda,\mu} \ \min\limits_{w,b,\xi} \ L(w,b,\xi,\lambda,\mu) \\\\ s. t. \lambda_i\geq0,\forall n\in\{1,\cdots,N\} \end{array}$
求解 $\min\limits_{w,b,\xi}L(w,b,\xi,\lambda,\mu)$ 如下：

令 $\frac{\partial L}{\partial b}=0$ ，得到 $\sum^N\limits_{i=1}\lambda_iy_i=0$ ，带入 $L$ 中，有：

$L(w,b,\xi,\lambda,\mu)=\frac{1}{2}||w||^2+C\sum^N\limits_{i=1}\xi_i+\sum^N\limits_{i=1}\lambda_i-\sum^N\limits_{i=1}\lambda_iy_iw^\top x_i-\sum^N\limits_{i=1}\lambda_i\xi_i-\sum^N\limits_{i=1}\mu_i\xi_i$

令 $\frac{\partial L}{\partial w}=0$ ，可得： $w-\sum^N\limits_{i=1}\lambda_iy_ix_i=0$ ，因此： $w=\sum^N\limits_{i=1}\lambda_iy_ix_i$

带入 $L$ 得到：
$\begin{aligned} L(w,b,\xi,\lambda,\mu) &=\frac{1}{2}\sum^N\limits_{i=1}\sum^N\limits_{i=1}\lambda_i\lambda_jy_iy_jx^\top_ix_j+C\sum^N\limits_{i=1}\xi_i+\sum^N\limits_{i=1}\lambda_i-\sum^N\limits_{i=1}\sum^N\limits_{j=1}\lambda_i\lambda_jy_iy_jx_i^\top x_j-\sum^N_{i=1}\lambda_i\xi_i-\sum^N_{i=1}\mu_i\xi_i \\\\ &=-\frac{1}{2}\sum^N\limits_{i=1}\sum^N\limits_{i=1}\lambda_i\lambda_jy_iy_jx^\top_ix_j+\sum^N_{i=1}(C-\lambda_i-\mu_i)\xi_i+\sum^N_{i=1}\lambda_i \end{aligned}$
令 $\frac{\partial L}{\partial \xi_i}=0$ ，可得 $C-\lambda_i-\mu_i=0$

带入 $L$ 再次有： $L(w,b,\xi,\lambda,\mu)=-\frac{1}{2}\sum^N\limits_{i=1}\sum^N\limits_{j=1}\lambda_i\lambda_jy_iy_jx^\top_ix_j+\sum^N\limits_{i=1}\lambda_i$

因此对偶问题可以为：
$\begin{array}{c} \max\limits_{\lambda}-\frac{1}{2}\sum^N\limits_{i=1}\sum^N\limits_{j=1}\lambda_i\lambda_jy_iy_jx^\top_ix_j+\sum^N\limits_{i=1}\lambda_i \\ s. t. \sum^N\limits_{i=1}\lambda_iy_i=0,\forall i\in\{1,\cdots,N\} \\ C-\lambda_i-\mu_i=0,\forall i\in\{1,\cdots,N\} \\ \lambda_i\geq 0,\forall i \in\{1,\cdots,N\} \\ \mu_i\geq 0,\forall i \in\{1,\cdots,N\} \end{array}$
化简得到：
$\begin{array}{c} \max\limits_{\lambda}-\frac{1}{2}\sum^N\limits_{i=1}\sum^N\limits_{j=1}\lambda_i\lambda_jy_iy_jx^\top_ix_j+\sum^N\limits_{i=1}\lambda_i \\ s. t. \sum^N\limits_{i=1}\lambda_iy_i=0,\forall i\in\{1,\cdots,N\} \\ 0\leq \lambda_i \leq C,\forall i\in\{1,\cdots,N\} \end{array}$
因此其KKT条件如下：
$\begin{cases} \nabla_w L=w-\sum^N\limits_{i=1}\lambda_iy_ix_i=0 \\ \nabla_b L=-\sum^N\limits_{i=1}\lambda_iy_ix_i=0 \\ \nabla_{\xi}L=C-\lambda-\mu=0 \\ \lambda_i(1-y_n(w^\top x_n+b)-\xi_i)=0 \\ 1-y_n(w^\top x_n+b)-\xi_n\leq 0 \\ \xi_i\geq 0 \\ \lambda_i\geq 0 \\ \mu_i \geq 0 \end{cases}$

第四章

4-1

零均值化的输入，使得神经元在0附近，sigmoid函数在零点处的导数最大，所有收敛速度最快。非零中心化的输入将导致 $\omega$ 的梯度全大于0或全小于0，使权重更新发生抖动，影响梯度下降的速度。形象一点而言，就是零中心化的输入就如同走较为直的路，而非零时七拐八拐才到终点。

4-2

题目要求有两个隐藏神经元和一个输出神经元，那么网络应该有 $W^{(1)}$ 和 $w^{(2)}$ 两个权重，取：
$W^{(1)}=\left[\begin{array}{c}1 & 1\\ 1& 1\end{array}\right],b^{(1)}=\left[\begin{array}{c}0 \\ 1\end{array}\right] \\ w^{(2)}=\left[\begin{array}{c}1 \\ -2\end{array}\right],b^{(2)}=0$
带入得到：
$X=\left[\begin{array}{c}0 & 0 & 1 & 1 \\ 0 & 1 & 0 & 1\end{array}\right]$
神经元的输入与输出：

$x_1$	$x_2$	$y$
0	0	0
1	0	1
0	1	1
1	1	0

实验代码（需要tensorflow2.3）：

import numpy as np
import tensorflow.compat.v1 as tf
tf.disable_v2_behavior()
#input and output
X=np.array([[0,0],[0,1],[1,0],[1,1]])
Y=np.array([[0],[1],[1],[0]])
x=tf.placeholder(dtype=tf.float32,shape=[None,2])
y=tf.placeholder(dtype=tf.float32,shape=[None,1])
#weight
w1=tf.Variable(tf.random_normal([2,2]))
w2=tf.Variable(tf.random_normal([2,1]))
#bias
b1=tf.Variable([0.1,0.1])
b2=tf.Variable(0.1)
#relu activation function
h=tf.nn.relu(tf.matmul(x,w1)+b1)
output=tf.matmul(h,w2)+b2
#loss and Adam optimizer
loss=tf.reduce_mean(tf.square(output-y))
train=tf.train.AdamOptimizer(0.05).minimize(loss)

with tf.Session() as session:
    session.run(tf.global_variables_initializer())
    
    for i in range(2000):
        session.run(train,feed_dict={x:X,y:Y})
        loss_=session.run(loss,feed_dict={x:X,y:Y})
        if i%50 == 0:
            print("step:%d,loss:%.3f"%(i,loss_))
            
    print("X:%r"%X)
    print("Pred:%r"%session.run(output,feed_dict={x:X}))

4-3

二分类的例子

二分类交叉熵损失函数为： $L(y,\hat{y})=-(y\log\hat{y}+(1-y)\log(1-\hat{y}))$

不同取值损失函数如表所示：

$y$	$\hat{y}$	$L(y,\hat{y})$
0	0	0
1	0	$+\infty$
0	1	$-\infty$
1	1	0

如果我们要损失函数尽可能小的时候， $y$ 为1的时候 $\hat{y}$ 尽可能要大， $y$ 为0的时候 $\hat{y}$ 尽可能要小。而在后一种情况下需要 $\omega$ 尽可能小，因此如果更新过多，会导致样本的所有输出全部为负数，因而梯度会为0，造成权重无法更新，因而成死亡结点。

解决方法

使用Leaky ReLU、PReLU、ELU或者SoftPlus函数当作激活函数。

ReLU死亡问题数学推导

向前传播公式： $\begin{cases}z=\omega\cdot x\\ a=ReLU(z)\end{cases}$

损失函数为 $L$ ，反向传播公式为： $\begin{cases}\frac{\partial L}{\partial z}=\frac{\partial L}{\partial a}\cdot\frac{\partial a}{\partial z}\\\\ \frac{\partial L}{\partial W}=\frac{\partial L}{\partial z}\cdot x^\top\\\\ \frac{\partial L}{\partial x}=\omega^\top \cdot \frac{\partial L}{\partial z}\end{cases}$

GPU与FPGA加速：硬件赋能AI应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
GPU与FPGA加速：硬件赋能AI应用1.背景介绍1.1人工智能的兴起人工智能(AI)在过去几年中经历了爆炸式增长,成为推动科技创新的核心动力。从语音识别和计算机视觉,到自然语言处理和推荐系统,AI已广泛应用于各个领域。然而,训练和部署AI模型需要大量计算资源,这对传统的CPU架构提出了巨大挑战。1.2硬件加速的必要性为满足AI算法对计算能力的巨大需求,硬件加速技术应运而生。专用硬件如GPU(图形
智能优化算法应用：基于哈里斯鹰算法与双伽马校正的图像自适应增强算法智能算法研学社（Jack旭）智能优化算法应用图像增强算法计算机视觉人工智能
智能优化算法应用：基于哈里斯鹰算法与双伽马校正的图像自适应增强算法-附代码文章目录智能优化算法应用：基于哈里斯鹰算法与双伽马校正的图像自适应增强算法-附代码1.全局双伽马校正2.哈里斯鹰算法3.适应度函数设计4.实验与算法结果5.参考文献6.Matlab代码摘要：本文主要介绍基于哈里斯鹰算法与双伽马校正的图像自适应增强算法。1.全局双伽马校正设图像的灰度值范围被归一化到[0,1]范围之内，基于全局
DeepSeek 与网络安全：AI 在网络安全领域的应用与挑战一ge科研小菜菜人工智能运维网络
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在当今数字化时代，网络安全已成为国家、企业和个人面临的重要挑战。从传统的病毒、木马攻击，到高级持续性威胁（APT）、零日漏洞和供应链攻击，网络威胁的形式日益复杂。与此同时，人工智能（AI）技术的快速发展正在为网络安全提供全新的解决方案，而DeepSeek作为AI领域的新兴力量，也正在探索如何利用深度学习和大规模语言模型（LLM）加强网络安
【STM32 基于PID的闭环电机控制系统】楼台的春风嵌入式开发 STM32 stm32 单片机嵌入式硬件 c语言物联网 mcu 算法
STM32基于PID的闭环电机控制系统目录STM32基于PID的闭环电机控制系统一、PID算法在STM32F103C8T6中的实现思路二、代码实现与解释三、PID算法的调试与优化四、总结一、PID算法在STM32F103C8T6中的实现思路基本概念•目标：通过PID算法调节电机的转速，使其保持恒定或按照给定的曲线变化。•硬件配置：○STM32F103C8T6作为主控制器。○电机驱动模块（如L298
从零开始Real-ESRGAN的复现晒阳光的咸鱼超分辨率重建 python
前言要初步了解Real-ESRGAN，可以看我之前发布的博客。初学Real-Esrgan-CSDN博客本文主要是对Real-ESRGAN的一个复现，主要就是对环境的配置进行记录，因为是实现之后才做的记录，所以只能尽可能的对其进行复现。大家可以看一下这个博主的文章进行一个参考。【论文阅读+测试】Real-Esrgan超分辨率算法_realesrgan-CSDN博客项目开始首先，我们要知道Real-E
手撸 chatgpt 大模型:单词向量化编码和绝对位置编码算法 coding 迪斯尼 chatgpt 算法人工智能大语言模型
在上一节中，我们将每个单词转换为一个表示数字的标记（token）。现在，我们需要将这个数字映射到一个向量上，这个向量称为嵌入（embedding）。在深度学习中，所有无法通过传统数据结构描述的对象都会被用一个向量表示，例如图像、语音、单词、音频等。最初，向量中的各个字段会被初始化为随机数，然后通过大量的数据和深度学习模型来训练这些向量。训练过程逐步改变向量字段的值，从而使这些字段包含某种“知识”。
深入探索连续变量量子神经网络：开启量子计算新纪元倪姿唯Kara
深入探索连续变量量子神经网络：开启量子计算新纪元quantum-neural-networksThisrepositorycontainsthesourcecodeusedtoproducetheresultspresentedinthepaper"Continuous-variablequantumneuralnetworks".Duetosubsequentinterfaceupgrades,
三维扫描自动化智能检测系统：为品质护航，为效率加速 CASAIM 人工智能 3d 计算机视觉
产品质量是企业的生命线。然而，传统的检测方式往往依赖人工操作，不仅效率低下，还容易因人为因素导致检测结果不准确。自动化智能检测系统是一种集成了先进传感器技术、图像处理算法和人工智能的高科技设备。它能够自动识别和检测物体的尺寸、形状质量指标，并实时生成检测报告。通过智能化的检测流程，企业可以实现生产过程的全自动化质量控制，确保每一项产品都符合高标准的质量要求。CASAIM作为快速批量处理的自动化智能
MMO之AOI yunteng521 游戏游戏 AOI 来回移动优化视野
这章来说下AOI算法,常用的有九宫格，灯塔(九宫格优化版),四叉树，十字链表/三轴链表（加跳跃表）写这章主要为了以后温故方便1:一般AOI的基本接口如下enter：对象进入地图；leave：对象离开地图；move：对象在地图内移动。2：消息分类出现/外观消息（这个消息体量相对较大)包含了（ID，坐标，方向)等等移动消息（ID，坐标，方向，速度)离开/消失消息（ID)对象出现的消息体量远大于消失跟移
C语言常用算法归纳，零基础小白赶紧学起来！浪里个浪的1024 c语言程序设计算法 c语言开发语言
文章目录C语言常用算法归纳一、基本算法1.交换2.累加3.累乘二、非数值计算常用经典算法1.穷举2.排序（1）冒泡排序（2）选择排序三、数值计算常用经典算法1.级数计算2.一元非线性方程求根（1）牛顿迭代法（2）二分法四、其他常见算法1.迭代法2.进制转换3.矩阵转置3.矩阵转置5.整数各数位上数字的获取6.辗转相除法求最大公约数7.求最值8.判断素数9.数组元素的插入与删除10.二维数组的其他典
C语言实现冒泡排序算法详细解析青妍
本文还有配套的精品资源，点击获取简介：冒泡排序是基础且经典的排序算法，通过反复交换相邻元素使较大元素“浮”至末尾。本文深入剖析冒泡排序原理，并以C语言程序为实例展示如何通过两层嵌套循环、比较与交换操作进行数组排序。同时，提供了优化冒泡排序的方法，并通过代码示例展示了排序过程，验证排序效果。尽管冒泡排序效率相对较低，但它简单易学，适合初学者学习排序算法基础。1.冒泡排序算法原理冒泡排序（Bubble
Leetcode基础算法-贪心算法 machenme 算法 leetcode 贪心算法 python
文章目录贪心算法简介1贪心算法的定义例子：找零问题2贪心算法的特征3贪心算法正确性的证明4贪心算法三步走5举个栗子一位家长为孩子们分发饼干的问题示例解题思路贪心算法三步走的方法代码实现复杂度分析[1710.卡车上的最大单元数](https://leetcode.cn/problems/maximum-units-on-a-truck/submissions/568622583/)问题描述示例解题思
基于C语言的AES加密算法实现嵌入式基地数据结构与算法 c语言加密解密算法
本文只说明AES算法的使用，不对其原理做过多的说明，想要了解其原理的读者，可自行在网上搜索。更多关于C语言练习的网站：C语言练习文末下载源码AES简介高级加密标准(AES,AdvancedEncryptionStandard)为最常见的对称加密算法。对称加密算法也就是加密和解密用相同的密钥对称加密算法加密和解密用到的密钥是相同的，这种加密方式加密速度非常快，适合经常发送数据的场合。缺点是密钥的传输
MySQL数据库笔记——多版本并发控制MVCC Good Note MySQL数据库笔记数据库 mysql 笔记
大家好，这里是GoodNote，关注公主号：Goodnote，本文详细介绍MySQL的并发控制：多版本并发控制MVCC。文章目录背景介绍数据库并发控制——锁机制悲观锁和乐观锁悲观锁乐观锁数据库并发控制——MVCC的引入MVCC和锁机制的对比MySQL的多版本并发控制(MVCC)快照读和当前读快照读和当前读的对比隐藏的系统列UndoLog（回滚日志）ReadView（读视图）可见性算法（Visibi
ACM招新赛＜赛后题解与反思总结＞② Moring. ACM招新赛 c语言
问题A:再遇“HelloWorld”(Easy)题目描述鉴于上次出的“HelloWorld”过于恐怖导致好多人都做不出来，所以小劉同学打算再给大家出一道"HelloWorld"(Easy).现在小劉同学要参加一场算法比赛，这场比赛算上小劉在内一共有五队人参加，每个人各自为一队，小劉同学是最后一队，经过几个小时的麓战，比赛结果出炉，给出每个人的过题数目，请你判断小劉同学是否能成为唯一的第一名，即小劉
【hot100】240搜索二维矩阵鱼力舟 HOT100 算法
一、思路总体就是考搜索算法，采用了二分查找进行优化二、记忆二分查找的应用思路及写法，在二维举证中对每行应用二分查找即可，不用同时再考虑列三、代码3.1直接遍历publicbooleansearchMatrix(int[][]matrix,inttarget){for(inti=0;i=0){returntrue;}}returnfalse;}privateintsearch(int[]nums,i
vivado实现FFT和IFFT信号处理寒听雪落信号处理_通信原理 FPGA专栏_verilog 信号处理算法
一，FFT的物理意义FFT是离散傅立叶变换的快速算法，可以将一个信号变换到频域。有些信号在时域上是很难看出什么特征的，但是如果变换到频域之后，就很容易看出特征了。这就是很多信号分析采用FFT变换的原因。另外在频谱分析方面，FFT可以将一个信号的频谱提取出来。一个模拟信号，经过ADC采样（采样频率要大于信号频率的两倍）之后，就变成了数字信号。采样得到的数字信号，就可以做FFT变换了。N个采样点，经过
机器学习基础 dringlestry 机器学习人工智能
了解机器学习的基本概念，如监督学习、无监督学习、强化学习、模型评估指标（准确率、召回率、F1分数等）。机器学习（MachineLearning，ML）是人工智能（AI）的一个分支，它使计算机能够通过数据和经验自动改进，而无需明确编程。机器学习可以根据学习方式和数据的有无，分为以下几种基本类型：1.监督学习（SupervisedLearning）监督学习是一种机器学习类型，其中模型通过带标签的数据进
算法随笔_58: 队列中可以看到的人数程序趣谈算法 python 数据结构
上一篇:算法随笔_57:游戏中弱角色的数量-CSDN博客=====题目描述如下:有n个人排成一个队列，从左到右编号为0到n-1。给你以一个整数数组heights，每个整数互不相同，heights[i]表示第i个人的高度。一个人能看到他右边另一个人的条件是这两人之间的所有人都比他们两人矮。更正式的，第i个人能看到第j个人的条件是imax(heights[i+1],heights[i+2],...,h
生成对抗网络(GAN)：从概念到代码实践(附代码) 全栈你个大西瓜人工智能计算机视觉人工智能 GAN 网络对抗学习手势识别生成器与鉴别器生成对抗网络
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络(附代码)第五章：计算机视觉：神经网络实战之手势识别(附代码)第六章：计算机视觉：目标检测从简单到容易(附代码)第七章：MTCNN人脸检测技术揭秘：原理、实现与实战(附代码)第八章：探索YOLO技术：目标检测的高
MTCNN 人脸检测技术揭秘：原理、实现与实战(附代码) 全栈你个大西瓜人工智能计算机视觉人工智能 MTCNN 人脸检测卷积神经网络
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络(附代码)第五章：计算机视觉：神经网络实战之手势识别(附代码)第六章：计算机视觉：目标检测从简单到容易(附代码)第七章：MTCNN人脸检测技术揭秘：原理、实现与实战(附代码)第八章：探索YOLO技术：目标检测的高
立体匹配常用数据集整理 Scurry﹉人工智能深度学习计算机视觉
文章目录前言一、常用数据集1.SceneFlow数据集2.KITTI数据集3.Middlebury数据集二、关于自己构建数据集训练的一些问题前言本文主要对立体匹配算法常用的公开数据集进行整理，包括数据集的简要介绍和下载链接，以及自己构建数据集训练的一些问题。一、常用数据集1.SceneFlow数据集Sceneflow数据集是CVPR2016提出的，其目的就是构建一个大规模的合成数据集，用来训练深度
目前（2025年2月）计算机视觉（CV）领域一些表现优异的深度学习模型空空转念深度学习系列计算机视觉深度学习人工智能
按任务类型分类介绍：图像分类CoCa：结合对比学习和生成学习，通过对比损失对齐图像和文本嵌入，并使用标题生成损失预测文本标记。它在图像分类、跨模态检索和图像描述等任务中表现出色，且仅需极少的任务特定微调。PaLI：这是一个多模态模型，结合了40亿参数的视觉Transformer（ViT）和多种大型语言模型（LLM），并在包含100多种语言的100亿图像和文本数据集上进行训练。PaLI在图像描述、视
地平线 3D 目标检测 bev_sparse 参考算法 - V2.0 算法自动驾驶
该示例为参考算法，仅作为在征程6上模型部署的设计参考，非量产算法简介在自动驾驶视觉感知系统中，为了获得环绕车辆范围的感知结果，通常需要融合多摄像头的感知结果。目前更加主流的感知架构则是选择在特征层面进行多摄像头融合。其中比较有代表性的路线就是这两年很火的BEV方法，继TeslaOpenAIDay公布其BEV感知算法之后，相关研究层出不穷，感知效果取得了显著提升，BEV也几乎成为了多传感器特征融合的
蓝桥杯高精度加法提莫12138 c++字符串
资源限制时间限制：1.0s内存限制：512.0MB问题描述输入两个整数a和b，输出这两个整数的和。a和b都不超过100位。算法描述由于a和b都比较大，所以不能直接使用语言中的标准数据类型来存储。对于这种问题，一般使用数组来处理。定义一个数组A，A[0]用于存储a的个位，A[1]用于存储a的十位，依此类推。同样可以用一个数组B来存储b。计算c=a+b的时候，首先将A[0]与B[0]相加，如果有进位产
蓝桥杯-高精度加法（C语言） dm48-旭蓝桥杯 c语言
蓝桥杯-高精度加法思想百位级的数相加，输入时要按照字符类型存入数组，再从数组中一位一位的转成数字，用-‘0’的方法，二者相加考虑进位，但是加法和乘法有不同之处，进位也只能进一位，所以要将进位的情况考虑进去避免造成少一位的情况，还有就是需要注意在计算的时候将位数从头到尾颠倒问题描述输入两个整数a和b，输出这两个整数的和。a和b都不超过100位。算法描述由于a和b都比较大，所以不能直接使用语言中的标准
【蓝桥杯真题】高精度加法算法与编程之美算法之美编程之美算法 python 编程语言数据结构字符串
欢迎点击「算法与编程之美」↑关注我们！本文首发于微信公众号："算法与编程之美"，欢迎关注，及时了解更多此系列文章。欢迎加入团队圈子！与作者面对面！直接点击！问题描述输入两个整数a和b，输出这两个整数的和。a和b都不超过100位。算法描述由于a和b都比较大，所以不能直接使用语言中的标准数据类型来存储。对于这种问题，一般使用数组来处理。定义一个数组A，A[0]用于存储a的个位，A[1]用于存储a的十位
蓝桥杯R格式--高精度算法模拟泛舟起晶浪算法蓝桥杯程序人生
#includeusingnamespacestd;intpos,p1;intib[1566];intan[1567];intn;stringa,b;intmain(){cin>>n>>a;for(inti=a.size()-1;i>=0;i--){if(a[i]!='.'){pos++;b.insert(b.end(),a[i]);///string插char用insert/push_back}
AI人工智能常见的专业术语奇华智能人工智能大模型 ChatGPT LLM AI
模型（model）：计算机层面的认知学习算法（learningalgorithm），从数据中产生模型的方法数据集（dataset）：一组记录的集合示例（instance）：对于某个对象的描述样本（sample）：也叫示例属性（attribute）：对象的某方面表现或特征特征（feature）：同属性属性值（attributevalue）：属性上的取值属性空间（attributespace）：属性张
AI人工智能带给企业什么影响雪叶雨林 AI 人工智能 ai
在科技日新月异的今天，人工智能(AI)正以前所未有的速度和广度渗透到各行各业，对企业运营产生了深远的影响。这种影响不仅体现在技术层面的革新，更在于企业组织结构、工作流程、决策模式等多个维度的深刻变革。一、优化决策过程，提升精准度人工智能通过大数据分析和机器学习技术，能够处理和分析海量信息，为企业提供更为精准、实时的决策支持。相较于传统的人工分析，AI能够识别出数据中的微妙模式和趋势，帮助企业预见市
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 alxw4616@Msn.com 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源