Nemo555

深度强化学习CS285 lec13-lec15 基础知识：变分推断VI与GAN

变分推断Variational Inference、生成对抗网络GAN

概述
一、简要回顾信息论
- 1.1 概念与公式
- 1.2小总结
二、变分推断(Variational Inference)
- 2.1背景
- 2.2 Variational Inference
三、GAN
- 3.1 原始GAN
- 3.2 “-log D trick”的GAN
小结

概述

Lec1-Lec4 RL Introduction

介绍传统Imitation Learning的背景、算法、难点.IL学习的方式是通过Supervised Learning以state-action直接建立策略 $\pi(a|s)$ 的mapping，因此只能拟合数据与label的相关性.
引入额外监督信息 $r (s, a)$ ，尝试添加因果性，因此增加了灵活性（多solution应对更复杂的任务）的同时，付出了复杂度增大的代价（credit-assignment、exploration与exploitation）.
对RL监督信息的来源、问题的建模、算法的大致分类进行了抽象介绍.

Lec5-Lec9 Model-free RL

假设无环境dynamics model，已知reward function、且为MDP的情况下，基于与真实环境交互得到的样本trajectory来估计梯度 $\nabla J(\theta)$ 或值函数 $Q^*(s,a)$ ，从而进行策略优化PI（Policy Improvement）.
讨论了Policy Gradient、Value-based（V与Q）、Actor-Critic三大类型的model-free算法大致原理.
根据状态state、动作action的离散(discrete)或连续(continuous)、高维(high-dim)或低维(low-dim)进行Model-free算法选型.

Lec10-Lec12 LQR framework

主要介绍了LQR、iLQR、DDP三种规划（planning）算法
在LQR应对deterministic dynamics system，iLQR应对stochastic dynamics system，DDP是对dynamics model以及cost function都做了quadratic approximation的LQR扩展形态

Lec10-Lec12 Model-based RL

引入了dynamics model $p (s^{'} ∣ s, a)$ 或 $f(x_t,u_t)$ ，分为deterministic与stochastic两种，介绍了Model-based RL的基本算法（当然有进阶版）
介绍了Stochastic Optimizatin、MCTS和LQR framework三种经典规划算法planning，也统称Trajectory Optimization在已有dynamics model上怎么去做Optimal Control，得到较优控制序列
怎么更好的拟合dynamics model，引入DAgger、MPC replan、Uncertainty-Award、Latent Model来相应解决Distribution Mismatch、Compound Error、Diverse Exploration in State Space、State Representation的问题
介绍了通过dynamics model来辅助Policy学习的General Dyna-Style算法以及Divide and Conquer RL中的比较经典的Guided Policy Search.

本文主要是为推导较繁琐的lec14-Reframe Control As Inference与lec15-Inverse Reinforcement Learning进行基础铺垫，介绍变分推断VI、对抗生成网络GAN的理论基础，减轻一些负担，是是是，我知道这个都很常见啦，当回顾一下。
本文安排：

回顾一些信息论的概念，如信息量、熵Entropy、交叉熵Cross Entropy、KL散度、JS散度等.
介绍Latent Variable Model、EM算法、变分推断VI
介绍GAN的理论基础，这跟逆强化学习IRL联系很！很！很紧密！

一、简要回顾信息论

1.1 概念与公式

假设： $p (x)$ 为真实分布， $q (x)$ 为模型分布.

信息量
$I_{x_0\sim p(x)}(x_0)=-logp(x_0)$

$p(x_0)$	$\frac{1}{2}$	$\frac{1}{3}$	$\frac{1}{6}$
$logp(x_0)$	$- l o g 2$	$- l o g 3$	$- l o g 6$
$I(x_0)$	$l o g 2$	$l o g 3$	$l o g 6$

说明：概率越小，信息量越大.

（啰嗦的缘由是希望从数值上得到直观印象，直接将 $logp(x_0)$ 就看成一个整体，避免自己老是 $p(x_0)$ 小， $logp(x_0)$ 小， $logp(x_0）$ 就大，像个呆板的沙雕=.=）

熵(Entropy)
$H(p)=\sum_{x_0\sim p(x)}p(x_0)[-logp(x_0)]=\int p(x)[-logp(x)]dx=E_{x_0\sim p(x)}\big[-logp(x_0)\big]$

说明：真实分布 $p$ 的信息量 $- l o g p (x)$ 在自身的期望，熵越低分布越deterministic，熵越高分布越stochastic.
用途：用来衡量一个分布自身的随机程度，类似于数据中的方差variance.
（啰嗦的缘由是建立 $p (x)$ 与 $- l o g p (x)$ 的直观印象， $p (x)$ 小， $- l o g p (x)$ 大，即该样本 $x$ 属于真实分布的概率小，则信息量 $- l o g p (x)$ 大）
交叉熵(Cross Entropy)

$H(p,q)=\sum_{x_0\sim p(x)}p(x_0)[-logq(x_0)]=\int p(x)[-logq(x)]dx=E_{x_0\sim p(x)}\big[-logq(x_0)\big]$ 说明：模型分布 $q$ 的信息量 $- l o g q (x)$ 在真实分布 $p$ 下的期望，Cross Entropy越大p与q越不相似，Cross Entropy越小p与q越接近
用途：衡量模型分布与真实分布之间的相似程度， $H (p) = H (p, p)$
（又来啰嗦了，该样本 $x$ 属于模型分布 $q$ 的概率小，则信息量 $- l o g q (x)$ 大，若属于真实分布 $p$ 的概率大，则 $p (x) [- l o g q (x)]$ 大，于是在该点 $x$ 上， $p, q$ 越不相似，一高一低）
KL散度(Kullback–Leibler divergence)
$KL(p,q)=\sum_{x_0\sim p(x)}p(x_0)log\frac{p(x_0)}{q(x_0)}=\int p(x)log\frac{p(x)}{q(x)}dx=E_{x_0\sim p(x)}\Big[log\frac{p(x)}{q(x)}\Big]$
$\begin{aligned} KL(p,q)&=\int p(x)log\frac{p(x)}{q(x)}dx\\ &=\int p(x)\Big[[-logq(x)]-[-logp(x)]\Big]dx\\ &=E_{p(x)}\Big[I(q)-I(p)\Big]\quad (1)\\ &=\int p(x)logp(x)dx+\int p(x)[-logq(x)]dx\\ &=-H(p)+H(p,q)\geq0 \quad(2)\\ \end{aligned}$

说明：两者越相似， $\frac{p(x)}{q(x)}\rightarrow1,log\frac{p(x)}{q(x)}\rightarrow0$ ， $K L (p, q)$ 越小；
用途： $K L (p, q)$ 是用来衡量两个分布之间的差异.
（突然啰嗦症晚期，由 $(1)$ 可知，KL散度可看作两个分布信息量的差在真实分布 $p$ 上的期望，两者相等时，期望为0；两者相差越远时，如在样本点x上， $q (x)$ 小， $p (x)$ 大，则两者信息量差距越大。由 $(2)$ 可知，KL散度=交叉熵-熵.）
JS散度(Jensen-Shannon)
$\begin{aligned} JS(p||q)&=\frac{1}{2}KL(p||\frac{p+q}{2})+\frac{1}{2}KL(q||\frac{p+q}{2})\\ &=\frac{1}{2}\int\Big[ p(x)log\frac{2p(x)}{p(x)+q(x)}+q(x)log\frac{2q(x)}{p(x)+q(x)}\Big]dx\\ \end{aligned}$

1.2小总结

一般数据来源为真实分布，算法拟合的为模型分布。

$H (q)$ 衡量拟合数据的模型分布的随机程度，对于策略 $\pi(a|s)$ ，一般希望其随机利于探索，则可在目标中添加 $\max_\theta H(\pi_\theta(a|s))$ 即 $\min_\theta-H(\pi_\theta(a|s))$
$H (p, q)$ 与 $K L (p, q)$ 主要区别是，当p为真实分布时， $H (p)$ 为常数，所以有 $minKL(p,q)=minH(p,q)-H(p)\equiv minH(p,q)$ 。所以监督学习时，一般数据是真实分布，最小化KL散度等价于最小化交叉熵，可以算少一点。若要衡量两个模型分布的差异，则需要使用KL散度，如Knowledge Distillation，如TRPO中施加的约束，希望更新的Policy与之前的Poilcy差异不要太大 $D_{KL}\big(\pi_\theta(a|s)||\pi_{\bar\theta}(a|s)\big)\leq\epsilon$
JS散度是为了解决KL散度不对称性提出的一个指标。

二、变分推断(Variational Inference)

2.1背景

现在有一个可看作从真实分布 $p$ 采样的数据集 $D=\{x_1,x_2,...,x_N\}$ ， $x_i$ 表示第 $i$ 个样本，label为 ${y_1,y_2,...,y_N\}$ ，先忽略分类的label，用模型参数 $\theta$ 去拟合数据本身的概率密度 $p (x)$

最大似然目标为：

$\theta\leftarrow \argmax_\theta \frac{1}{N}\sum_ilogp_\theta(x_i)$

假设数据有隐变量： $p(x)=\int p(x|z)p(z)dz$

$\theta\leftarrow \argmax_\theta \frac{1}{N}\sum_ilog\int p_\theta(x_i|z)p(z)dz$

由于关于隐变量的积分是intractable的，回顾一下EM算法：

$\begin{aligned} logp(x_i)&=log\int p_\theta(x_i|z)p(z)dz\\ &=log\int p_\theta(x_i,z)dz\\ &=log\int p_\theta(x_i,z)\frac{q_i(z)}{q_i(z)}dz\\ &=logE_{z\sim q_i(z)}\Big[\frac{p_\theta(x_i,z)}{q_i(z)}\Big]\quad (1)\\ &\geq E_{z\sim q_i(z)}\Big[log\frac{p_\theta(x_i,z)}{q_i(z)}\Big]\quad(2)\\ &=\int q_i(z)log\frac{p_\theta(x_i,z)}{q_i(z)}dz\\ &=\int q_i(z)[-logq_i(z)]dz+\int q_i(z)logp_\theta(x_i,z)dz\\ &=E_{z\sim q_i(z)}\Big[logp_\theta(x_i,z)\Big]+H(q_i) \end{aligned}$

$(1)$ 到 $(2)$ 使用了 $logE[f]\geq E[logf]$ ，且等号成立条件为 $\frac{p_\theta(x_i,z)}{q_i(z)}=c$ ，且 $\int q_i(z)dz=1,c$ 为常数，有

$\int q_i(z)dz=\int\frac{p_\theta(x_i,z)}{c}dz=1\\ \int p_\theta(x_i,z)dz=p_\theta(x_i)=c\\ q_i(z)=\frac{p_\theta(x_i,z)}{c}=\frac{p_\theta(x_i,z)}{p_\theta(x_i)}=p_\theta(z|x_i)$

所以在EM算法中的最大似然目标变化如下：
$\begin{aligned} \argmax_\theta \sum_ilogp_\theta(x_i)&=\argmax_\theta\sum_ilog\int p_\theta(x_i,z)dz\\ &=\argmax_\theta \sum_i E_{z\sim p_\theta (z|x_i)}[logp_\theta(x_i,z)]\\ \end{aligned}$
(解释一下，由上面推导可知 $logp_\theta(x_i)\geq E_{z\sim q_i(z)}\Big[logp_\theta(x_i,z)\Big]+H(q_i)$ ，而等号成立时有 $q_i(z)=p_\theta(z|x_i)$ ，所以相当于优化下界，EM算法流程为：
输入观察数据 $x=(x_1,x_2,\cdots,x_N)$ ，联合分布 $p_\theta(x,z)$ ，条件分布 $p_\theta(z|x)$ ，迭代次数 $J$

初始化参数 $\theta_0$
For j=1 to J 开始EM算法迭代：
E-step：
$q_i(z_i)=p(z_i|x_i,\theta_j)\\ L(\theta,\theta_j)=\sum_{i=1}^N\sum_{z\sim q_i(z)}q_i(z)logp_\theta(x_i,z)$
M-step:
$\theta_{j+1}=\argmax_\theta L(\theta,\theta_j)$
直到 $\theta^{j+1}$ 收敛，输出模型参数 $\theta$

可参见刘建平的EM算法总结
算法是这样没有错，但细究一下， $p(z|x,\theta)$ 这个真实隐变量分布，如果不人为设定的话，应该如何计算呢？
这时候就需要变分推断通过迭代的方式，使 $q (z ∣ x)$ 迭代地近似 $p (z ∣ x)$ 这个分布了。因为数据复杂的时候，根本不清楚隐变量是什么情况呀，简单的时候可以假设每个样本 $x_i$ 服从一个隐变量高斯分布 $q_i(z)=N(u_i,\sigma_i)$ ，但复杂的时候，只能拟合隐变量的分布了。
总结：算法里已知的是观察数据，未知的是隐含变量 $z$ 和模型参数 $\theta$ ，在E步，我们所做的事情是固定模型参数的值 $\theta_j$ ，优化隐含数据的分布 $p(z|x_i,\theta_j)$ ，而在M步，我们所做的事情是固定隐含数据分布，优化模型参数的值

2.2 Variational Inference

由上一节可知，对于每一个样本有：
$logp(x_i)\geq E_{z\sim q_i(z)}\Big[logp_\theta(x_i,z)\Big]+H(q_i)$

$L_i(p,q_i)=E_{z\sim q_i(z)}\Big[logp_\theta(x_i,z)\Big]+H(q_i)$

先下结论：
$logp(x_i)=L_i(p,q_i)+KL\big(q_i(z)||p(z|x_i)\big)$

然后证明：

$\begin{aligned} KL(q_i(z)||p(z|x_i))&=\int q_i(z)log\frac{q_i(z)}{p(z|x_i)}dz\\ &=\int q_i(z)logq_i(z)dz-\int q_i(z)logp(z|x_i)dz\\ &=-H(q_i)-\int q_i(z)log\frac{p(x_i,z)}{p(x_i)}dz\\ &=-H(q_i)-E_{z\sim q_i(z)}logp(x_i,z)+\int q_i(z)logp(x_i)dz\\ &=-L_i(p,q_i)+logp(x_i) \end{aligned}$

因此有：

$\argmax_\theta\sum_ilogp_\theta(x_i)\equiv \argmax_\theta L(p,q_i)同时\argmin_{q_i} KL(q_i||p(z|x_i))$

对于每一个样本 $x_i$ （或一个batch）：
$\quad$ 计算 $\nabla_\theta L_i(p,q_i)$ ：
$\quad \quad$ 从简单分布 $q_i(z)$ 中采样隐变量 $z$
$\quad \quad$ $\nabla_\theta L_i(p,q_i)\approx\nabla_\theta logp_\theta(x_i|z)$
$\quad$ 参数更新： $\theta \leftarrow\theta+\alpha\nabla_\theta L_i(p,q_i)$
$\quad$ 然后更新近似分布： $q_i\leftarrow\argmax_{q_i}L_i(p,q_i)$

那用来近似真实分布 $p(z|x_i)$ 的 $q_i$ 应该是什么比较好呢？

如果是高斯分布有， $z\sim N(u_i,\sigma_i)$ ，如果每个样本一个高斯分布，那就有 $N\times(|u_i|+|\sigma_i|)$ 个参数，那可以选择GMM模型来拟合隐变量分布，即 $N$ 个样本用 $个高斯分布来拟合隐变量分布，嗯，这样需要按照经验来选择M，也可以。下面用神经网络为模型结构拟合高斯分布的参数吧～$

我们需要建模的有 $p_\theta(x|z),q_\phi(z|x)$ ，用 $\theta$ 代表隐变量下模型参数，用 $\phi$ 代表隐变量分布结构的参数
 于是流程变为
对于每一个样本 $x_i$ （或一个batch）：
$\quad$ 计算 $\nabla_\theta L(p_\theta(x_i|z),q_\phi(z|x_i))$ ：
$\quad \quad$ 从简单分布 $q_\phi(z|x_i)$ 中采样隐变量 $z$
$\quad \quad$ $\nabla_\theta L\approx\nabla_\theta logp_\theta(x_i|z)$
$\quad$ 更新模型参数： $\theta \leftarrow\theta+\alpha\nabla_\theta L$
$\quad$ 更新近似分布： $\phi\leftarrow\phi+\alpha\nabla_\phi L$

$\nabla_\phi L$ 的计算方式有两种：

Policy Gradient形式
$\nabla_\phi L_i=\underbrace{E_{z\sim q_\phi(z|x_i)}\Big[logp_\theta(x_i|z)+logp(z)\Big]}_{J(\phi)}+H(q_\phi(z|x_i))$

$记r(x_i,z)=logp_\theta(x_i|z)+logp(z)$

所以采样估计期望有：
$\nabla J(\phi)\approx \frac{1}{M}\sum_j\nabla_\phi logq_\phi(z_j|x_i)r(x_i,z_j)$
$\nabla H(q_\phi(z|x_i))$ 可看作对高斯分布的熵求导，即

若 $p(x)=\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}exp\{{-\frac{(x-u)^2}{2\sigma^2}}\}$ ，则 $H(p)=\frac{1}{2}\big(log2(\pi\sigma^2)+1\big)$ ，仅与方差相关。
$\nabla_\phi L_i=\nabla J(\phi)+\nabla H(q_\phi(z|x_i))$

（ $q_\phi(z|x)$ 拟合的是高斯分布的均值与方差，即 $u_\phi,\sigma_\phi$ )

Reparameterization trick

$\begin{aligned} J(\phi)&=E_{z\sim q_\phi(z|x_i)}\big[r(x_i,z_j)\big]\\ &=E_{\epsilon\sim N(0,1)}\big[r(x_i,u_\phi(x_i)+\epsilon\sigma_\phi(x_i))\big] \end{aligned}$
于是网络图如下：

目标函数为：

$\max _{\theta, \phi} \frac{1}{N} \sum_{i} \log p_{\theta}\left(x_{i} | \mu_{\phi}\left(x_{i}\right)+\epsilon \sigma_{\phi}\left(x_{i}\right)\right)-D_{\mathrm{KL}}\left(q_{\phi}\left(z | x_{i}\right) \| p(z)\right)$

这个就是Variational AutoEncoder，总体梳理可以参见CS236的总结文章中的VAE。

三、GAN

3.1 原始GAN

GAN的优化目标如下：
$\min _{\theta} \max _{\phi} V\left(G_{\theta}, D_{\phi}\right)=\mathbb{E}_{\mathbf{x} \sim \mathbf{p}_{\text {data }}}\left[\log D_{\phi}(\mathbf{x})\right]+\mathbb{E}_{\mathbf{z} \sim p(\mathbf{z})}\left[\log \left(1-D_{\phi}\left(G_{\theta}(\mathbf{z})\right)\right)\right]$
对于判别器D的优化目标：
$\begin{aligned} \max_{D}V(G,D)&=E_{x\sim p_{data}}\big[logD(x)\big]+E_{x\sim P_G}\big[1-logD(x)\big]\\ &=\int p_{data}(x)logD(x)+p_G(x)(1-logD(x))dx\\ \end{aligned}$

固定G，优化D时， $E_{x\sim p_{data}}\big[logD(x)\big]$ 将属于 $p_{data}$ 的样本 $x$ 尽可能判为正例，将属于 $p_G$ 的样本x尽可能判为负例。
对 $D$ 求导得最优判别器：
$D^*(x)=\frac{p_{data}(x)}{p_G(x)+p_{data}(x)}$

说明最优的判别器，对一个样本 $x$ ，其属于G或者data的概率是一样的，则为 $\frac{1}{2}$ 。
代入生成器G的优化目标：
$\begin{aligned} \min_{G}V(G,D)&=E_{x\sim p_{data}}\big[log\frac{p_{data}(x)}{p_G(x)+p_{data}(x)}\big]+E_{x\sim P_G}\big[1-log\frac{p_{data}(x)}{p_G(x)+p_{data}(x)}\big]\\ &=E_{x\sim p_{data}}\big[log\frac{2p_{data}(x)}{p_G(x)+p_{data}(x)}\big]+E_{x\sim P_G}\big[log\frac{2p_{data}(x)}{p_G(x)+p_{data}(x)}\big]-2log2\\ &=2JS(p_{data}(x)||p_G(x))-2log2 \end{aligned}$

最优的生成器就是 $p_G(x)=p_{data}(x)$ 即 $JS(p_{data}(x)||p_G(x))=0$

所以训练流程为：

从数据集 $D$ 中采样m个样本 $x^{(1)},x^{(2)}...,x^{(m)}$
从隐变量先验分布 $p (z)$ 中采样m个noises $z^{(1)},z^{(2)}...,z^{(m)}$
更新生成器 $G$ 参数： $\nabla_\theta V(G_\theta,D_\phi)=\frac{1}{m}\nabla_\theta\sum_{i=1}^mlog(1-D_\phi(G_\theta(z^{(i)})))$
更新判别器 $D$ 参数： $\nabla_\phi V(G_\theta,D_\phi)=\frac{1}{m}\nabla_\phi\sum_{i=1}^m\Big[logD_\phi(x^{(i)})+log(1-D_\phi(G_\theta(z^{(i)})))\Big]$

3.2 “-log D trick”的GAN

原始GAN在判别器D训练得比较好时，生成器G的优化目标变成：

$min_{G}V(G,D^*)=2JS(p_{data}(x)||p_G(x))-2log2$

当 $p_{data}$ 与 $p_G$ 重叠部分可忽略时，会出现JS散度为常数，导致训练过程中的梯度消失现象。

于是把G的优化目标魔改一下：

$\min_{G}V(G,D)=\min_GE_{x\sim P_G(x)}\big[log(1-D(x))\big]\rightarrow \min_GE_{x\sim P_G(x)}\big[-logD(x)\big]$

写得详细点的话如下：
$\min_{G}V(G,D)=\min_GE_{z\sim p(z)}\big[log(1-D_\phi(G_\theta(z)))\big]\rightarrow \min_GE_{z\sim p(z)}\big[-logD_\phi(G_\theta(z))\big]$

固定 $D$ ，调整 $\theta$ ，使得生成出来的样本 $x=G_\theta(z)$ ，让优化目标 $E_{z\sim p(z)}\big[-logD_\phi(G_\theta(z))\big]$ 更小，即让 $- l o g D (x)$ 更小， $D (x)$ 更大，从而直观上使得G生成的样本尽可能让D判别为正例。

我们已知：

$\begin{aligned} E_{x\sim p_{data}}\big[logD^*(x)\big]+E_{x\sim p_G(x)}\big[log(1-D^*(x))\big]=2JS(p_{data}(x)||p_G(x))-2log2\\ \end{aligned}$

$\begin{aligned} KL(p_G||p_{data})&=E_{x\sim p_G}\Big[log\frac{p_G(x)}{p_{data}(x)}\Big]\\ &=E_{x\sim p_G}\Big[log\frac{\frac{p_G(x)}{p_G(x)+p_{data}(x)}}{\frac{p_{data}(x)}{p_{data}(x)+p_G(x)}}\Big]\\ &=E_{x\sim p_G}\Big[log\frac{1-D^*(x)}{D^*(x)}\Big]\\ &=E_{x\sim p_G}\big[log(1-D^*(x))\big]+E_{x\sim p_G}\big[-logD^*(x)\big] \end{aligned}$

所以更换G的目标函数后有：
$\begin{aligned} \min_GV(G,D^*)&=\min_GE_{x\sim p_G}\big[-logD^*(x)\big]\\ &=\min_GKL(p_G||p_{data})-E_{x\sim p_G}\big[log(1-D^*(x))\big]\\ &=\min_GKL(p_G||p_{data})-\Big[2JS(p_{data}(x)||p_G(x))-2log2-E_{x\sim p_{data}}\big[logD^*(x)\big]\Big]\\ &\equiv \min_GKL(p_G||p_{data})-2JS(p_{data}(x)||p_G(x)) （最后两项与G无关） \end{aligned}$

于是对于第二种目标函数，在D比较优的情况下：

第一项最小化 $KL(p_G||p_{data})$ 将生成器G拉近 $p_{data}$
第二项最小化 $JS(p_{data}(x)||p_G(x))$ 将生成器G推远 $p_{data}$

所以这种情况下会出现梯度不稳定，而且

对于一个G生成的样本 $x$ 而言，当 $p_G(x)\rightarrow0,p_{data}(x)\rightarrow1$ 时， $KL(p_G||p_{data})\rightarrow0$ 。说明明明G生成了一个很接近真实分布的 $x$ ，但是当前G还很差，使得 $p_G(x)$ 接近0，此时这个目标函数竟然接近0！这对G的参数 $\theta$ 几乎没改变。概括为“该优化目标会使得G没能生成真实样本”。
对于一个G生成的样本 $x$ 而言，当 $p_G(x)\rightarrow1,p_{data}(x)\rightarrow0$ 时， $KL(p_G||p_{data})\rightarrow+\infty$ 。说明此时G生成了一个很符合自身的样本 $x$ ，但几乎不可能属于真实分布 $p_{data}$ ，然而目标函数很大！概括为“该优化目标使得G生成了不真实的样本”

所以这种情况下会出现多样性不足即mode collapse的问题。

具体参考郑华滨的知乎文章

小结

上面是两种最原始的GAN，最核心的思想是G与D的对抗性训练，使G具备生成众多样本的特性。

这种对抗性训练也是IRL中的核心思想。

由最原始GAN的问题，由此衍生了一系列GAN的变种以及训练技巧，具体可参见下两个资料。

GAN Zoo Github
Tricks To Train GAN

使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
华山论剑，大模型(deepseek qwq gemini)辩论人生意义 Lifeng66666666 语言模型语言模型人工智能
借助DeepDiscussion程序，通过让大模型(deepseekqwqgemini)讨论“人生意义是什么”这一挑战问题，我们得以客观观察目前这几种大模型的价值观，能力，不足。部分讨论过程：问题:人生的意义是什么？deepseek/deepseek-r1:free初始方案:针对“人生的意义是什么”这一终极问题，我的解决方案分为以下五个层次，融合东西方哲学智慧与实践心理学，并提供具体行动方向：一、
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码强化学习曾小健2 大语言模型LLM 算法
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者：AndriyBurkov机器之心编译GRPO（GroupRelativePolicyOptimization）是DeepSeek-R1成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek用的GRPO占用大量内存？有人给出了些破解方法》。简单来说，GR
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
清华DeepSeek教程1至7版，解锁前沿技术 2501_91206263 pdf
清华DeepSeek教程1至7版，解锁前沿技术「DeepSeek清华资料」共7册链接：https://pan.quark.cn/s/b8d8760976ca「DeepSeek使用手册大全」链接：https://pan.quark.cn/s/52c234062a2e「DeepSeek资料合集」链接：https://pan.quark.cn/s/71c8604f0e8a「DeepSeep使用手册」链接
清华出品DeepSeek教程7版合集，一站式掌握前沿技术 2501_91206263 pdf
亲爱的读者们，今天要给大家介绍一套由清华大学出品的超硬核教程——DeepSeek教程7版合集！「DeepSeek清华资料」共7册链接：https://pan.quark.cn/s/b8d8760976ca「DeepSeek使用手册大全」链接：https://pan.quark.cn/s/52c234062a2e「DeepSeek资料合集」链接：https://pan.quark.cn/s/71c8
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
Java中卫语句的设计思想而为. java 服务器开发语言
卫语句（GuardClauses）是一种通过提前返回简化条件嵌套、提升代码可读性的编程技巧。其核心思想是优先处理异常或边界情况，让主逻辑保持扁平化。以下是deepseek做出的设计思想详解：核心设计原则FailFast（快速失败）在函数入口处立即检查非法参数或无效状态，若不符合条件则提前终止（如返回、抛异常），避免后续无效操作。减少嵌套层级用卫语句替换多层if-else嵌套，将代码从“箭头型”结构
SpringAI集成DeepSeek 一诚学编程 java 人工智能 spring boot
1、利用spring-ai-openai集成DeepSeek1.1、在DeepSeek开放平台创建APIKEY1.2、创建SpringBoot工程，引入依赖4.0.0org.springframework.bootspring-boot-starter-parent3.3.8org.examplespringai-deepseek1.0-SNAPSHOT17171.0.0-M5org.spring
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
基于腾讯云大模型知识引擎与DeepSeek的沉浸式历史文化体验系统实践 lijiek 腾讯云 microsoft 云计算
前言文化遗产数字化保护与传播是当今科技与人文交汇的重要领域。传统的数字化方法往往局限于静态展示，无法实现真正的互动体验。本文将探索一条创新路径：利用腾讯云大模型知识引擎(LKE)与DeepSeek模型构建沉浸式历史文化体验系统，实现与历史人物的"对话"、历史场景的"复原"，以及文化知识的智能传播。作为实践案例，我们以中国古代科技成就为切入点，打造了一个可交互的"古代科技馆"，让用户能够与张衡、祖冲
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
Deepseek API 调用哦豁灬 LLM 深度学习生产工具 deepseek LLM API 大模型
1获取APIKey目前比较知名的提供了DeepSeek的推理服务商包括硅基流动、阿里云、腾讯云等等。这些推理服务商一般是提供API接口，需要安装大模型客户端并配置API。获取API密钥，以硅基流动为例：前往硅基流动官方网站（https://cloud.siliconflow.cn）注册账号。在账户管理的API密钥中点击新建API密钥并复制。安装一个本地的第三方大模型客户并配置，常见的包括Chatb
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
SAP ABAP 调用 DeepSeek，API Key 存在什么地方最安全？汪子熙 ABAP 百科全书安全 ABAP NetWeaver 思爱普
笔者最近在处理一个SAP电商云和SAPS/4HANA集成后商品库存显示不同步的棘手问题。DeepSeek和ChatGPT没能帮上忙，最后还是查公司内网wiki搞定了。DeepSeek和ChatGPT确实不是万能的。ChatGPT3.5刚发布不久，我记得很多朋友聊起过大语言模型的「讨好型人格」，即倾向于迎合用户的观点、顺从用户的意愿。甚至在极端情况下，当用户对其回复提出质疑时，它会马上认怂，承认自己
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
AI学习手册合集｜零基础入门宝典 2501_91234994 pdf
DeepSsek资料包：https://pan.quark.cn/s/2672e0be6178现在AI持续火热，越来越多的人开始使用AI辅助工作，大大提高了生产效率。甚至很多自由职业者，通过学习DeepSeek，在互联网淘金日入过万，登上热搜。普通人如何高效入门AI?清华团队亲自下场教学！自从第一弹AI学习手册《DeepSeek入门到精通》火了后，清华大学接连发布多版AI进阶资料，即便零基础也能轻
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1