病兽

CTGAN（Modeling Tabular Data using Conditional GAN读书笔记）有实验代码

使用条件GAN建模表格数据

摘要
介绍
相关工作
表格数据生成任务中的GANs挑战
CTGAN模型
- 符号表
- 针对模式的归一化
- 条件生成器和抽样训练
- 网络框架
- TVAE 模型
基准测试合成数据生成算法
- 基线和数据集
- 评估指标和框架
- 基准结果
- 消融实验
讨论
CTGAN训练算法

摘要

对表格数据中行的概率分布进行建模并生成真实的合成数据是一项非常重要的任务，有着许多挑战。本文设计了CTGAN，使用条件生成器解决挑战。为了帮助进行公平和彻底的比较建模这类数据的方法，本文设计了一个基准测试，包括7个模拟数据集和8个真实数据集，以及几个贝叶斯网络基线。CTGAN在大多数真实数据集上都优于贝叶斯方法，而其他深度学习方法则不然。

介绍

GAN在建模分布方面比其统计对应方法具有更大的灵活性。新的GAN方法的激增需要一个评估机制。

为了评估这些GAN，本文使用了一组真实的数据集来建立一个基准系统，并实现了三种最新的技术。
为了进行比较，本文使用贝叶斯网络创建了两种基准方法。

在使用模拟数据集和真实数据集对这些模型进行测试后，我们发现，表格数据建模对GAN提出了独特的挑战，导致它们在许多指标上无法达到基线方法，如合成生成数据的可能性适合度和机器学习效率。这些挑战包括：

需要同时对离散列和连续列进行建模
每个连续列中的多模态非高斯值
以及类别列的严重不平衡问题。
为了应对这些挑战，在本文中提出了条件表格GAN（CTGAN）。引入了几种新技术方法：
通过针对模式的归一化、架构更改来增强训练过程。
通过使用条件生成器和采样训练来解决数据不平衡问题。

当使用有基准测试的相同数据集时，CTGAN的性能明显优于贝叶斯网络基线和其他测试的GAN。如下图所示。

论文的贡献如下：

一个用于合成表格数据生成的条件GAN。本文建议CTGAN作为一个合成表格数据生成器由于以下几点：
- CTGAN比迄今为止的所有方法都要好，在至少87.5%的数据集上超过了贝叶斯网络。
- 为了进一步挑战CTGAN，采用变分自动编码器（VAE）来生成混合类型的表格数据，称之为TVAE。VAE直接使用数据构建生成器；即使有这样的优势，CTGAN在许多数据集上都实现了有竞争力的性能，并且在3个数据集上优于TVAE。
一个合成数据生成算法的基准测试系统。使用多个表格数据集和不同的评估指标，以及多个基线和最先进方法的实现，设计了一个全面的基准框架。同时系统是开源的，可以用其他方法和额外的数据集进行扩展。在撰写本文时，基准有5种深度学习方法、2种贝叶斯网络方法、15个数据集和2种评估机制。

表格数据生成任务中的GANs挑战

符号	说明
$T$	表格
$G$	数据生成器
$T_{syn}$	生成表格
$\left\{C_{1}, \ldots, C_{N_{c}}\right\}$	表格 $T$ 中的 $N_c$ 个连续列
$\left\{D_{1}, \ldots, D_{N_{d}}\right\}$	表格 $T$ 中的 $N_d$ 个离散列
$\mathbb{P}\left(C_{1: N_{c}}, D_{1: N_{d}}\right)$	每一列都被认为是一个随机变量，这些随机变量遵循未知的联合分布
$\mathbf{r}_{j}=\left\{c_{1, j}, \ldots, c_{N_{c}, j}, d_{1, j}, \ldots, d_{N_{d}, j}\right\}, j \in\{1, \ldots, n\}$	每一行，即联合分布的一个观察结果
$T_{train}$	从 $T$ 中分割出的训练集
$T_{test}$	从 $T$ 中分割出的测试集

在 $T_{train}$ 上训练 $G$ 后，通过使用 $G$ 独立采样rows来构建 $T_{syn}$ 。本文沿着两个方向评估生成器的效能：

Likelihood fitness： $T_{syn}$ 中的列是否遵循与 $T_{train}$ 相同的联合分布？
Machine learning efficacy：当使用其他列作为特征预测一列去训练一个分类器/回归器时，在 $T_{test}$ 上进行测试，从 $T_{syn}$ 上学习的分类器/回归器能否获得与在 $T_{train}$ 上学习的分类器/回归器相似的性能？

CTGAN 模型代码在此
基准代码在此

表格数据的几个独特特性对GAN模型的设计提出了挑战：

混合的数据类型：现实世界的表格数据由多种类型组成。为了同时生成离散列和连续列的混合，GANs必须将softmax和tanh都应用于输出。
非高斯分布：图像中，像素值遵循类高斯分布，可以使用最小-最大变换归一化为[−1，1]。tanh函数通常用于网络的最后一层，以输出该范围内的值。表格数据中的连续值通常是非高斯的，其中最小-最大变换将导致消失梯度问题。
多模式分布：本文使用核密度估计来估计列中的模式数。但是在8个真实数据集中，57/123连续列有多种模式。有论文表明原始GAN无法在一个简单的2D数据集上对所有模式进行建模。因此，它也很难对连续列的多模式分布进行建模。
从稀疏独热编码向量中学习：当生成合成样本时，使用softmax训练生成模型生成各个类别的概率分布，而真实数据则用独热向量表示。这是有问题的，因为鉴别器只会检查分布稀疏性而不会考虑样本整体的真实性。
高度不平衡的分类列：在数据集中，有636/1048个分类列是高度不平衡的，其中主类别出现在90%以上的行中。这会造成严重的模式崩溃。缺少一个次要类别只会导致数据分布发生微小变化，鉴别器很难检测到这些变化。不平衡的数据还导致小类别训练不足。

CTGAN模型

CTGAN是一种基于GAN的方法，用于对表格数据分布建模并从分布中采样。在CTGAN中发明了针对模式的归一化，以克服非高斯和多模式分布。设计了一个条件生成器通过采样进行训练，以处理不平衡的离散列。使用全连接网络和几种最新技术来训练高质量的模型。

符号表

符号	说明
$x_{1} \oplus x_{2} \oplus \ldots$	向量 $x_1,x_2,\ldots$ 串联
$gumbel_{\tau}(x)$	在向量 $x$ 上应用参数为 $τ$ 的Gumbel softmax
$leaky_{\gamma}(x)$	在向量 $x$ 上应用leaky率为 $\gamma$ 的leaky ReLU激活函数
$\mathrm{FC}_{u \rightarrow v}(x)$	对 $u$ 维输入应用线性变换以获得 $v$ 维输出

同时也使用了tanh、ReLU、softmax，BN用于进行批量归一化，dropout用于进行丢弃。

针对模式的归一化

离散值可以自然地表示为独热向量，但表示有着任意分布的连续值是非常重要的。以前的模型使用最小-最大归一化将连续值归一化为[−1, 1]。在CTGAN中设计了一种针对模式的归一化方法来处理具有复杂分布的列。
下图展示对一个连续列使用针对模式的归一化方法。

CTGAN的方法中，每列都是独立处理。每个值都被表示为一个指定模式的独热向量和一个指定模式内值的标量。一共包含三步：

对于每个连续列 $C_i$ ，使用变分高斯混合模型（VGM）估计模式数量 $m_i$ 并拟合高斯混合。例如，在Figure 1中，VGM找到3种模式（ $m_i=3$ ），命名为 $\eta_{1}, \eta_{2}$ and $\eta_{3}$ 。学习到的高斯混合为 $\mathbb{P}_{C_{i}}\left(c_{i, j}\right)=\sum_{k=1}^{3} \mu_{k} \mathcal{N}\left(c_{i, j} ; \eta_{k}, \phi_{k}\right)$ ，其中 $\mu_{k}$ 和 $\phi_{k}$ 分别为模式的权重和标准偏差。
对于 $C_i$ 中的每个值 $C_{i,j}$ 计算来自每个模式的概率。例如，在Figure 1中，概率密度是 $\rho_1, \rho_2, \rho_3$ 。概率密度的计算为 $\rho_{k}=\mu_{k} \mathcal{N}\left(c_{i, j} ; \eta_{k}, \phi_{k}\right)$ 。
从给定的概率密度中采样一个模式，并使用采样模式对值进行归一化。例如，在图1中，我们选择给定 $\rho_1, \rho_2, \rho_3$ 的第三个模式。然后我们将 $c_{i,j}$ 表示为独热向量 $β_{i,j}=[0,0,1]$ （表示第三个模式），以及一个标量 $\alpha_{i, j}=\frac{c_{i, j}-\eta_{3}}{4 \phi_{3}}$ 表示模式内的值。

那么一行数据的表示为
$\mathbf{r}_{j}=\alpha_{1, j} \oplus \beta_{1, j} \oplus \ldots \oplus \alpha_{N_{c}, j} \oplus \beta_{N_{c}, j} \oplus \mathbf{d}_{1, j} \oplus \ldots \oplus \mathbf{d}_{N_{d}, j}$
其中 $d_{i,j}$ 为离散值的独热编码表示。

条件生成器和抽样训练

传统上，GAN 中的生成器被输入一个从标准多元正态分布 (MVN)变量中采样的向量。通过与鉴别器或批评者神经网络一起训练，最终获得将标准 MVN 映射到数据的确定性变换。这种训练生成器的方法没有考虑分类列中的不平衡。
如果对训练数据进行随机抽样，则属于次要的行类别将无法充分表示，因此可能无法正确训练生成器。
如果对训练数据进行重采样，生成器学习与训练数据不同的重采样分布真实数据分布。
目标是以一种方式有效地重采样，即在训练过程中有规律地（但不必均匀地）采样离散属性中的所有类别，并在测试过程中恢复（未重采样的）真实数据分布。让 $k^*$ 为来自第 $i^*$ 个离散列 $D_{i^∗}$ 的值，这个值必须与生成的样本 $\hat{r}$ 匹配，那么生成器可以被解释为给定的特定列特定值行的条件分布，即 $\hat{\mathbf{r}} \sim \mathbb{P}_{\mathcal{G}}\left(\mathrm{row} \mid D_{i *}=k^{*}\right)$ 。因此，在本文中，我们将其命名为条件生成器，在此基础上构建的GAN称为条件GAN。

将条件生成器集成到GAN的体系结构中需要处理以下问题：

需要设计条件的表示，并为其准备输入
生成的行需要保留给定的条件
条件生成器需要学习真实数据的条件分布，即 $\mathbb{P}_{\mathcal{G}}\left(\right.$ row $\left.\mid D_{i *}=k^{*}\right)=\mathbb{P}\left(\right.$ row $\left.\mid D_{i *}=k^{*}\right)$ , 这样我们就可以重建原始分布为
$\mathbb{P}(row)=\sum_{k \in D_{i^{*}}} \mathbb{P}_{\mathcal{G}}\left(\right.row\left.\mid D_{i *}=k^{*}\right) \mathbb{P}\left(D_{i^{*}}=k\right)$

文章提出了一个由三个关键元素组成的解决方案，即：条件向量、生成器损失和采样训练法。

条件向量：引入变量 $c o n d$ 作为指定条件 $D_{i^*} = k^*）$ 的方式。
第 $i$ 个独热向量为 $\mathbf{d}_{i}=\left[\mathbf{d}_{i}^{(k)}\right]$ , for $\ldots,\left|D_{i}\right|$ 。让 $\mathbf{m}_{i}=\left[\mathbf{m}_{i}^{(k)}\right]$ , for $\ldots,\left|D_{i}\right|$ 为独热向量的第 $i$ 个掩码向量。因此条件可用掩码向量表示为 $\mathbf{m}_{i}^{(k)}= \begin{cases}1 & \text { if } i=i^{*} \text { and } k=k^{*} \\ 0 & \text { otherwise }\end{cases}$
将向量 $c o n d$ 定义为 $=\mathbf{m}_{1} \oplus \ldots \oplus \mathbf{m}_{N_{d}}$ 。例如，对于两个离散列， $D_1={1,2,3}$ 和 $D_2={1,2}$ ，条件 $D_2=1）$ 由掩码向量 $m_1=[0,0,0]$ 和 $m_2=[1,0]$ 表示；所以 $c o n d = [0, 0, 0, 1, 0]$ 。
生成器损失：在训练期间，条件生成器可以自由地生成任意独热离散向量集合 $\left\{\hat{\mathbf{d}}_{1}, \ldots, \hat{\mathbf{d}}_{N_{d}}\right\}$ 。特别是，给定 $c o n d$ 向量形式的条件 $D_{i^∗} = k^∗)$ ，再产生 $\mathbf{\hat{d}}_{i^*}^{(k)}= \begin{cases}1 & \text { if } \text { and } k\not=k^{*} \\ 0 & \text { otherwise }\end{cases}$
为了强制条件生成器生成 $\mathbf{\hat{d}}_{i^*} = \mathbf{m}_{i^*}$ ，通过增加 $\mathbf{\hat{d}}_{i^*}$ 和 $\mathbf{m}_{i^*}$ 之间的交叉熵，对批处理的所有实例求平均来惩罚损失。
采样训练法：条件产生器产生的输出必须由鉴别器评估，鉴别器估计学习到的条件分布 $\mathbb{P}_{\mathcal{G}}\left(\right.$ row $\left.\mid D_{i *}=k^{*}\right)$ 和实际数据上的条件分布 $\mathbb{P}\left(\right.$ row $\left.\mid D_{i *}=k^{*}\right)$ 之间的距离。真实训练数据的采样和条件向量的构造应符合帮助鉴别器估计距离的要求。适当地采样 $c o n d$ 向量和训练数据可以帮助模型均匀地探索离散列中所有可能的值。出于以上目的，建议采取以下步骤：
1. 创建 $N_d$ 个0填充掩码向量 $\mathbf{m}_{i}=\left[\mathbf{m}_{i}^{(k)}\right]_{k=1 \ldots\left|D_{i}\right|}$ , for $\ldots, N_{d}$ ，第i个掩码向量对应于第i列，每个分量都与该列的类别相关联。
2. 以相同的概率从所有 $N_d$ 离散列中随机选择一个离散列 $D_i$ 。让 $i^∗$ 成为所选列的索引。例如，在Figure 2中，所选列是 $D_2$ ，因此 $i^*=2$ 。
3. 在被选中的 $D_{i^*}$ 列，即第2列的值范围内构建PMF（概率质量函数）。每个值的概率质量是在列中频率的对数。
4. 让 $k^*$ 根据上述PMF随机选择一个值。例如，在Figure 2中，范围 $D_2$ 有两个值，第一个值被选中，所以 $k^∗$ = 1。
5. 设置第 $i^*$ 个掩码向量的第 $k^*$ 个元素为1，即 $\mathbf{m}_{i^*}^{(k^*)} = 1$ 。
6. 计算向量 $=\mathbf{m}_{1} \oplus \ldots \mathbf{m}_{i^∗} \oplus \mathbf{m}_{N_{d}}$ 。例如，在Figure 2中，我们有掩码 $m_1=[0,0,0]$ 和 $m_{2^∗} = [1,0]$ ，所以 $c o n d = [0, 0, 0, 1, 0]$ 。

网络框架

由于一行中的列没有局部结构，所以在生成器和鉴别器中使用全连接网络来捕获列之间所有可能的关联。
具体来说，在生成器和鉴别器中都使用两个全连接的隐藏层。
在生成器中使用批处理归一化和Relu激活函数。
在两个隐藏层之后，使用混合激活函数生成合成的行表示。
标量值 $\alpha_i$ 由 $t a n h$ 生成，而模式指示符 $\beta_i$ 和离散值 $\mathbf{d}_i$ 由 $g u m b e l$ $s o f t m a x$ 生成。

在鉴别器中，我们在每个隐藏层上使用 $l e a k y$ $r e l u$ 函数和 $d r o p o u t$ 。

条件生成器被正式描述为：
$\begin{cases}h_{0}=z \oplus \text { cond } & \\ h_{1}=h_{0} \oplus \operatorname{ReLU}\left(\mathrm{BN}\left(\mathrm{FC}_{\mid \text {cond }|+| z \mid \rightarrow 256}\left(h_{0}\right)\right)\right) & \\ h_{2}=h_{1} \oplus \operatorname{ReLU}\left(\mathrm{BN}\left(\mathrm{FC}_{\mid \text {cond }|+| z \mid+256 \rightarrow 256}\left(h_{1}\right)\right)\right) & \\ \hat{\alpha}_{i}=\tanh \left(\mathrm{FC}_{\mid \text {cond }|+| z \mid+512 \rightarrow 1}\left(h_{2}\right)\right) & 1 \leq i \leq N_{c} \\ \hat{\beta}_{i}=\operatorname{gumbel}_{0.2}\left(\mathrm{FC}_{\mid \text {cond }|+| z \mid+512 \rightarrow m_{i}}\left(h_{2}\right)\right) & 1 \leq i \leq N_{c} \\ \hat{\mathbf{d}}_{i}=\text { gumbel }_{0.2}\left(\mathrm{FC}_{\mid \text {cond }|+| z|+512 \rightarrow| D_{i} \mid}\left(h_{2}\right)\right) & 1 \leq i \leq N_{d}\end{cases}$

本文使用PacGAN框架，每个pac中有10个样本，以防止模式崩溃。鉴别器（pac大小为10） $C(r_1,…,r_{10},cond_1,…,cond_{10})$ 的体系结构可以正式描述为
$\left\{\begin{array}{l} h_{0}=\mathbf{r}_{1} \oplus \ldots \oplus \mathbf{r}_{10} \oplus \operatorname{cond}_{1} \oplus \ldots \oplus \operatorname{cond}_{10} \\ h_{1}=\operatorname{drop}\left(l \text { eaky }_{0.2}\left(\mathrm{FC}_{10|\mathbf{r}|+10 \mid \text { cond } \mid \rightarrow 256}\left(h_{0}\right)\right)\right) \\ h_{2}=\operatorname{drop}\left(l \text { eaky }_{0.2}\left(\mathrm{FC}_{256 \rightarrow 256}\left(h_{1}\right)\right)\right) \\ \mathcal{C}(\cdot)=\mathrm{FC}_{256 \rightarrow 1}\left(h_{2}\right) \end{array}\right.$
本文使用带梯度惩罚的WGAN损失来训练模型，Adam优化器，学习率为 $2\times10^{−4}$ 。

TVAE 模型

变分自动编码器是另一种神经网络生成模型。通过使用相同的预处理和修改损失函数，我们使VAE适应表格数据。我们称之为TVAE模型。
在TVAE中，我们使用两个神经网络来建模 $p_θ(r_j | z_j)$ 和 $q_φ(z_j | r_ j)$ ，并使用证据下限 $(E L B O)$ 损失对它们进行训练。

网络 $p_θ(r_j | z_j)$ 的设计需要以不同的方式进行，以便能够准确地建模概率。具体设计是神经网络输出 $2N_c+N_d$ 个变量的联合分布，对应于 $2N_c+N_d$ 个变量 $r_j$ 。我们假设 $α_{i,j}$ 服从具有不同均值和方差的高斯分布。所有的 $β_{i,j}$ 和 $d_{i,j}$ 都遵循一个分类的PMF。
$\left\{\begin{array}{lr} h_{1}=\operatorname{ReLU}\left(\mathrm{FC}_{128 \rightarrow 128}\left(z_{j}\right)\right) & \\ h_{2}=\operatorname{ReLU}\left(\mathrm{FC}_{128 \rightarrow 128}\left(h_{1}\right)\right) & 1 \leq i \leq N_{c} \\ \bar{\alpha}_{i, j}=\tanh \left(\mathrm{FC}_{128 \rightarrow 1}\left(h_{2}\right)\right) & 1 \leq i \leq N_{c} \\ \hat{\alpha}_{i, j} \sim \mathcal{N}\left(\bar{\alpha}_{i, j}, \delta_{i}\right) & 1 \leq i \leq N_{c} \\ \hat{\beta}_{i, j} \sim \operatorname{softmax}\left(\mathrm{FC}_{128 \rightarrow m_{i}}\left(h_{2}\right)\right) & 1 \leq i \leq N_{d} \\ \hat{\mathbf{d}}_{i, j} \sim \operatorname{softmax}\left(\mathrm{FC}_{128 \rightarrow\left|D_{i}\right|}\left(h_{2}\right)\right) & \\ p_{\theta}\left(\mathbf{r}_{j} \mid z_{j}\right)=\prod_{i=1}^{N_{c}} \mathbb{P}\left(\hat{\alpha}_{i, j}=\alpha_{i, j}\right) \prod_{i=1}^{N_{c}} \mathbb{P}\left(\hat{\beta}_{i, j}=\beta_{i, j}\right) \prod_{i=1}^{N_{d}} \mathbb{P}\left(\hat{\alpha}_{i, j}=\alpha_{i, j}\right) & \end{array}\right.$
$\hat{α}_{i,j},\hat{β}_{i,j},\hat{d}_{i,j}$ 是随机变量。 $p_θ(r_j|z_j)$ 是这些变量的联合分布。在 $p_θ(r_j|z_j)$ 中，权重矩阵和 $δ_i$ 是网络中的参数。这些参数使用梯度下降法进行训练。
对 $q_{\phi}\left(z_{j} \mid \mathbf{r}_{j}\right)$ 的建模与条件VAE相似。
$\left\{\begin{array}{l} h_{1}=\operatorname{ReLU}\left(\mathrm{FC}_{\left|\mathbf{r}_{j}\right| \rightarrow 128}\left(\mathbf{r}_{j}\right)\right) \\ h_{2}=\operatorname{ReLU}\left(\mathrm{FC}_{128 \rightarrow 128}\left(h_{1}\right)\right) \\ \mu=\mathrm{FC}_{128 \rightarrow 128}\left(h_{2}\right) \\ \sigma=\exp \left(\frac{1}{2} \mathrm{FC}_{128 \rightarrow 128}\left(h_{2}\right)\right) \\ q_{\phi}\left(z_{j} \mid \mathbf{r}_{j}\right) \sim \mathcal{N}(\mu, \sigma \mathbf{I}) \end{array}\right.$
TVAE使用Adam进行培训，学习率为1e-3。

基准测试合成数据生成算法

表格数据建模有多种深度学习方法。但所有方法及其相应的论文既没有使用相同的数据集，也没有在类似的指标下进行评估。这一事实使得比较方法具有挑战性，并且无法识别每种方法相对于表格数据建模时提出的内在挑战的弱点和优势。为了解决这个问题，我们开发了一套全面的基准测试套件。

基线和数据集

在基准测试套件中有由贝叶斯网络（CLBN、PrivBN）和当前用于合成数据生成的深度学习方法（MedGAN、VeeGAN、TableGAN）组成的基线。我们将TVAE和CTGAN与这些基线进行比较。
基准测试包含7个模拟数据集和8个真实数据集。

模拟数据：我们手工制作了一个数据 oracle $S$ 来表示已知的联合分布，然后从 $S$ 中抽取 $T_{train}$ 和 $T_{test}$ 。这个oracle是高斯混合模型或贝叶斯网络。我们生成 $G r i d$ 和 $R i n g$ 高斯混合oracle。我们将随机偏移添加到 $G r i d$ 的每个模式中，并将其称为 $G r i d R$ 。我们选取了4个著名的贝叶斯网络——alarm, child, asia, insurance——并构建了贝叶斯网络oracle。
真实数据集：我们从UCI机器学习库中选取了6个常用的以表格形式列出了特征和标签列机器学习数据集——adult, census, covertype,
intrusion和news，从Kaggle那里获得了credit。
我们还对MNIST数据集进行了28×28的二值化，并将每个样本转换为784维特征向量加上一个标签列，以模拟高维二值数据，称为MNIST28。我们将图像的大小调整为12×12，并使用相同的过程生成一个我们称为MNIST12的数据集。总之，我们的基准测试套件中有8个真实的数据集。

模拟数据集：

oracle （高斯混合模型或贝叶斯网络）
$G r i d$ 高斯混合oracle
$R i n g$ 高斯混合oracle
alarm（著名的贝叶斯网络）
child（著名的贝叶斯网络）
asia（著名的贝叶斯网络）
insurance（著名的贝叶斯网络）

真实数据集：

adult（UCI机器学习库常用数据集）
census（UCI机器学习库常用数据集）
covertype（UCI机器学习库常用数据集）
intrusion（UCI机器学习库常用数据集）
news（UCI机器学习库常用数据集）
credit（Kaggle中获取）
MNIST28（MINIST数据集二值化）
MNIST12（MINIST数据集二值化）

评估指标和框架

模拟数据的概率分布已知，可以通过似然适应度度量(Likelihood fitness metric)来评估生成的合成数据。
真实数据集，有一个机器学习任务，我们通过机器学习效率(Machine learning efficacy)评估合成数据生成方法。

Likelihood fitness metric：在模拟数据上，我们利用模拟数据oracle S来计算似然适应度度量。计算 $S$ 上 $T_{syn}$ 的似然度为 $L_{syn}$ 。 $L_{syn}$ 倾向于过拟合模型。
为了克服这个问题，使用另一个指标 $L_{test}$ 。使用 $T_{syn}$ 重新训练模拟数据oracle $S^{'}$ 。 $S^{'}$ 和 $S$ 结构相同，参数不同。如果 $S$ 是高斯混合模型，我们使用相同数量的高斯分量，并重新训练每个分量的均值和协方差。如果 $S$ 是一个贝叶斯网络，我们保持相同的图形结构，并在每条边上学习一个新的条件分布。那么 $L_{test}$ 是在 $S^{'}$ 上 $T_{test}$ 的似然度。该指标克服了 $L_{syn}$ 中的问题。它可以检测模式崩溃。但这个度量引入了不一定是用 $T_{syn}$ 编码的 $S^{'}$ 结构的先验知识。
Machine learning efficacy:真实数据集无法计算似然适应度，所以评估使用合成数据作为机器学习训练数据的性能。在 $T_{syn}$ 上训练预测模型，并使用 $T_{test}$ 测试预测模型。我们使用精确度和F1评估分类任务的性能，并使用R2评估回归任务。对于每个数据集选择在每个数据上实现合理性能的分类器或回归器。因为不试图选择最佳分类或回归模型，所以采用多个预测模型的平均性能来评估生成器G的指标。

基准结果

使用基准框架评估了CLBN、PrivBN、MedGAN、VeeGAN、TableGAN、CTGAN和TVAE。
对每个模型进行了batch_size=500的培训。
每个模型都经过300个epoch的训练。
每个epoch包含 $\frac{N}{batch\_size}$ 个步骤，其中N是训练集的行数。我们假设，对于任何数据集，除了 $L_{syn}$ 之外的任何指标， $T_{train}$ 都能实现最佳性能。因此，我们提出了输出 $T_{train}$ 的Identity方法。基准测试结果如下图所示：

对于高斯混合的模拟数据，CLBN和PrivBN因为在使用贝叶斯网络建模之前必须对连续的数值数据进行离散化会受到影响。MedGAN、VeeGAN和TableGAN由于模式崩溃会受到影响。但通过特定于模式的规范化，CTGAN模型在这些二维连续数据集上表现良好。
在贝叶斯网络的模拟数据上，CLBN和PrivBN具有天然优势。与MedGAN和TableGAN相比，CTGAN实现了略好的性能。TableGAN在这些数据集上运行良好，尽管它将离散列视为连续值。其中一个可能的原因是，在模拟数据中，大多数变量的类别少于4个，因此转换不会造成严重问题。
在真实数据集上，TVAE和CTGAN的表现优于CLBN和PrivBN，而其他GAN模型的效果不如贝叶斯网络。对于大规模真实数据集，学习高质量的贝叶斯网络是困难的。因此，基于CLBN和PrivBN合成数据训练的模型比基于真实数据训练的模型差36.1%和51.8%。
TVAE在某些情况下优于CTGAN，但GAN确实有几个有利的属性，这并不意味着我们应该总是使用VAE而不是GaN来建模表。GANs中的生成器在整个培训过程中无法访问真实数据，可以让CTGAN比TVAE更容易实现差异隐私。

消融实验

我们做了一项消融实验，以了解模型中每个组件的有用性。消融实验结果如下。

针对模式的归一化。在CTGAN中使用变分高斯混合模型（VGM）对连续列进行归一化。我们将其与
（1）GMM5：具有5个模式的高斯混合模型。
（2）GMM10：具有10个模式的高斯混合模型.
（3）最小-最大：最小-最大归一化到 $[- 1, 1]$ 。
使用GMM会略微降低性能，而最小-最大规格化的性能最差。

条件生成器和抽样训练：我们依次删除这两个组件，
（1） $w / o S$ .：我们首先在训练中禁用采样训练，但生成器仍然得到一个条件向量，其损失函数仍然具有交叉熵项。条件向量从训练数据频率而不是对数频率中采样。
（2） $w / o C$ ：进一步删除生成器中的条件向量的结果表明，采样训练和条件生成器对于不平衡数据集都至关重要。尤其是在高度不平衡的数据集（如 $c r e d i t$ ）上，消除抽样训练导致F1指标为0%。

网络架构：本文中使用WGANGP+PacGAN。将其与三种替代品进行比较，仅WGANGP、仅原始GAN损失和原始GAN+PacGAN。我们观察到，WGANP比原始GAN更适合于合成数据任务，而PacGAN有助于原始GAN的损失，但对WGANP不那么重要。

讨论

本文试图找到一个灵活和稳健的模型来学习具有复杂分布的列的分布。作者观察到现有的深度生成模型中没有一个能比将连续值离散和贪婪学习的贝叶斯网络更好。于是展示了使这项任务独特的几个特性，并提出了CTGAN模型。
从经验上看，CTGAN模型可以比贝叶斯网络更好地学习分布。针对模式归一化可以将任意范围和分布的连续值转换为适合神经网络的有界向量表示。条件生成器和采样训练可以克服训练数据不平衡的问题。此外，作者认为条件生成器可以帮助生成具有特定离散值的数据，这些离散值可用于数据扩充。
未来的工作是从理论上证明为什么GANs可以处理离散和连续数据的分布。

CTGAN训练算法

你可能感兴趣的:(shell,linux,centos)

嵌入式Linux驱动开发：从基础知识到实践精通坚持坚持那些年
本文还有配套的精品资源，点击获取简介：嵌入式Linux由于其稳定性、可定制性和丰富资源，在智能设备领域得到广泛应用。掌握嵌入式Linux驱动程序设计对于开发者至关重要。本课程从基础知识点出发，详细介绍了内核接口理解、设备树编程、I/O操作、字符与块设备驱动、网络驱动、电源管理、调试技巧、硬件抽象层、设备模型和模块化编程等关键技能，并通过实际操作实践来强化学习，帮助开发者成长为嵌入式Linux驱动开
通过SSH隧道与跳板机实现本地端口映射访问服务器文件 t.y.Tang ssh 服务器运维
文章目录场景需求一、服务器端配置1.启动HTTP文件服务2.配置防火墙3.验证服务状态二、SSH隧道建立1.直接连接场景2.通过跳板机连接三、Windows端配置1.使用PowerShell建立隧道2.保持隧道稳定四、浏览器验证五、高阶配置建议1.生产环境增强2.SSH安全加固故障排查指南原理解析场景需求在Windows浏览器访问127.0.0.1:12138自动显示服务器指定路径下的文件列表通过
Bash 脚本基础 HXQ_晴天 linux bash chrome 开发语言
一、Bash脚本基础什么是Bash脚本：Bash脚本是一种文本文件，其中包含了一系列的命令，这些命令可以被Bashshell执行。它用于自动化重复性的任务，提高工作效率。Bash脚本的基本结构：以#!/bin/bash开头，表示使用Bash解释器来执行脚本。接下来是具体的命令和操作。二、编写和运行第一个Bash脚本创建脚本文件：使用命令nanohello.sh创建名为hello.sh的文件。编写脚
linux脚本怎么访问http,如何使用现有的tcp连接从bash脚本访问http服务器？玲珑阁玉韦 linux脚本怎么访问http
在bashshellscipt中,我使用几个命令行工具(wget,curl,httpie)来测试我的http服务器.当使用例如curl调用GET请求,我看到tcp连接打开到我的服务器并在http通信完成后立即关闭.$curlhttp://10.5.1.1/favicon.ico-o/dev/null为了更好地测试我的服务器的保持活动行为,我想在多个http请求/响应周期中保持tcp连接打开.我可以
systemd-networkd NetworkManager 介绍追心嵌入式 linux
systemd-networkd和NetworkManager的详细介绍systemd-networkd和NetworkManager都是Linux系统中常用的网络管理工具，但它们的设计目标和使用场景不同。以下是它们的详细介绍、功能、使用场景和差异。1.systemd-networkdsystemd-networkd是一个由systemd提供的网络管理工具，旨在为Linux系统提供网络配置和管理的
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
如何在 Bash 中不依赖 curl 或 wget 发出 HTTP 请求并实现文件传输——/dev/tcp的妙用 vortex5 bash http tcp/ip
1.前言在Bash脚本编程中，发送HTTP请求通常依赖于像curl或wget这样的外部工具。然而，Bash本身隐藏着一个鲜为人知的功能：通过内置的/dev/tcp或/dev/udp伪设备，可以直接与网络进行交互，而无需额外安装任何工具。这个特性最初由KornShell(ksh)引入，后来被Bash继承，其设计初衷是为了方便用户通过网络发送数据，例如生成报告或执行简单的网络操作。然而，这个功能也因其
Xilinx系ZYNQ学习笔记（二）ZYNQ入门及点亮LED灯贾saisai FPGA学习学习笔记 fpga开发
系列文章目录文章目录系列文章目录前言简单介绍简称xc7z020型号FPGAZYNQ实操通用IO点亮LED灯硬件逻辑基础前言简单入门一下ZYNQ是何种架构，如何编程，至于深入了解应该要分开深入学习Linux和FPGA简单介绍其基本架构都是在同一个硅片上集成FPGA和CPU，并通过高速、高带宽的互联架构连接起来。ARM的顺序控制、丰富外设，开源驱动、FPGA的并行运算、高速接口、灵活定制、数字之王的特
Ubuntu 20.04 安装并使用Cursor 爱学习的小道长 AI ubuntu linux 运维 python ai
1.安装1.1下载cursor官网：https://www.cursor.com/cn点击下载LINUX查看下载下来的文件：$ls~/Downloads/Cursor-0.47.8-82ef0f61c01d079d1b7e5ab04d88499d5af500e3.deb.glibc2.25-x86_64.AppImage/home/xxx/Downloads/Cursor-0.47.8-82ef0
利用docker部署单节点milvus并实现图像化管理听说唐僧不吃肉 Linux docker milvus
Docker部署单机版milvus使用DockerCompose安装Milvusstandalone（即单机版），进行一个快速milvus的体验。1.前提条件系统可以使用centos或者ubuntu系统已经安装docker和docker-composemilvus版本这里选择2.3.12.启动etcd、minio、milvus由于milvus依赖etcd和minio，因此需要先启动这2个组件。同样
linux 逻辑卷LVM IT小饕餮 linux基础 linux 运维服务器
LVM（LogicalVolumeManager）逻辑卷管理是一种在Linux系统中用于管理磁盘空间的技术，它提供了一种灵活、高效的方式来管理硬盘分区和卷。以下是关于LVM逻辑管理的详细介绍：LVM的基本概念物理卷（PhysicalVolume，PV）物理卷是LVM的基本组成部分，可以是一块磁盘、也可以是一个分区。物理卷是LVM存储的基础，用于提供实际的存储空间。卷组（VolumeGroup，VG
nginx-部署Python网站项目 skyQAQLinux python linux nginx 服务器
一、部署Python网站项目实验要求配置Nginx使其可以将动态访问转交给uWSGI安装Python工具及依赖1)拷贝软件到proxy主机[root@server1~]#scp-r/linux-soft/s2/wk/python/192.168.99.5:/root2)安装python依赖软件[root@proxy~]#yum-yinstallgccmakepython3python3-devel
AWS CLI with MinIO Server 库海无涯 aws 云计算
1、InstallMinIOServerhttps://min.io/docs/minio/linux/index.htmlCreateAKandSKandrecordinformation.AK:ZYYMPcLi6dSPsDfr5QeWSK:Am3m2qtpkUk2wAgT5dPbpE4hGD2tX7a6RpjsbeEdAndcreateabucketnamedaswtest.2、Install
RK3588开发笔记-buildroot添加telnet服务 flypig哗啦啦 RK3588 buildroot busybox
目录前言一、Telnet服务背景与适用场景二、telnet服务开启Busybox配置三、固件编译及烧录RK3588烧录验证客户端连接测试3.1Linux/MacOS连接3.2Windows连接总结前言本文主要介绍在RK3588SDK文件包中添加telnet服务，由于sdkbuildroot默认添加的是ssh服务，如用户需要主动开启telnet，则需要另外在busybox中开启telnetd服务，下
Docker build 报错 “ Cannot find a valid baseurl for repo: base/7/x86_64 ” 解决 EricLi404 linux Docker centos yum docker centos7 linux
错误内容dockerbuild阶段报错如下：SendingbuildcontexttoDockerdaemon2.048kBStep1/3:FROMcentos:7--->8652b9f0cb4cStep2/3:RUNyum-yupdate--->Runningin4e4e11d880f3Loadedplugins:fastestmirror,ovlDeterminingfastestmirror
安卓 vs iOS 文件系统深度解析：开放自由与封闭安全的终极博弈 jingling1007 Android android ios 安全安全性测试
安卓和iOS的差异远不止于界面和生态，它们的文件系统设计更是体现了两种截然不同的技术哲学。安卓的开放目录允许用户“为所欲为”，而iOS的沙盒机制则像一座密不透风的堡垒。本文将通过技术细节对比、真实场景案例、用户操作指南，深度剖析两大系统的核心设计，回答一个关键问题：谁的设计更能平衡自由与安全？一、文件系统架构：从根目录到沙盒1.安卓：Linux的开放基因目录结构全景根目录（/）：包含所有系统层级（
Linux线程控制封装及线程互斥 z一一m Linux linux
1.clone函数的使用#define_GNU_SOURCE#include#includeintclone(int(*fn)(void*),void*child_stack,intflags,void*arg,...);fn：子进程或线程的入口函数child_stack：子进程的栈地址，通常需要手动分配，栈的大小需要足够容纳子进程变量的局部变量和函数调用。flags：控制子进程或线程共享哪些资源
解决Centos使用yum命令报错“Cannot find a valid baseurl for repo: base/7/x86_64”问题牛奶咖啡13 运维/测试 centos linux 解决Centos仓库源失效 InfluxDB作服务失败问题 [Errno 256]HTTPS Error 404
一、问题描述我们在使用Centos7.9使用【sudoyuminstallinfluxdb2】命令安装influxDB数据库的时候提示“LoadingmirrorspeedsfromcachedhostfileCouldnotretrievemirrorlisthttp://mirrorlist.centos.org/release=7&arch=x86_64&repo=os&infra=stoc
Docker-部署ES和Kibana 相逢太短，莫等茶凉 docker elasticsearch mac
资料kibana和elasticserch兼容性表https://www.elastic.co/cn/support/matrix#matrix_compatibilityMac系统安装需要版本支持linux/arm64，需要两个都要支持有arm64，有些es支持，kibana不支持。ps:dockerpullelasticsearch出现elasticsearch:latestnotfound，
Linux——Linux系统编程之基于TFTP实现服务器与开发板间的文件传输实战总结 Winter_world Linux系统 TFTP服务器搭建 TFTP文件传输
目录0引言1TFTP服务器搭建1.1TFTP基础1.2Ubuntu搭建TFTP服务器1.3测试TFTP服务器2开发板实现TFTP文件传输2.1同一网段2.2配置2.3客户端与服务器的通信0引言我们前面总结的Linux字符设备、串口编程博文中，在虚拟机中编译得到可执行文件后，都是通过U盘连接开发板进行测试验证的，或者就是把可执行文件编译到最小系统中，再OTG烧写进开发板，这两种方法都比较麻烦，这里我
centos 7 安装docker-compose
1.下载docker-compose#官方推荐（太慢）curl-L"https://github.com/docker/compose/releases/download/1.26.2/docker-compose-$(uname-s)-$(uname-m)"-o/usr/local/bin/docker-compose#国内（更快）curl-Lhttps://get.daocloud.io/do
宝塔安装mayfly-go mayans005 数据库
mayfly-go:web版linux(终端文件脚本进程)、数据库(mysqlpgsql)、redis(单机哨兵集群)、mongo统一管理操作平台。1、终端执行命令下载程序包wgethttps://gitee.com/objs/mayfly-go/releases/download/v1.3.0/mayfly-go-linux-amd64.zip2、在宝塔新建一个MySQL数据库，将下载程序包中的
开源项目推荐：Mayfly-go 周风队
开源项目推荐：Mayfly-gomayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-goMayfly-go是一个基于浏览器的统一管理操作平台，它支持多种数据库和系统管理功能。该项目主要使用Go语言和前端框架
推荐项目：Mayfly-Go - 高性能的时间序列数据库齐游菊Rosemary
推荐项目：Mayfly-Go-高性能的时间序列数据库mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目简介是一款由Dromara团队开发的高性能、轻量级时间序列数据库（TimeSeriesData
Mayfly-Go 开源项目教程方蕾嫒Falcon
Mayfly-Go开源项目教程mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目介绍Mayfly-Go是一个基于Go语言开发的开源项目，旨在提供一个轻量级、高性能的微服务框架。该项目由Dromar
linux+docker安装常见中间件+shell学习笔记芦屋花绘 linux docker 中间件
初始设置下载虚拟机软件：选择适合的虚拟机软件（如VirtualBox或VMware）。下载操作系统ISO映像文件：选择并下载你想安装的Linux发行版（例如Ubuntu、CentOS等）的ISO文件。ISO映像文件：是包含了完整光盘内容的文件，包含引导记录、文件系统、数据文件和目录结构。导入ISO文件到虚拟机，并进行相关配置，如分配内存、硬盘空间等。了解基本linuxLinux常见目录及其用途Li
文件系统（File System — FS）夏L. linux 运维服务器
概念文件系统是Linux内部用来管理磁盘上文件的一套系统，主要体现在文件的存取、查找功能（本身是一套软件，对磁盘上存放的文件进行管理）。内核（Kernel）内核是操作系统内部最核心的软件。查看内核版本uname-r内核作用对CPU进行调度管理对内存进行分配管理对进程进行管理对文件系统进行管理对其他硬件进行管理内核中XFS文件系统存放地址/usr/lib/modules/3.10.0-1160.el
[ Linux 命令基础 ] Linux 命令大全-命令前置知识-系统管理-文件和目录管理-文本处理命令-网络管理命令-权限和用户管理命令-磁盘管理命令 _PowerShell shell脚本入门到精通 Linux 命令大全 linux命令前置知识 linux系统管理 linux文件和目录管理 linux文本处理命令 linux网络管理命令 linux权限和用户管理命令
博主介绍‍博主介绍：大家好，我是_PowerShell，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！我们搞网络安全需要经常用到linux命令，比用拿到linux的shell，需要使用linux命令。再比如sh脚本，我们经常
根据文件名称查询文件所在位置姚不倒 linux 运维数据库
在Linux中，根据文件名称查询文件所在位置主要通过命令行工具实现，以下是几种常用方法：---###**1.使用`find`命令（最灵活）**`find`命令可以递归搜索指定目录下的文件，支持按名称、类型、时间等条件过滤。####**基础语法**```bashfind[搜索路径]-name"文件名"```####**示例**-全局搜索名为`example.txt`的文件：```bashfind/-
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio