嵌入式视觉

深度学习-第三章概率与信息论

前言
- 概率论学科定义
- 概率与信息论在人工智能领域的应用
3.1，为什么要使用概率论
3.2，随机变量
3.3，概率分布
- 3.3.1，离散型变量和概率质量函数
- 3.3.2，连续型变量和概率密度分布函数
3.4，边缘概率
3.5，条件概率
- 3.5.1，条件概率的链式法则
- 3.6，独立性和条件独立性
3.7，条件概率、联合概率和边缘概率总结
3.8，期望、方差和协方差
- 3.8.1，期望
  - 期望数学定义
  - 期望应用
- 3.8.2，方差
  - 方差数学定义
  - 总体方差数学定义
- 3.8.3，期望与方差的运算性质
- 3.8.4，协方差
  - 协方差数学定义
3.9，常用概率分布
- 3.9.1，伯努利分布
- 3.9.2，Multinoulli 分布
- 3.9.3，高斯分布
- 3.9.4，指数分布和 Laplace 分布
3.10，常用函数的有用性质
3.11，贝叶斯定理
- 3.11.1，贝叶斯定理公式
- 3.11.2，贝叶斯理论与概率密度函数
3.12，连续型变量的技术细节
3.13，信息论-相对熵和交叉熵
3.14，结构化概率模型
参考资料

本文首发于 github。最新版以 github 为主。如果看完文章有所收获，一定要先点赞后收藏。毕竟，赠人玫瑰，手有余香。

本文内容大多来自《深度学习》（花书）第三章概率与信息论。目录的生成是参考此篇文章。

前言

概率论学科定义

概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法，也提供了用于导出新的不确定性声明（statement）的公理。概率论的知识在机器学习和深度学习领域都有广泛应用，是学习这两门学科的基础。

概率与信息论在人工智能领域的应用

在人工智能领域，概率论主要有两种用途。

首先，概率定律告诉我们 AI 系统应该如何推理，基于此我们设计一些算法来计算或者估算由概率论导出的表达式。
其次，我们可以用概率和统计从理论上分析我们提出的 AI 系统的行为。

虽然概率论允许我们在存在不确定性的情况下做出不确定的陈述和推理，但信息论允许我们量化概率分布中不确定性的数量。

3.1，为什么要使用概率论

这是因为机器学习必须始终处理不确定的量，有时可能还需要处理随机（非确定性）的量，这里的不确定性和随机性可能来自多个方面。而使用使用概率论来量化不确定性的论据，是来源于 20 世纪 80 年代的 Pearl (1988) 的工作。

不确定性有三种可能的来源:

被建模系统内在的随机性。
不完全观测。
不完全建模：使用了一些必须舍弃某些观测信息的模型。

3.2，随机变量

随机变量（random variable）是可以随机地取不同值的变量，它可以是离散或者连续的。

离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数; 它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。注意，随机变量只是对可能状态的描述；它必须与指定这些状态中的每一个的可能性的概率分布相结合。

我们通常用无格式字体 (plain typeface) 中的小写字母来表示随机变量本身，而用手写体中的小写字母来表示随机变量能够取到的值。例如， $x_1$ 和 $x_2$ 都是随机变量 $\textrm{x}$ 可能的取值。对于向量值变量，我们会将随机变量写成 $\mathbf{x}$ ，它的一个可能取值为 $\boldsymbol{x}$ 。

中文维基百科用 $X$ 表示随机变量，用 $f_{X}(x)$ 表示概率密度函数，本文笔记，不同小节内容两者混用。

3.3，概率分布

概率分布（probability distribution）是用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。

如果狭义地讲，它是指随机变量的概率分布函数。具有相同概率分布函数的随机变量一定是相同分布的。连续型和离散型随机变量的概率分布描述方式是不同的。

3.3.1，离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数（probability mass function, PMF，也称概率密度函数）来描述。我们通常用大写字母 $P$ 来表示概率质量函数，用 $\textrm{x} \sim P(\textrm{x})$ 表示随机变量 $\textrm{x}$ 遵循的分布。

虽然通常每一个随机变量都会有一个不同的概率质量函数，但是概率质量函数也可以同时作用于多个随机变量，这种多个变量的概率分布被称为联合概率分布（joint probability distribution）。 $P(\textrm{x} = x, \textrm{y} = y)$ 表示 $\textrm{x} = x$ 和 $\textrm{y} = y$ 同时发生的概率，有时也可简写为 $P (x ， y)$ 。

如果一个函数 $P$ 是随机变量 $\textrm{x}$ 的 PMF，必须满足以下条件：

$P$ 的定义域必须是 $\textrm{x}$ 所有可能状态的集合。
$\forall x \in \textrm{x}, 0 \leq P(x)\leq 1$ 。不可能发生的事件概率为 0，能够确保一定发生的事件概率为 1。
$\sum_{x \in \textrm{x}}P(x)=1$ ，归一化（normalized）。

常见的离散概率分布族有：

伯努利分布
二项分布：一般用二项分布来计算概率的前提是，每次抽出样品后再放回去，并且只能有两种试验结果，比如黑球或红球，正品或次品等。
几何分布
Poisson 分布（泊松分布）：Poisson 近似是二项分布的一种极限形式。
离散均匀分布：即对于随机变量 $\textrm{x}$ ，因为其是均匀分布(uniform distribution)，所以它的 PMF 为 $P(\textrm{x}=x_{i}) = \frac{1}{k}$ ，同时 $\sum_{i}P(\textrm{x} = x_{i}) = \sum_{i}\frac{1}{k} = \frac{k}{k} = 1$ 。

3.3.2，连续型变量和概率密度分布函数

连续型随机变量的概率分布可以用概率密度函数（probability desity function, PDF）来描述。

通常用小写字母 $p$ 来表示随机变量 $\textrm{x}$ 的概率密度函数 PDF，其必须满足以下条件：

$p$ 的定义域必须是 $\textrm{x}$ 所有可能状态的集合。
$\forall x \in \textrm{x}, p(x)\geq 0$ 。注意，并不要求 $p(x)\leq 1$ 。
$\int p(x)dx=1$ 。

概率密度函数 $p (x)$ 给出的是落在面积为 $\delta x$ 的无限小的区域内的概率为 $p(x)\delta x$ 。

因此，我们可以对概率密度函数求积分来获得点集的真实概率质量。特别地， $x$ 落在集合 $\mathbb{S}$ 中的概率可以通过 $p (x)$ 对这个集合求积分来得到。在单变量的例子中， $x$ 落在区间 $[a, b]$ 的概率是 $\int_{[a,b]}p(x)dx$ 。

常见的连续概率分布族有：

均匀分布
正态分布：连续型随机变量的概率密度函数如下所示。其密度函数的曲线呈对称钟形，因此又被称之为钟形曲线，其中 $\mu$ 是平均值， $\sigma$ 是标准差。正态分布是一种理想分布。 ${f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\left(-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}\right)}}$
伽玛分布
指数分布

3.4，边缘概率

边缘概率好像应用并不多，所以这里理解定义和概念即可。
边缘概率的通俗理解描述，来源于数学篇 - 概率之联合概率、条件概率、边缘概率和贝叶斯法则(笔记)。

有时候，我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution)。

对于离散型随机变量 $\textrm{x}$ 和 $\textrm{y}$ ，知道 $P(\textrm{x}, \textrm{y})$ ，可以依据下面的求和法则（sum rule）来计算边缘概率 $P(\textrm{x})$ ：

$\forall x \in \textrm{x},P(\textrm{x}=x)=\sum_{y}P(\textrm{x}=x, \textrm{y}=y)$

“边缘概率”的名称来源于手算边缘概率的计算过程。当 $P (x, y)$ 的每个值被写在由每行表示不同的 $x$ 值，每列表示不同的 $y$ 值形成的网格中时，对网格中的每行求和是很自然的事情，然后将求和的结果 $P (x)$ 写在每行右边的纸的边缘处。

连续性变量的边缘概率则用积分代替求和：

$\int p(x,y)dy$

3.5，条件概率

条件概率（conditional probability）就是事件 A 在事件 B 发生的条件下发生的概率，表示为 $P (A ∣ B)$ 。

设 $A$ 与 $B$ 为样本空间 Ω 中的两个事件，其中 $P (B) > 0$ 。那么在事件 $B$ 发生的条件下，事件 $A$ 发生的条件概率为：

$P(A|B)={\frac {P(A\cap B)}{P(B)}}$

花书中期望的条件概率定义（表达式不一样，但意义是一样的，维基百科的定义更容易理解名字意义，花书中的公式更多的是从数学中表达）:

将给定 $\textrm{x} = x$ 时， $\textrm{y} = y$ 发生的条件概率记为 $P(\textrm{y} = y|\textrm{x} = x)$ ，这个条件概率的计算公式如下：
$P(\textrm{y}=y|\textrm{x}=x)=\frac{P(\textrm{y}=y, \textrm{x}=x)}{P(\textrm{x}=x)}$
条件概率只在 $P(\textrm{x}=x)\geq 0$ 时有定义，即是不能计算以从未发生的事件为条件的条件概率。

3.5.1，条件概率的链式法则

任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式，这个规则被称为概率的链式法则（chain rule）。条件概率的链式法则如下:

$\\ P(b,c) = P(b|c)P(c) \\ P(a,b,c) = P(s|b,c)P(b|c)P(c)$

3.6，独立性和条件独立性

两个随机变量 $\textrm{x}$ 和 $\textrm{y}$ ，如果它们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含 $\textrm{x}$ 另一个因子只包含 $\textrm{y}$ ，我们就称这两个随机变量是相互独立的（independent）：

$\forall x \in \textrm{x},y \in \textrm{y},p(\textrm{x}=x, \textrm{y}=y)=p(\textrm{x}=x)p(\textrm{y}=y)$

两个相互独立的随机变量同时发生的概率可以通过各自发生的概率的乘积得到。

如果关于 $x$ 和 $y$ 的条件概率分布对于 $z$ 的每一个值都可以写成乘积的形式，那么这两个随机变量 $x$ 和 $y$ 在给定随机变量 $z$ 时是条件独立的(conditionally independent):

$\forall x \in ,y \in \textrm{y},z \in \textrm{z}, p(\textrm{x}=x, \textrm{y}=y|z \in \textrm{z})= p(\textrm{x}=x|z \in \textrm{z})p(\textrm{y}=y|z \in \textrm{z})$

采用一种简化形式来表示独立性和条件独立性: $\textrm{x}\perp \textrm{y}$ 表示 $\textrm{x}$ 和 $\textrm{y}$ 相互独立， $\textrm{x}\perp \textrm{y}|\textrm{z}$ 表示 $\textrm{x}$ 和 $\textrm{y}$ 在给定 $\textrm{z}$ 时条件独立。

3.7，条件概率、联合概率和边缘概率总结

条件概率（conditional probability）就是事件 A 在事件 B 发生的条件下发生的概率。条件概率表示为 $P (A ∣ B)$ ，读作“A 在 B 发生的条件下发生的概率”。
联合概率表示两个事件共同发生的概率。A 与 B 的联合概率表示为 $P(A\cap B)$ 或者 $P (A, B)$ 或者 $P (A B)$ 。
仅与单个随机变量有关的概率称为边缘概率。

3.8，期望、方差和协方差

为了便于理解，本章中的数学公式描述采用中文维基百科中的定义。

在概率分布中，期望值和方差或标准差是一种分布的重要特征，期望、数学期望、均值都是一个意思。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数，其意义和概率分布中的方差是不一样的。

3.8.1，期望

在概率论和统计学中，一个离散性随机变量的期望值（或数学期望，亦简称期望，物理学中称为期待值）是试验中每次可能的结果乘以其结果概率的总和。换句话说，期望值像是随机试验在同样的机会下重复多次，所有那些可能状态平均的结果，也可理解为该变量输出值的加权平均。

期望数学定义

如果 $X$ 是在概率空间 $(\Omega ,F,P)$ 中的随机变量，那么它的期望值 $\operatorname{E}(X)$ 的定义是：

$\operatorname {E}(X)=\int_{\Omega }X {d}P$

并不是每一个随机变量都有期望值的，因为有的时候上述积分不存在。如果两个随机变量的分布相同，则它们的期望值也相同。

1，如果 $X$ 是离散的随机变量，输出值为 $x_{1},x_{2},\ldots x_{1},x_{2},\ldots$ ，和输出值相应的概率为 ${\displaystyle p_{1},p_{2},\ldots }p_{1},p_{2},\ldots$ （概率和为 1）。

若级数 $\sum_{i}p_{i}x_{i}$ 绝对收敛，那么期望值 $\operatorname {E}(X)$ 是一个无限数列的和。

$\operatorname {E}(X)=\sum_{i}p_{i}x_{i}$

2，如果 $X$ 是连续的随机变量，且存在一个相应的概率密度函数 $f (x)$ ，若积分 $\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x$ 绝对收敛，那么 $X$ 的期望值可以计算为：

$\operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x$

虽然是针对于连续的随机变量的，但与离散随机变量的期望值的计算算法却同出一辙，由于输出值是连续的，所以只是把求和改成了积分。

期望值 $E$ 是线性函数:

$\operatorname {E}(aX+bY)=a\operatorname {E}(X)+b\operatorname {E}(Y)$

$X$ 和 $Y$ 为在同一概率空间的两个随机变量（可以独立或者非独立）， $a$ 和 $b$ 为任意实数。

花书中期望的数学定义（表达式不一样，但意义是一样的）:

1，某个函数 $f (x)$ 相对于概率分布 $P (x)$ 的期望或期望值是当从 $P$ 中抽取 $x$ 时 $f$ 所取的平均或平均值。对于离散型随机变量，期望可以通过求和得到：
$\mathbb{E}_{\textrm{x}\sim P}[f(x)] = \sum_{x} P(x)f(x)$

2，对于连续型随机变量可以通过求积分得到：
$\mathbb {E}_{\textrm{x}\sim p}[f(x)] = \int p(x)f(x)dx$

期望应用

在统计学中，估算变量的期望值时，经常用到的方法是重复测量此变量的值，再用所得数据的平均值来估计此变量的期望值。
在概率分布中，期望值和方差或标准差是一种分布的重要特征。

3.8.2，方差

在概率论和统计学中，方差（英语：variance）又称变异数、变方，描述的是一个随机变量的离散程度，即该变量离其期望值的距离，是随机变量与其总体均值或样本均值的离差的平方的期望值。

方差差是标准差的平方、分布的二阶矩，以及随机变量与其自身的协方差，其常用的符号表示有 $\sigma^2$ 、 $s^2$ 、 $\operatorname {Var} (X)$ 、 $\displaystyle V(X)$ ，以及 $\displaystyle \mathbb {V} (X)$ 。

方差作为离散度量的优点是，它比其他离散度量（如平均差）更易于代数运算，但缺点是它与随机变量的单位不同，而标准差则单位相同，这就是计算完成后通常采用标准差来衡量离散程度的原因。

方差的正平方根称为该随机变量的标准差。

有两个不同的概念都被称为“方差”。一种如上所述，是理论概率分布的方差。而另一种方差是一组观测值的特征，分别是总体方差（所有可能的观测）和样本方差（总体的一个子集）。

方差数学定义

设 $X$ 为服从分布 $F$ 的随机变量，如果 $\operatorname{E}[X]$ 是随机变量 $X$ 的期望值（均值 $\mu=\operatorname{E}[X]$ ），则随机变量 $X$ 或者分布 $F$ 的方差为 $X$ 的离差平方的期望值:

$\operatorname{E}(X) = \operatorname{E}[(X - \mu)]^2 = \operatorname{E}[X - \operatorname{E}(X)]^2$

方差的表达式可展开如下：

${\begin{aligned}\operatorname {Var} (X) &=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt] &=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt] &=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt] &=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}$

也就是说， $X$ 的方差等于 $X$ 平方的均值减去 $X$ 均值的平方。

总体方差数学定义

一般而言，一个有限的容量为 $N$ 、元素的值为 $x_{i}$ 的总体的总体方差为：

${\begin{aligned} \sigma ^{2}&={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2} \end{aligned}}$

花书中方差的定义: 方差（variance）衡量的是当我们对 $x$ 依据它的概率分布进行采样时，随机变量 $\textrm{x}$ 的函数值会呈现多大的差异，或者说一个随机变量的方差描述的是它的离散程度，也就是该变量离其期望值的距离。方差定义如下：
$\mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2]$

3.8.3，期望与方差的运算性质

期望与方差运算性质如下:

来源: 知乎文章-【AP统计】期望E(X)与方差Var(X)。

3.8.4，协方差

协方差也叫共变异数（英语：Covariance），在概率论与统计学中用于衡量两个随机变量的联合变化程度。

协方差数学定义

期望值分别为 $\operatorname E(X)=\mu$ 与 $\operatorname E(Y)=\nu$ 的两个具有有限二阶矩的实数随机变量 $X$ 与 $Y$ 之间的协方差定义为：

$\operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu )(Y-\nu ))=\operatorname {E} (X\cdot Y)-\mu \nu$

协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。

协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得相对较小的值，反之亦然。其他的衡量指标如相关系数(correlation)将每个变量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响。

3.9，常用概率分布

下表列出了一些常用概率分布的方差。

3.9.1，伯努利分布

伯努利分布（英语：Bernoulli distribution），又名两点分布或者 0-1 分布，是一个离散型概率分布，为纪念瑞士科学家雅各布·伯努利而命名。若伯努利试验成功，则伯努利随机变量取值为 1。若伯努利试验失败，则伯努利随机变量取值为 0。记其成功概率为 $0\leq p\leq 1$ ，失败概率为 $q = 1 - p$ 。其有如下性质:

其概率质量函数为:
- $f_{X}(x) = p^{x}(1-p)^{1-x} = \left\{\begin{matrix} p \quad if \;x = 1 \\ 1-p \quad if \; x = 0 \end{matrix}\right.$
其期望值为:
- $\operatorname {E} [X] = \sum_{i=0}^{1} x_{i}f_X(x) = 0 + p = p$
其方差为:
- $\sum_{i=0}^{1} (x_{i}-\operatorname {E} [X])^2f_{X}(x) = (0-P)^2(1-P) + (1-P)^2P = p(1-p) = pq$

3.9.2，Multinoulli 分布

Multinoulli 分布(多项式分布，也叫范畴分布 categorical dis- tribution)是一种离散概率分布，它描述了随机变量的可能结果，该随机变量可以采用 $k$ 个可能类别之一，概率为每个类别分别指定，其中 $k$ 是一个有限值。

3.9.3，高斯分布

有几种不同的方法用来说明一个随机变量。最直观的方法是概率密度函数，这种方法能够表示随机变量每个取值有多大的可能性。

高斯分布 Gaussian distribution（也称正态分布 Normal distribution）是一个非常常见的连续概率分布。高斯分布在统计学上十分重要，经常用在自然和社会科学来代表一个不确定的随机变量。

若随机变量 $X$ 服从一个位置参数为 $\mu$ 、尺度参数为 $\sigma$ 的正态分布，记为：

$\sim N(\mu,\sigma^2)$

则其概率密度函数为 $f(x;\mu, \sigma) = \frac {1}{\sigma {\sqrt {2\pi }}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}$

正态分布的数学期望值 $\mu$ 等于位置参数，决定了分布的位置；其方差 $\sigma^2$ 的开平方或标准差 $\sigma$ 等于尺度参数，决定了分布的幅度。

正态分布概率密度函数曲线呈钟形，也称之为钟形曲线（类似于寺庙里的大钟，因此得名）。我们通常所说的标准常态分布是位置参数 $\mu = 0$ ，尺度参数 $\sigma ^{2} = 1$ 的正态分布（见右图中红色曲线）。

采用正态分布在很多应用中都是一个明智的选择。当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时，正态分布是默认的比较好的选择，其中有两个原因。

第一，我们想要建模的很多分布的真实情况是比较接近正态分布的。
第二，在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最的不确定性。因此，我们可以认为正态分布是对模型加入的先验知识量最少的分布。

3.9.4，指数分布和 Laplace 分布

在概率论和统计学中，指数分布（Exponential distribution）是一种连续概率分布，表示一个在 $x = 0$ 点处取得边界点 (sharp point) 的分布，其使用指示函数(indicator function) $1_{x\geq0}$ 来使得当 $x$ 取负值时的概率为零。指数分布可以等同于形状母数 $\alpha$ 为 $1$ 的伽玛分布。

指数分布可以用来表示独立随机事件发生的时间间隔，比如旅客进入机场的时间间隔、电话打进客服中心的时间间隔等。

若随机变量 $X$ 服从母数为 $\lambda$ 或 $\beta$ 的指数分布，则记作

$X\sim {\text{Exp}}(\lambda )$ 或 $X\sim {\text{Exp}}(\beta )$

两者意义相同，只是 $\lambda$ 与 $\beta$ 互为倒数关系。指数分布的概率密度函数为：

$f(x;{\color {Red}\lambda })=\left\{{\begin{matrix}{\color {Red}\lambda }e^{-{\color {Red}\lambda }x}&x\geq 0,\\0&,\;x<0.\end{matrix}}\right.$

指数分配概率密度函数曲线如下所示。

3.10，常用函数的有用性质

深度学习中的概率分布有一些经常出现的函数，比如 logistic sigmoid 函数:

$\sigma(x) = \frac{1}{1+exp(-x)}$

logistic sigmoid 函数通常用来产生伯努利分布的参数 $p$ ，因为它的范围是 $(0, 1)$ ，位于 $p$ 参数值的有效范围内。下图 3.3 给出了 sigmoid 函数的图示。从图中可以明显看出，sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和(saturate)现象，意味着函数会变得很平，并且对输入的微小改变会变得不敏感。

sigmoid 函数的一些性质在后续学习 BP 算法等内容时会很有用，我们需要牢记：

$\sigma(x) = \frac{exp(x)}{exp(x)+exp(0)} \\ \frac{d}{dx}\sigma(x) = \sigma(x)(1 - \sigma(x)) \\ 1 - \sigma(x) = \sigma(-x)$

3.11，贝叶斯定理

本小节只是简单介绍基本概念和公式，更全面和深入的理解建议看《机器学习》书籍。

贝叶斯定理（英语：Bayes' theorem）是概率论中的一个定理，描述在已知一些条件下，某事件的发生概率。比如，如果已知某种健康问题与寿命有关，使用贝叶斯定理则可以通过得知某人年龄，来更加准确地计算出某人有某种健康问题的概率。

通常，事件 A 在事件 B 已发生的条件下发生的概率，与事件 B 在事件 A 已发生的条件下发生的概率是不一样的。但是，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途，即透过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边际概率分布有关。

作为一个普遍的原理，贝叶斯定理对于所有概率的解释是有效的。这一定理的主要应用为贝叶斯推断，是推论统计学中的一种推断法。这一定理名称来自于托马斯·贝叶斯。

来源中文维基百科-贝叶斯定理

3.11.1，贝叶斯定理公式

贝叶斯定理是关于随机事件 A 和 B 的条件概率的一则定理。

$P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}$

其中 A 以及 B 为随机事件，且 $P (B)$ 不为零。 $P(A\mid B)$ 是指在事件 B 发生的情况下事件 A 发生的概率。

在贝叶斯定理中，每个名词都有约定俗成的名称：

$P(A\mid B)$ 是已知 B 发生后，A 的条件概率。也称作 A 的事后概率。
$P (A)$ 是 A 的先验概率（或边缘概率）。其不考虑任何 B 方面的因素。
$P(B\mid A)$ 是已知 A 发生后，B 的条件概率。也可称为 B 的后验概率。某些文献又称其为在特定 B 时，A 的似然性，因为 $P(B\mid A)=L(A\mid B)$ 。
$P (B)$ 是 B 的先验概率。

3.11.2，贝叶斯理论与概率密度函数

贝叶斯理论亦可用于概率分布，贝叶斯理论与概率密度的关系是由求极限的方式建立：

$P(\textrm{x}|\textrm{y}) = \frac{P(\textrm{x})P(\textrm{y}|\textrm{x})}{P(\textrm{y})}$

注意到 $P (y)$ 出现在上面的公式中，它通常使用 $P(\textrm{y}) = \sum_{x} P(\textrm{y}|x)P(x)$ 来计算所以我们并不需要事先知道 $P(\textrm{y})$ 的信息。

中文维基百科中贝叶斯理论与概率密度关系定义:
$f(x|y)={\frac {f(x,y)}{f(y)}}={\frac {f(y|x)\,f(x)}{f(y)}}$

3.12，连续型变量的技术细节

连续型随机变量和概率密度函数的深入理解需要用到数学分支测度论(measure theory)的相关内容来扩展概率论，测度论超出了本书范畴。

原书中有测度论的简要介绍，本笔记不做记录和摘抄，感兴趣的可以阅读原书。

3.13，信息论-相对熵和交叉熵

信息论是应用数学、电子学和计算机科学的一个分支，早期备用在无线通信领域。在深度学习中，主要是使用信息论的一些关键思想来表征(characterize)概率分布或者量化概率分布之间的相似性。

信息论的基本想法是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息。

自信息只处理单个的输出。我们可以用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:

$H(\textrm{x}) = E_{x∼P}[I(x)] = −E_{x∼P}[log P(x)]$

换句话说，一个概率分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。

如果我们对于同一个随机变量 $\textrm{x}$ 有两个单独的概率分布 $P (x)$ 和 $Q (x)$ ，则可以用 KL 散度（ Kullback-Leibler (KL) divergence，也叫相对熵）来衡量这两个概率分布的差异：

$D_{KL}(P\parallel Q) = \mathbb{E}_{\textrm{x}\sim p}\begin{bmatrix} log \frac{P(x)}{Q(x)} \end{bmatrix} = \mathbb{E}_{\textrm{x}\sim p}[log P(x) - log Q(x)]$

KL 散度有很多有用的性质，最重要的是它是非负的。KL 散度为 0 当且仅当 $P$ 和 $Q$ 在离散型变量的情况下是相同的概率分布，或者在连续型变量的情况下是 “几乎处处” 相同的。

一个和 KL 散度密切联系的量是交叉熵(cross-entropy) $H(P, Q) = H(P) + D_{KL}(P||Q)$ ，其计算公式如下:

$-\mathbb{E}_{\textrm{x}\sim p}log Q(x)$

和 KL 散度相比，少了左边一项，即熵 $H (P)$ 。可以看出，最小化 KL 散度（交叉熵）其实就是在最小化分布之间的交叉熵（KL 散度）。

上式的写法是在前面所学内容数学期望的基础上给出的，还有一个写法是《机器学习-周志华》书中附录 C 中给出的公式，更为直观理解：
$KL(P\parallel Q) = \int_{-\infty }^{+\infty} p(x)log \frac{p(x)}{q(x)} dx$
其中 $p (x)$ 和 $q (x)$ 分别为 $P$ 和 $Q$ 的概率密度函数。
这里假设两个分布均为连续型概率分布，对于离散型概率分布，只需要将积分替换为对所有离散值遍历求和。

KL 散度满足非负性和不满足对称性。将上式展开可得：
$\text{KL 散度} KL(P\parallel Q) = \int_{-\infty }^{+\infty}p(x)logp(x)dx - \int_{-\infty }^{+\infty}p(x) logq(x)dx = -H(P) + H(P,Q)$
$\text{交叉熵} H(P,Q) = \mathbb{E}_{\textrm{x}\sim p} log Q(x) = - \int_{-\infty }^{+\infty} p(x) logq(x)dx$

其中， $H (P)$ 为熵（entropy）， $H (P, Q)$ 为交叉熵（cross entropy）。

在信息论中，熵 $H (P)$ 表示对来自 $P$ 的随机遍历进行编码所需的最小字节数，而交叉熵 $H (P, Q)$ 表示使用 $Q$ 的编码对来自 $P$ 的变量进行编码所需的字节数。因此 KL 散度可认为是使用基于 $Q$ 的编码对来自 $P$ 的变量进行编码所需的“额外字节数”；显然，额外字节数非负，当且仅当 $P = Q$ 时额外字节数为 0。

3.14，结构化概率模型

略

参考资料

https://zh.m.wikipedia.org/zh-hans/%E6%96%B9%E5%B7%AE#
《深度学习》
《机器学习》

你可能感兴趣的:(深度学习,随机变量,概率密度分布函数,期望与方差,KL,散度和交叉熵,高斯分布)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数