不牌不改

【机器学习】EM 算法

在本文中规定，下凸函数为类似于 $f(x)=x^2$ 的函数，上凸函数为类似于 $f(x)=-x^2$ 的函数， $f (x) = k x + b$ 这类线性函数既属于下凸函数又属于上凸函数，除去线性函数的下凸（或上凸）函数称为严格下凸（或上凸）函数。

Jensen 不等式

定义

若 $f (x)$ 是区间 $[a, b]$ 上的上凸函数，则对于任意的 $x_1,x_2,\dots,x_n\in[a,b]$ ，有不等式
$\frac{\sum_{i=1}^nf(x_i)}{n}\le f\left( \frac{\sum_{i=1}^nx_i}{n} \right)$
当且仅当 $x_1=x_2=\dots=x_n$ 时等号恒成立。

更一般地，如果函数 $f (\cdot)$ 在函数 $g (\cdot)$ 的值域范围内是上凸的，不妨在 $g (\cdot)$ 的定义域内选取 $n$ 个值 $\{x_1,x_2,\dots,x_n\}$ ，那么
$\sum_{i=1}^n \lambda_i f(g(x_i)) \le f\left( \sum_{i=1}^n \lambda_ig(x_i)\right) \tag{1}$
其中， $\lambda_i\ge0$ 且 $\sum\limits_{i=1}^n \lambda_i=1$ 。式 $(1)$ 被称为 Jensen 不等式（Jensen inequality）的一般形式。

式 $(1)$ 也存在积分形式，这里不再列出。

当我们不考虑函数 $g (\cdot)$ 或者认为 $g (\cdot) = \cdot$ 时，式 $(1)$ 可以化为
$\sum_{i=1}^n \lambda_i f(x_i) \le f\left( \sum_{i=1}^n \lambda_ix_i\right)\tag{2}$
不妨认为 $\{\lambda_i\}$ 为随机变量 $X=\{x_i\}$ 的概率分布，那么式 $(2)$ 可以进一步化为
$E(f(X))\le f(E(X))\tag{3}$
其中， $E (\cdot)$ 表示随机变量的期望。

通过一个简单的函数来理解 Jensen 不等式。

对于上凸函数 $f(x)=-x^2$ ，存在如下图的两点 $x_1$ 、 $x_2$ ，满足 $x_1\lt x_2$ ，根据上凸函数的性质可知 $\frac{f(x_1)+f(x_2)}{2}\le f\left(\frac{x_1+x_2}{2}\right)$ 。其中，不等式左侧 $f(x_1)$ 和 $f(x_2)$ 的均值可以理解为函数值的期望，不等式右侧 $f\left(\frac{x_1+x_2}{2}\right)$ 为 $x_i$ 的期望的函数值，这与式 $(2)$ 所表达的思想一致。

图 1 某上凸函数

类似地，对于下凸函数，根据其性质可知 $E(f(X))\ge f(E(X))$ 。

式 $(1)$ 给出了 Jensen 不等式的一般定义，而在 EM 算法中我们用到的是具体的 Jensen 不等式，即 $f(·)=\log(·)$ ， $g (\cdot) = \cdot$ 情形下的 Jensen 不等式，由于 $f (\cdot)$ 为上凸函数，因此满足
$\sum_{i=1}^n \lambda_i \log(x_i) \le \log\left( \sum_{i=1}^n \lambda_ix_i\right) \tag{4}$

讨论对于 Jensen 不等式的一般定义式 $(2)$ 中等号成立的条件。

若 $f (\cdot)$ 为严格上凸函数，则当且仅当 $x_1=x_2=\dots=x_n$ 时等号成立；若 $f (\cdot)$ 为线性函数，则对于任意取值的 $x_i$ 等号均成立，且不等式左侧恒等于右侧。故，若仅简单限制 $f (\cdot)$ 为上凸函数，则当且仅当 $x_1=x_2=\dots=x_n$ 时等号成立。

证明

下面是对于上凸函数的 Jensen 不等式（即式 $(2)$ ）证明。

(1) 首先对于 $n = 1$ ，很明显不等式成立；

(2) 对于 $n = 2$ ，由上凸函数图 $1$ 可知， $\lambda_1f(x_1)+\lambda_2f(x_2)\le f(\lambda_1x_1+\lambda_2x_2)$ ，不等式成立；

(3) 假设当 $n = k$ 时，不等式成立，即 $\sum\limits_{i=1}^k \lambda_i f(x_i) \le f\left( \sum\limits_{i=1}^k \lambda_ix_i\right)$

下面证明 $n = k + 1$ 时不等式成立即可：
$\begin{aligned} \sum_{i=1}^{k+1}\lambda_i f(x_i)&=\lambda_{k+1}f(x_{k+1})+\sum_{i=1}^k\lambda_if(x_i) &\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space&{(①)} \\ &=\lambda_{k+1}f(x_{k+1})+(1-\lambda_{k+1})\sum_{i=1}^k\frac{\lambda_{i}}{1-\lambda_{k+1}}f(x_i) &&{(②)} \\ &\le \lambda_{k+1}f(x_{k+1})+(1-\lambda_{k+1})f\left(\sum_{i=1}^k\frac{\lambda_{i}}{1-\lambda_{k+1}}x_i\right) &&{(③)} \\ &\le f\left(\lambda_{k+1}x_{k+1}+(1-\lambda_{k+1})\sum_{i=1}^k\frac{\lambda_{i}}{1-\lambda_{k+1}}x_i\right) &&{(④)} \\ &=f\left( \lambda_{k+1}x_{k+1} + \sum_{i=1}^k\lambda_{i}x_i \right) &&{(⑤)} \\ &=f\left( \sum_{i=1}^{k+1} \lambda_i x_i \right) &&{(⑥)} \end{aligned}$
因此，当 $n = k + 1$ 时，不等式成立。

对上面推导的部分过程进行说明。

② $\to$ ③：令 $\mu_i=\frac{\lambda_i}{1-\lambda_{k+1}}$ ，满足 $\sum_{i=1}^k\mu_i=1$ ，利用 Jensen 不等式可得 $\sum_{i=1}^k \mu_{i}f(x_i)\le f(\sum_{i=1}^k \mu_i x_i)$ ；

③ $\to$ ④：令 $y_1=x_{k+1}$ ， $y_2=\sum_{i=1}^k\frac{\lambda_{i}}{1-\lambda_{k+1}}x_i$ ，满足 $\lambda_{k+1} + (1-\lambda_{k+1})=1$ ，利用 Jensen 不等式可得 $\lambda_{k+1}f(y_1) + (1-\lambda_{k+1})f(y_2)\le f(\lambda_{k+1}y_1+(1-\lambda_{k+1})y_2)$ 。

故上凸函数的 Jensen 不等式成立。对于下凸函数的不等式证明同理。

EM 算法

概述

通过一个例子对 EM 算法进行介绍，以便于有整体、直观的认识。

（三硬币模型）假设有 $3$ 枚硬币，分别记作 $\rm A$ ， $\rm B$ ， $\rm C$ 。这些硬币正面出现的概率分别是 $\rm \pi$ ， $p$ 和 $q$ 。进行如下掷硬币试验：先掷硬币 $\rm A$ ，根据其结果选出硬币 $\rm B$ 或硬币 $\rm C$ ，正面选硬币 $\rm B$ ，反面选硬币 $\rm C$ ；然后掷选出的硬币，掷硬币的结果，出现正面记作 $1$ ，出现反面记作 $0$ ；独立地重复 $n$ 次试验（这里， $n = 10$ ），观测结果如下
$1, 1, 0, 1, 0, 0, 1, 0, 1, 1$
假设只能观测到掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币正面出现的概率，即三硬币模型的参数。

对于这样一个问题，我们可以定义两个随机变量。随机变量 $y$ 表示表示一次试验观测的结果是 $1$ 或 $0$ ，称 $y$ 为观测变量；随机变量 $z$ 表示未观测到的掷硬币 $\rm A$ 的结果，称 $z$ 为隐变量； $\theta=(\pi,p,q)$ 是模型参数。这一模型是以上数据的生成模型。

注意，随机变量 $y$ 的数据可以观测，随机变量 $z$ 的数据不可观测。

在多组实验中，将观测数据表示为 $Y=(Y_1,Y_2,\dots,Y_n)^T$ ，未观测数据表示为 $Z=(Z_1,Z_2,\dots,Z_n)^T$ 。

下面给出一般的规定。用 $Y$ 表示观测随机变量的数据， $Z$ 表示隐随机变量的数据。 $Y$ 和 $Z$ 连在一起称为完全数据（complete-data），观测数据 $Y$ 又称为不完全数据（incomplete-data）。假设给定观测数据 $Y$ ，其概率分布是 $P(Y\mid\theta)$ ，其中 $\theta$ 是需要估计的模型参数，那么不完全数据 $Y$ 的似然函数是 $P(Y\mid \theta)$ ，对数似然函数 $L(\theta)= \log P(Y\mid\theta)$ ；假设 $Y$ 和 $Z$ 的联合概率分布是 $P(Y,Z\mid\theta)$ ，那么完全数据的对数似然函数是 $\log P(Y,Z\mid \theta)$ 。

EM 算法通过迭代求 $L(\theta)$ 的极大似然估计。每次迭代包含两步：E 步，求期望（我更喜欢称之为，更新隐变量）；M 步，求极大化（我更喜欢称之为，更新模型参数）。EM 算法的过程可以大致描述为，利用第 $i$ 次迭代得到的模型参数 $\theta$ 的估计值 $\theta^{(i)}$ 在第 $i + 1$ 次迭代的 E 步计算完全数据的对数似然函数 $\log P(Y,Z\mid \theta)$ 关于在给定观测数据 $Y$ 和当前参数 $\theta^{(i)}$ 下对未观测数据 $Z$ 的条件概率分布 $P(Z\mid Y,\theta^{(i)})$ 的期望，即 $Q(\theta,\theta^{(i)})=\sum_Z\log P(Y,Z\mid \theta)P(Z\mid Y,\theta^{(i)})$ ；在 M 步中将使上面期望极大化的 $\theta$ 确定为第 $i + 1$ 次迭代的模型参数估计值 $\theta^{(i+1)}$ ，即 $\theta^{(i+1)}={\rm arg}\space \max\limits_\theta Q(\theta,\theta^{(i)})$ ；不断进行 E 步和 M 步直至满足终止条件。

EM 算法的作用与 GD 算法（梯度下降算法）类似，都是用于确定模型参数的优化算法。

之所以我更喜欢分别称 E 步和 M 步为更新隐变量和更新模型参数，是因为在实际接触到的一些通过 EM 算法来优化的模型，其 E 步具体的实现就是在根据上一次 M 步的迭代所得的模型参数更新隐变量，其 M 步具体的实现为根据本次 E 步的迭代所得的隐变量更新模型参数，不断迭代直至满足停止条件。上面提到的期望，其实是对模型进行优化的目标函数，一般选取极大似然函数，所以需要让目标函数值随着迭代变大。

隐变量

讲到这里，EM 算法可以被总结为一种引入（或存在）隐变量的迭代算法。在最初没有接触任何模型时，初学者往往很难理解这种形式化的语言，下面我结合简单的例子通俗地介绍一下隐变量。

有时我们认为隐变量是本身就存在于模型当中的，有时是为了方便才为模型添加隐变量，总而言之，当隐变量的存在具有一定的合理性时，我们可以选择性地认为其存在或不存在于模型之中，当然，只有当引入隐变量能够便于计算或更贴近实际情况，我们才会引入隐变量，否则引入只会徒增模型复杂度。

以“三硬币模型”为例，我们知道该模型中的隐变量为“ 硬币 $\rm A$ 投掷结果”，也就是以 $\rm A$ 投掷的结果作为新的自变量，根据自变量取值选取硬币 $\rm B$ 或 $\rm C$ ，投掷新选的硬币，投掷结果作为观测结果。为了便于理解，我们抽象地认为隐变量为“第二次投掷硬币”。不引入隐变量表示不进行第二次投掷，观测结果直接由投掷硬币 $\rm A$ 决定；引入隐变量表示根据硬币 $\rm A$ 的投掷结果选择不同的硬币再次投掷进而投掷结果作为观测结果。

这里引入的隐变量，即第二次投掷（选择哪个硬币），必须要依赖于硬币 $\rm A$ 的投掷结果，否则，模型的观测结果将会与硬币 $\rm A$ 完全无关， $\rm A$ 就没有存在的必要了，这与我们要建立“硬币 $\rm A$ 影响观测结果”模型的思想相违背。

这个模型体现了隐变量的引入具有选择性。若不引入隐变量（第二次投掷），那么模型参数为 $\theta=(\pi)$ ，我们只需要根据观测结果 ${1,1,0,1,0,0,1,0,1,1\}$ 来确定 $\pi$ ，一般选用（对数）极大似然估计来确定参数，这 $10$ 次实验对应的（极大化）目标函数为 $\pi^6(1-\pi)^4$ ；若引入隐变量（第二次投掷），那么模型参数变为 $\theta=(\pi,p,q)$ ，相当于认为观测结果并不由 $\rm A$ 的结果直接决定，而是根据 $\rm A$ 的结果进行新一轮投掷，再根据投掷结果确定观测结果，这 $10$ 次实验对应的（极大化）目标函数为 $[\pi p+(1-\pi)q]^6[\pi(1-p)+(1-\pi)(1-q)]^4$ 。

注意，我们无法确定观测结果就是硬币 $\rm A$ 掷出来的结果，可以理解为我们在完全漆黑的房间投掷硬币 $\rm A$ ，掷后离开房间，裁判进到房间观察硬币状况，进行一系列我们不知道的操作后，告诉我们他观测到的结果。可见，在这种理解的基础上，隐变量可以认为是我们对裁判暗箱操作的猜测，不引入隐变量就意味着我们认为裁判是秉持公平原则的，我们投掷出的硬币 $\rm A$ 是什么情况，裁判就告诉我们什么情况。

通过一个更抽象的例子从直观上理解隐变量。有一个同事，有时候上班带伞有时候不带伞，当问他为什么带伞时，他会回到“因为今天是XX月XX日啊！”。因为我有点社恐，所以不好意思细问日期的含义，但是又非常想预测出他到底哪天会带伞哪天不会带伞。显然，直接根据日期去预测他是否带伞没有很好的解释性，“因为今天是6月1日，所以他带伞了”，这显然没有任何逻辑。于是，引入隐变量，认为根据日期可以确定季节，如果是夏天可能会因为晒或下雨带伞，其他天气或其他季节一般是不会带伞的。这样一来，不仅更好解释他带伞的原因，而且也提高了猜测的准确性。

接触过潜在语义分析（LSA）的同学知道，相比于朴素的词向量空间模型，潜在语义分析引入了“语义”作为隐变量。从网络模型的角度来看，语义的引入实现了降维，防止了模型过拟合，同时一定程度上减少了训练的参数量；从可解释性的角度来看，语义的引入比较优质地解决了朴素词向量空间模型无法处理一词多义、多词同义的问题。

算法模板

感觉在实践中并不会套用模板来训练模型参数，这里仅用来加深对 EM 算法理解。

输入：观测变量数据 $Y$ ，隐变量数据 $Z$ ，联合分布 $P(Y,Z\mid \theta)$ ，条件分布 $P(Z\mid Y,\theta)$ ；

输出：模型参数 $\theta$ 。

（1）选择参数的初值 $\theta^{(0)}$ ，开始迭代；

（2）E 步：记 $\theta^{(i)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，在第 $i + 1$ 次迭代的 E 步，计算
$\begin{aligned} Q(\theta,\theta^{(i)})&=E_Z[\log P(Y,Z\mid \theta)\mid Y,\theta^{(i)}] \\ &=\sum_Z P(Z\mid Y,\theta^{(i)})\log P(Y,Z\mid \theta) \tag{5} \end{aligned}$
其中， $P(Z\mid Y,\theta^{(i)})$ 是在给定观测数据 $Y$ 和当前的参数估计 $\theta^{(i)}$ 下隐变量数据 $Z$ 的条件概率分布；

（3）M 步：求使 $Q(\theta,\theta^{(i)})$ 极大化的 $\theta$ ，确定第 $i + 1$ 次迭代的参数的估计值 $\theta^{(i+1)}$
$\theta^{(i+1)} ={\rm arg}\space \max_\theta Q(\theta, \theta^{(i)})$
（4）重复第（2）步和第（3）步，直到收敛。

函数 $Q(\theta,\theta^{(i)})$ 是 EM 算法的核心，其定义为，完全数据的对数似然函数 $\log P(Y,Z\mid \theta)$ 关于在给定观测数据 $Y$ 和当前参数 $\theta^{(i)}$ 下对未观测数据 $Z$ 的条件概率分布 $P(Z\mid Y,\theta)$ 的期望称为 $Q$ 函数，即式 $(5)$ 。

对于上面 EM 算法模板的几点说明：

步骤（1）：参数的初值可以任意选择，但需注意EM算法对初值是敏感的。

步骤（2）：E 步求 $Q(\theta,\theta^{(i)})$ 。 $Q$ 函数式中 $Z$ 是未观测数据， $Y$ 是观测数据。注意， $Q(\theta,\theta^{(i)})$ 的第 $1$ 个变元表示要极大化的参数，第 $2$ 个变元表示参数的当前估计值。每次迭代实际在求 $Q$ 函数及其极大。

步骤（3）：M 步求 $Q(\theta,\theta^{(i)})$ 的极大化，得到 $\theta^{(i+1)}$ ，完成一次迭代 $\theta^{(i)}\to \theta^{(i+1)}$ 。后面将证明每次迭代使似然函数增大或达到局部极值。

步骤（4）：给出停止迭代的条件，一般是对较小的正数 $\varepsilon_1$ ， $\varepsilon_2$ ，若满足
$||\theta^{(i+1)}-\theta^{(i)} ||\lt \varepsilon_1$
或
$||Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)}) ||\lt \varepsilon_2$
则停止迭代。

算法收敛性

下面会证明 EM 算法得到的 $\{\theta^{(i)}\}$ 估计序列收敛，且收敛到全局最大值或局部极大值。

设 $P(Y\mid \theta)$ 为观测数据的似然函数， $\theta^{(i)}\space(i=1,2,\dots)$ 为 EM 算法得到的参数估计序列， $P(Y\mid \theta^{(i)})\space(i= 1,2,\dots)$ 为对应的似然函数序列。接下来我们将证明 $P(Y\mid \theta^{(i)})$ 单调递增，且存在上界，再根据“单调有界必有极限”的极限存在定理，我们很容易知道 $P(Y\mid \theta^{(i)})$ 收敛到全局最大值或局部极大值。

因为 $P(Y\mid \theta^{(i)})$ 为概率，所以显然存在上界。故下面主要证明其单调递增的性质。

证明 $P(Y\mid \theta^{(i)})$ 是单调递增的，即证明 $P(Y\mid \theta^{(i+1)})\ge P(Y\mid \theta^{(i)})$ 。由于
$P(Y\mid \theta)=\frac{P(Y,Z\mid \theta)}{P(Z\mid Y,\theta)}$
取对数有
$\log P(Y\mid \theta) =\log P(Y,Z\mid \theta)-\log P(Z\mid Y,\theta)$
由式 $(5)$
$Q(\theta,\theta^{(i)})=\sum_ZP(Z\mid Y,\theta^{(i)})\log P(Y,Z\mid \theta)$
令
$H(\theta, \theta^{(i)}) = \sum_ZP(Z\mid Y,\theta^{(i)})\log P(Z\mid Y,\theta)\tag{6}$
于是对数似然函数可以写成
$\log P(Y\mid \theta) = Q(\theta, \theta^{(i)}) - H(\theta, \theta^{(i)})\tag{7}$

解释一下。
$\begin{aligned} Q(\theta, \theta^{(i)}) - H(\theta, \theta^{(i)}) &= \sum_Z P(Z\mid Y,\theta^{(i)})\log P(Y,Z\mid \theta)-\sum_ZP(Z\mid Y,\theta^{(i)})\log P(Z\mid Y,\theta) \\ &= \sum_Z P(Z\mid Y,\theta^{(i)}) \log \frac{P(Y,Z\mid \theta)}{P(Z\mid Y, \theta)} \\ &= \sum_Z P(Z\mid Y,\theta^{(i)}) \log P(Y\mid \theta) \\ &= \log P(Y\mid \theta) \end{aligned}$
其中，因为 $\sum_Z P(Z\mid Y,\theta^{(i)})=1$ ，所以 $\sum_Z P(Z\mid Y,\theta^{(i)}) \log P(Y\mid \theta)=\log P(Y\mid \theta)$ 。

在式 $(7)$ 中分别取 $\theta$ 为 $\theta^{(i)}$ 和 $\theta^{(i+1)}$ 并相减，有
$\log P(Y\mid \theta^{(i+1)}) - \log P(Y\mid \theta^{(i)}) = [Q(\theta^{(i+1)},\theta^{(i)}) - Q(\theta^{(i)},\theta^{(i)})] - [H(\theta^{(i+1)},\theta^{(i)}) - H(\theta^{(i)},\theta^{(i)})]\tag{8}$
为证明 $P(Y\mid \theta^{(i+1)})\ge P(Y\mid \theta^{(i)})$ ，只需证式 $(8)$ 右端是非负的。式 $(8)$ 右端第一项，由于 $\theta^{(i+1)}$ 使 $Q(\theta,\theta^{(i)})$ 达到极大，所以有
$Q(\theta^{(i+1)},\theta^{(i)}) - Q(\theta^{(i)},\theta^{(i)})\ge 0\tag{9}$
其第二项，由式 $(6)$ 可得
$\begin{aligned} H(\theta^{(i+1)},\theta^{(i)}) - H(\theta^{(i)},\theta^{(i)}) &=\sum_Z\left( \log \frac{P(Z\mid Y,\theta^{(i+1)})}{P(Z\mid Y,\theta^{(i)})} \right) P(Z\mid Y, \theta^{(i)}) \\ &\le \log\left(\sum_Z \frac{P(Z\mid Y,\theta^{(i+1)})}{P(Z\mid Y,\theta^{(i)})} P(Z\mid Y, \theta^{(i)})\right) \\ &=\log \left( \sum_Z P(Z\mid Y,\theta^{(i+1)}) \right) = 0 \tag{10} \end{aligned}$
这里的不等号由 Jensen 不等式 $(4)$ 得到。

由式 $(9)$ 和式 $(10)$ 可知式 $(8)$ 右端是非负的，说明 $P(Y\mid \theta^{(i+1)})\ge P(Y\mid \theta^{(i)})$ ，即似然函数序列 $P(Y\mid \theta^{(i)})$ 单调递增。根据极限存在定理“单调有界必有极限”‘可知 EM 算法关于对数似然函数序列 $\theta^{(i)})$ 是收敛的，但是不能保证一定收敛到全局最大值，除非目标函数 $L(\theta)$ 为上凸函数，这点与梯度下降法的迭代类似。

算法推导

上面介绍了 EM 算法。为什么 EM 算法能近似实现对观测数据的极大似然估计呢？下面通过近似求解观测数据的对数似然函数的极大化问题来导出 EM 算法，由此可以清楚地看出 EM 算法的作用。

我们面对一个含有隐变量的概率模型，目标是极大化观测数据（不完全数据） $Y$ 关于参数 $\theta$ 的对数似然函数，即极大化
$\begin{aligned} L(\theta)&=\log P(Y\mid \theta) \\ &=\log \sum_Z P(Y,Z\mid \theta)\tag{11} \end{aligned}$

也可以写成积分形式，下同。

※ 当只有一组数据时，对数似然函数如式 $(11)$ 所示；当有多组数据时，全部数据的对数似然函数应该定义为每组数据的对数似然函数之和，即
$L(\theta)=\sum_{i=1}^N\log P(Y_i\mid \theta)$
其中，总共 $N$ 组数据， $Y_i$ 表示第 $i$ 组数据的观测数据。

EM 算法是通过迭代逐步近似极大化 $L(\theta)$ 的。假设在第 $i$ 次迭代后 $\theta$ 的估计值是 $\theta^{(i)}$ 。我们希望新估计值 $\theta$ 能使 $L(\theta)$ 增加，即 $L(\theta)>L(\theta^{(i)})$ ，并逐步达到极大值。为此，考虑两者的差

$L(\theta)-L(\theta^{(i)}) = \log \sum_Z P(Y,Z\mid \theta) - \log P(Y\mid \theta^{(i)})$

利用 Jensen 不等式得到其下界

$\begin{aligned} L(\theta)-L(\theta^{(i)}) &= \log \left( \sum_Z q(Z,\theta^{(i)})\frac{P(Y,Z\mid \theta)}{q(Z,\theta^{(i)})} \right) - \log P(Y\mid \theta^{(i)}) &\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space\space&{(①)} \\ &\ge \sum_Z q(Z,\theta^{(i)}) \log \frac{P(Y,Z\mid \theta)}{q(Z,\theta^{(i)})} - \log P(Y\mid \theta^{(i)}) &&{(②)} \\ &= \sum_Z q(Z,\theta^{(i)}) \log \frac{P(Y,Z\mid \theta)}{q(Z,\theta^{(i)})} - \sum_Z q(Z,\theta^{(i)})\log P(Y\mid \theta^{(i)}) &&{(③)} \\ &=\sum_Z q(Z,\theta^{(i)}) \log \frac{P(Y,Z\mid \theta)}{q(Z,\theta^{(i)})P(Y\mid \theta^{(i)})} &&{(④)} \end{aligned}$

对上面推导的部分过程进行说明。

①：引入关于 $Z$ 的分布 $q(Z,\theta)$ ，在已知 $\theta$ 为 $\theta^{(i)}$ 的前提下，分布 $q(Z,\theta^{(i)})$ 是已知的，满足 $\sum_Z q(Z,\theta^{(i)})=1$ ；

① $\to$ ②：由于 $\log(·)$ 函数为上凸函数，故可用 Jensen 不等式 $(4)$ ；

③：第二项添加中 $q(Z,\theta^{(i)})$ ，同时保证与 ② 相等；

④：对数函数运算法则，两个对数函数的减法等于自变量相除取对数。

令
$B(\theta,\theta^{(i)})=L(\theta^{(i)})+\sum_Z q(Z,\theta^{(i)})\log \frac{P(Y,Z\mid \theta)}{q(Z,\theta^{(i)})P(Y\mid \theta^{(i)})} \tag{12}$
则
$L(\theta)\ge B(\theta,\theta^{(i)})$
即函数 $B(\theta, \theta^{(i)})$ 是 $L(\theta)$ 的一个下界。

选取的分布 $q(Z,\theta^{(i)})$ 应该保证下界 $B(\theta,\theta^{(i)})$ 尽可能逼近对数似然函数 $L(\theta)$ ，当上面的 Jensen 不等式 ② 等号成立时，下界与对数似然函数（之差）完全相等，等号成立时的 $q$ 函数显然是理论上的最优解。

上面的 Jensen 不等式 ② 中的 $f(·)=\log(·)$ ，此时 $f (\cdot)$ 已经确定为上凸函数，那么只能让 $·=C\space(C为常数)$ 以保证 $f(·)=\log(C)=C'\space(C'为常数)$ ，此时 $f(·)=\log(C)$ 为线性函数，根据上面讨论的等号成立条件可知，只有当 ② 中的 $\frac{P(Y,Z\mid \theta)}{q(Z,\theta^{(i)})}=C$ 时，等号成立。

为了推导的方便，不妨将模型参数暂时忽略。即已知 $C q (Z) = P (Y, Z)$ ，两侧同时求期望（或积分）得

$\begin{aligned} Cq(Z)&=P(Y,Z) \\ C\sum_Zq(Z)&=P(Y) \\ C&=P(Y) \end{aligned}$

将 $C = P (Y)$ 代回 $C q (Z) = P (Y, Z)$ 得

$q(Z)=\frac{P(Y,Z)}{P(Y)}=P(Z\mid Y)$

因此

$q(Z,\theta) = P(Z\mid Y,\theta) \tag{13}$

因为我们希望在已知上一次迭代的模型参数 $\theta^{(i)}$ 时，函数 $q$ 为关于 $Z$ 的分布是已知的，所以 ② 中 $q$ 的参数为 $\theta^{(i)}$ 而不是 $\theta$ 。

当 ① 和 ② 中 $q(Z,\theta^{(i)})$ 表示为 $q(Z,\theta)$ 时才能保证等号成立，所以有人可能疑惑，为什么 $q(Z,\theta^{(i)})$ 依然可行？

确实只有取 $q(Z,\theta)$ 时等号才成立，即取在模型参数 $\theta$ （或 $\theta^{(i+1)}$ ）下的条件概率分布，而不是在模型参数 $\theta^{(i)}$ 下的条件概率分布；但是我们是想通过 Jensen 不等式确定一个尽可能逼近对数似然函数的函数，并不是找到一个与之相同的函数，这样完全没意义，因为问题没有得到转化，所以我们退而求其次，认为第 $i$ 次迭代得到的模型参数 $\theta^{(i)}$ 下的条件概率分布与在模型参数 $\theta$ （或 $\theta^{(i+1)}$ ）下的条件概率分布效果相近，因此选用了 $q(Z,\theta^{(i)})$ 。当然，你也可以尝试选用 $q(Z,\theta^{(i-1)})=P(Z\mid Y,\theta^{(i-1)})$ 。

更大可不必担心取 $\theta^{(i)}$ 会不会使得 Jensen 不等式不再成立，Jensen 不等式的成立与具体的 $q$ 函数无关，或者说 $q$ 函数有多种取法，只要满足 Jensen 不等式的前提条件和 $\sum_Z q(Z)=1$ ，Jensen 不等式就必然成立。简单思考便可得知。

将 $q(Z,\theta^{(i)})=P(Z\mid Y,\theta^{(i)})$ 代入到式 $(12)$ 中得

$\begin{aligned} B(\theta,\theta^{(i)})&=L(\theta^{(i)})+\sum_Z P(Z\mid Y,\theta^{(i)})\log \frac{P(Y,Z\mid \theta)}{P(Z\mid Y,\theta^{(i)})P(Y\mid \theta^{(i)})} \\ &=L(\theta^{(i)}) + \sum_Z P(Z\mid Y,\theta^{(i)})\log \frac{P(Y,Z\mid \theta)}{P(Y,Z\mid \theta^{(i)})} \tag{14} \end{aligned}$

由式 $(14)$ 可知

$L(\theta^{(i)})=B(\theta^{(i)},\theta^{(i)}) \tag{15}$
因此，任何可以使 $B(\theta,\theta^{(i)})$ 增大的 $\theta$ ，也可以使 $L(\theta)$ 增大。为了使 $L(\theta)$ 有尽可能大的增长，选择 $\theta^{(i+1)}$ 使 $B(\theta,\theta^{(i+1)})$ 达到极大，即
$\theta^{(i+1)}={\rm arg}\max_\theta B(\theta,\theta^{(i)})\tag{16}$

解释一下“任何可以使 $B(\theta,\theta^{(i)})$ 增大的 $\theta$ ，也可以使 $L(\theta)$ 增大”。这句话的形式化表示为，当 $B(\theta^{(i+1)},\theta^{(i)})\gt B(\theta^{(i)},\theta^{(i)})$ 时 $L(\theta^{(i+1)})\gt L(\theta^{(i)})$ 。

简单证明， $B(\theta^{(i+1)},\theta^{(i)})$ 作为 $L(\theta^{(i+1)})$ 的下界，满足 $L(\theta^{(i+1)})\ge B(\theta^{(i+1)},\theta^{(i)})$ ，根据式 $(15)$ 知 $B(\theta^{(i)},\theta^{(i)})=L(\theta^{(i)})$ ，当 $B(\theta^{(i+1)},\theta^{(i)})\gt B(\theta^{(i)},\theta^{(i)})$ 时，有
$L(\theta^{(i+1)})\ge B(\theta^{(i+1)},\theta^{(i)})\gt B(\theta^{(i)},\theta^{(i)})=L(\theta^{(i)})$
证毕。

现在求 $\theta^{(i+1)}$ 的表达式。求函数极大值对应的模型参数 $\theta$ 可以忽略对 $\theta$ 的极大化而言为常数的项。将式 $(14)$ 代入式 $(16)$ 得
$\begin{aligned} \theta^{(i+1)}&={\rm arg}\max_\theta\left( L(\theta^{(i)}) + \sum_Z P(Z\mid Y,\theta^{(i)})\log \frac{P(Y,Z\mid \theta)}{P(Y,Z\mid \theta^{(i)})} \right) \\ &={\rm arg}\max_\theta\left( L(\theta^{(i)}) + \sum_Z P(Z\mid Y,\theta^{(i)})\log P(Y,Z\mid \theta) - \sum_Z P(Z\mid Y,\theta^{(i)})\log P(Y,Z\mid \theta^{(i)}) \right) \\ &={\rm arg}\max_\theta\left(\sum_Z P(Z\mid Y,\theta^{(i)})\log P(Y,Z\mid \theta) \right)\\ \end{aligned}$

第二个等式中的第一项和第三项均与 $\theta$ 无关，可以认为是常数项，所以可以忽略。

如果还是不能理解，我们以求偏导的规则来理解，若对 $\theta$ 求偏导，则第一项和第三项显然相当于常数，对偏导没有贡献，但是第二项不同。

根据式 $(5)$ 可知
$\theta^{(i+1)} = {\rm arg}\max_\theta Q(\theta, \theta^{(i)})\tag{17}$
式 $(17)$ 等价于 EM 算法的一次迭代，即求 $Q$ 函数及其极大化。EM 算法是通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。

图 $2$ 给出 EM 算法的直观解释。图中上方曲线为 $L(\theta)$ ，下方曲线为 $B(\theta,\theta^{(i)})$ 。 $B(\theta,\theta^{(i)})$ 为对数似然函数 $L(\theta)$ 的下界。由式 $(15)$ ，两个函数在点 $\theta=\theta^{(i)}$ 处相等。由式 $(16)$ 和式 $(17)$ ，EM算法找到下一个点 $\theta^{(i+1)}$ 使函数 $B(\theta,\theta^{(i)})$ 极大化。这时由于 $L(\theta)\ge B(\theta,\theta^{(i)})$ ，函数 $B(\theta,\theta^{(i)})$ 的增加，保证对数似然函数 $L(\theta)$ 在每次迭代中也是增加的。

之所以 EM 算法可以将最大化 $B$ 转换为最大化 $Q$ ，通过对比式 $(14)$ 和式 $(5)$ 可以发现，二者仅相差一个与 $\theta$ 无关的常数，并不影响最大化对应的解，因此 EM 算法采用最大化形式更为简洁的 $Q$ 函数。EM 算法在点 $\theta^{(i+1)}$ 重新计算 $Q$ 函数值，进行下一次迭代。在这个过程中，对数似然函数 $L(\theta)$ 不断增大。从图可以推断出 EM 算法不能保证找到全局最优值。

图 2 EM 算法的解释

适用场景

在学习模型参数时，极大似然函数是比较受青睐的一种定义目标函数的方式。

当目标函数比较简单时，可以通过目标函数对每个参数求偏导，并令导数为零计算出解析解。多解时可以对尝试使用每个模型参数计算似然函数，取最大值对应的模型参数作为最优解；

但是模型通常比较复杂，计算出来的导函数（方程组）难以求解。此时，可以仅计算出导函数值，通过梯度下降的方法，使参数向梯度下降最快的方向移动一小步来更新参数；

更有甚者，连目标函数的导函数（方程组）都难以获得，比如一些概率生成模型或者单纯导数计算困难的模型等。对于这些不可直接求导的模型，需要引入隐变量，采用 EM 算法来简化计算。当然，如果向模型中引入隐变量，那么必然要选择 EM 算法。

EM 算法与 GD 算法

以下是我自己的片面理解，网上可借鉴的资料比较少，希望大家辩证地来看。

EM 算法和 GD 算法计算出来的往往是局部最优解且为数值解。

EM 算法常用于概率模型，而概率模型一般有对应的生成模型；EM 算法更能体现数学之美，不像梯度下降法一样重复地计算导函数值进行更新，而是利用概率论相关知识进行化简、抽象，进而获得 E 步和 M 步的计算；EM 算法与坐标下降法类似，两次（或多次）计算作为一次迭代，且均为非梯度化优化算法。

GD 算法常用于深度网络模型中，主要是因为在深度网络模型中，我们选取的激活函数一般都可导，这是梯度下降法可以大展身手的原因之一；梯度下降法更加直观易懂，其原理就是沿着梯度下降最快的方向移动，保证目标函数值减小（步长合适时）。

参考

[1] 《统计学习方法（第二版）》李航著

[2] 琴生不等式 - 百度百科

[3] Jensen不等式讲解与证明 - CSDN博客

[4] EM 算法的收敛性证明 - CSDN博客

[5] 机器学习-EM算法3（公式导出之ELBO+Jensen Inequlity）- bilibili

[6] 梯度下降与EM算法 - CSDN博客

你可能感兴趣的:(【机器学习】,1024程序员节,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class