冬之晓东

隐马尔可夫模型

注意，本文内容来自于吴恩达老师cs229课堂笔记的中文翻译项目:https://github.com/Kivy-CN/Stanford-CS-229-CN 中部分的内容进行翻译学习。

隐马尔可夫模型基础

摘要

我们如何将机器学习应用于随时间变化观察到的一系列数据中来？例如，我们可能对根据一个人讲话的录音来发现他所说的话的顺序感兴趣。或者，我们可能对用词性标记来注释单词序列感兴趣。本小节的内容对马尔可夫模型的概念进行了全面的数学介绍，该模型是一种关于状态随时间变化的推理一种学习形式。并且使用隐马尔可夫模型，我们希望从一系列观察数据中恢复这一系列模型的初始状态。最后一节包含一些特定参考资料，这些资料从其他角度介绍隐马尔可夫模型。

1. 马尔科夫模型

给定一个状态集合 $S=\{s_1,s_2,\dots,s_{|s|}\}$ ，我们可以观察到一系列随时间变化的序列 $\vec{z}\in S^T$ 。例如，我们也许有这样一个来自天气系统的状态集合 $S=\{sun,cloud,rain\}$ ，显然 $∣ S ∣ = 3$ 。在给定 $T = 5$ 的情况下我们可能会观察到这几天的天气情况的一个序列 ${z_1=s_{sun},z_2=s_{cloud},z_3=s_{cloud},z_4=s_{rain},z_5=s_{cloud}\}$

我们上面的天气示例里面的观察状态可以表示随时间变化的一种随机过程的输出。如果没有进一步的假设，时间 $t$ 下的状态 $s_j$ 可以是自变量为任意数的一个函数，包括从时间 $1$ 到 $t - 1$ 的所有状态，可能还有许多其它我们甚至没有建模的状态。然而，我们将做两个马尔可夫假设，这将允许我们对时间序列进行可以追溯的推断。

有限地平线假设(limited horizon assumption)是 $t$ 时刻处于状态的概率只取决于 $t - 1$ 时刻的状态。这个假设背后的直觉是， $t$ 时刻的状态代表对过去“足够”的总结，可以合理地预测未来。正式的公式如下:

$P(z_t|z_{t-1},z_{t-2},\dots,z_1)=P(z_t|z_{t-1})$

平稳过程假设(stationary process assumption)是在给定当前状态的条件下，下一个状态的条件分布不随时间变化。正式的公式如下:

$P(z_t|z_{t-1})=P(z_2|z_1);t\in 2\dots T$

习惯上，我们还将假设存在一个初始状态和初始观察值 $z_0\equiv s_0$ ，其中 $s_0$ 为 $0$ 时刻状态的初始概率分布。这种符号定义可以使我们方便编码观察到第一个真实的状态 $z_1$ 的先验概率的确信度，其可以用符号表示为 $p(z_1|z_0)$ 。注意到公式 $P(z_t|z_{t-1},\dots,z_1)=P(z_t|z_{t-1},\dots,z_1,z_0)$ 成立是因为我们为所有状态序列都定义了 $z_0=s_0$ 。（HMMs的其它表示形式有时用向量 $\pi\in R^{|S|}$ 表示这些先验确信度(prior believes)）

我们通过定义一个状态转移矩阵 $A\in R^{(|S|+1)\times(|S|+1)}$ 来参数化这些转移数据。矩阵中的值 $A_{ij}$ 代表在任意时刻 $t$ 从状态 $i$ 转移到状态 $j$ 的转移概率。对于我们太阳和雨的例子，可能有下面的状态转移矩阵：

$A=\begin{matrix} \ & s_0&s_{sun} & s_{cloud} & s_{rain}\\ s_0 & 0 & .33 & .33 & .33 \\ s_{sun} & 0 & .8 & .1 & .1 \\ s_{cloud} & 0 & .2 & .6 & .2\\ s_{rain} & 0 & .1 & .2 & .7 \end{matrix}$

请注意，这些数字（我自己编的）表明了天气是自相关的，这是因为：如果天气晴朗，它将趋向于保持晴朗，如果天气多云将保持多云等等。这种模式在许多马尔可夫模型中都很常见，可以作为转移矩阵中的强对角性来遵守。注意，在本例中，我们的初始状态 $s_0$ 显示了过渡到天气系统中的三种状态的概率是一样的。

1.1 马尔可夫模型的两个问题

结合马尔可夫假设和状态转移参数矩阵 $A$ ，我们可以回答关于马尔可夫链中状态序列的两个基本问题。

给定一个特定的状态序列 $\vec{z}$ ，其概率是多少？
给定一个观测序列 $\vec{z}$ ，如何通过其进行最大似然估计得到状态转移参数矩阵 $A$ ？

1.1.1 状态序列的概率

我们可以利用概率的链式法则来计算某一特定状态序列 $\vec{z}$ 的概率：

$\begin{aligned} P（\vec{z}) &= P(z_t,z_{t-1},\dots,z_1;A) \\ &= P(z_t,z_{t-1},\dots,z_1,z_0;A) \\ &= P(z_t|z_{t-1},z_{t-2},\dots,z_1;A)P(z_{t-1}|z_{t-2},\dots,z_1;A)\dots P(z_1|z_0;A) \\ &= P(z_t|z_{t-1};A)P(z_{t-1}|z_{t-2};A)\dots P(z_2|z_1;A)P(z_1|z_0;A) \\ &= \prod_{t=1}^TP(z_t|z_{t-1};A) \\ &= \prod_{t=1}^TA_{z_{t-1} z_t} \end{aligned}$

在第二行，我们在联合概率密度的公式中引入 $z_0$ ，这使得该式可以通过前面定义的 $z_0$ 来计算。第三行的结果是通过将概率链式法则或贝叶斯规则的重复应用到该联合概率密度上得到的。第四行遵循马尔可夫假设，最后一行表明这些项都来自于状态转换矩阵 $A$ 中的元素。

我们计算一下前面例子中的时间序列的概率。通过式子表达的话，即我们想要计算 $P(z_1 = s_{sun} , z_2 = s_{cloud} , z_3 = s_{rain} , z_4 = s_{rain} , z_5 = s_{cloud})$ ，这个式子可以通过分解来计算，即 $P(s_{sun}|s_0)P(s_{cloud}|s_{sun})P(s_{rain}|s_{cloud})P(s_{rain}|s_{rain})P(s_{cloud}|s_{rain}) =.33 \times .1 \times .2 \times .7 \times .2$ 。

1.1.2 最大似然参数赋值

从学习的角度来看，我们可以通过观察序列 $\vec{z}$ 的对数似然函数找到参数矩阵 $A$ 。相应的找到从晴天到多云或者从晴天到晴天等转移的似然，最大化以使得观察集合发生的概率最大。让我们定义一个马尔科夫模型的对数似然函数：

$\begin{aligned} l(A) &= logP(\vec{z};A) \\ &= log\prod_{t=1}^TA_{z_{t-1} z_t} \\ &= \sum_{t=1}^TlogA_{z_{t-1} z_t} \\ &= \sum_{i=1}^{|S|}\sum_{j=1}^{|S|}\sum_{t=1}^{T}1\{z_{t-1}=s_i\wedge z_t=s_j\}logA_{ij} \end{aligned}$

在最后一行中，我们使用一个示性函数，当大括号内的条件满足时，它的值为 $1$ ，否则为 $0$ ，通过该函数在每个时间步长选择观察到的转换。在求解这一优化问题时，重要的是要保证所求解的参数矩阵 $A$ 仍然是一个有效的转移矩阵。特别地，我们需要确保状态 $i$ 的输出概率分布总是和为 $1$ ，并且 $A$ 的所有元素都是非负的。我们可以用拉格朗日乘子法来求解这个优化问题。

$\begin{aligned} \max_A\qquad &l(A) \\ s.t.\qquad &\sum_{j=1}^{|S|}A_{ij}=1,\quad i=1..|S|\\ &A_{ij}\ge 0,\quad i,j=1..|S| \end{aligned}$

该约束优化问题可以用拉格朗日乘子法求得闭式解。我们将把等式约束带入拉格朗日方程，但不等式约束可以放心地忽略——因为优化解总能为 $A_{ij}$ 产生一个正值。因此我们构建如下的拉格朗日函数：

$\mathcal{L}(A,\alpha)=\sum_{i=1}^{|S|}\sum_{j=1}^{|S|}\sum_{t=1}^{T}1\{z_{t-1}=s_i\wedge z_t=s_j\}logA_{ij}+\sum_{i=1}^{|S|}\alpha_i(1-\sum_{j=1}^{|S|}A_{ij})$

求偏导数，令它们等于零可得:

$\begin{aligned} \frac{\partial\mathcal{L}(A,\alpha)}{\partial A_{ij}} &=\frac{\partial}{\partial A_{ij}}(\sum_{t=1}^{T}1\{z_{t-1}=s_i\wedge z_t=s_j\}logA_{ij}) + \frac{\partial}{\partial A_{ij}}\alpha_i(1-\sum_{j=1}^{|S|}A_{ij}) \\ &= \frac 1{A_{ij}}\sum_{t=1}^{T}1\{z_{t-1}=s_i\wedge z_t=s_j\}-\alpha_i\equiv0\\ &\Rightarrow \\ A_{ij} &=\frac 1{\alpha_i}\sum_{t=1}^{T}1\{z_{t-1}=s_i\wedge z_t=s_j\} \end{aligned}$

回带原式，并令其对于 $\alpha$ 的偏导等于零可得：

$\begin{aligned} \frac{\partial\mathcal{L}(A,\alpha)}{\partial \alpha_i} &= 1-\sum_{j=1}^{|S|}A_{ij} \\ &= 1-\sum_{j=1}^{|S|}\frac 1{\alpha_i}\sum_{t=1}^{T}1\{z_{t-1}=s_i\wedge z_t=s_j\}\equiv0 \\ &\Rightarrow \\ \alpha_i &= \sum_{j=1}^{|S|}\sum_{t=1}^{T}1\{z_{t-1}=s_i\wedge z_t=s_j\} \\ &= \sum_{t=1}^{T}1\{z_{t-1}=s_i\} \end{aligned}$

把 $\alpha_i$ 的值带入相应表达式，我们推导出 $A_{ij}$ 的最大似然参数值 $\hat{A_{ij}}$ 为：

$\hat{A_{ij}} = \frac{\sum_{t=1}^T 1\{z_{t-1}=s_i\wedge z_t=s_j\}}{\sum_{t=1}^T 1\{z_{t-1} = s_i\}}$

这个公式结果表达的一个简单的解释是：从状态 $i$ 到状态 $j$ 转移的最大似然概率其实就是从状态 $i$ 到状态 $j$ 出现的次数数除以总次数。换句话说，就是最大似然参数等于我们从状态 $i$ 到状态 $j$ 的次数比上我们在状态 $i$ 中的次数的分数。

2. 隐马尔科夫模型

马尔可夫模型是对时间序列数据的一种强大抽象，但无法捕获非常常见的场景。如果我们不能观察状态本身，而只能观察这些状态的一些概率函数，我们怎么能对一系列状态进行推理呢？比如一个词性标注的场景，其中单词被观察到，但是词性标记没有被观察到。或者在语音识别的场景中，语音序列被观察到，但是生成它的单词没有被观察到。举个简单的例子，让我们借用Jason Eisner在2002[1]参考资料[1]见文章最下方年提出的设置，即“冰淇淋气候学”：

情境：在2799年，你是一位气候学家，研究全球变暖的历史。你找不到巴尔的摩(Baltimore)天气的任何记录，但你找到了我（杰森·艾斯纳(Jason Eisner)）的日记。我勤奋地记录我每天吃了多少冰淇淋。关于那个夏天的天气情况，你能推断出什么？

可以使用隐马尔可夫模型(HMM)来研究这个场景。我们不能观察状态的实际序列（每天天气情况的序列）。相反，我们只能观察每个天气状态产生的一些结果（那天吃了多少冰淇淋）。

形式上，HMM是一个马尔可夫模型，我们有一系列观察到的输出 $x=\{x_1,x_2,\dots,x_T\}$ ，该输出来自于一组输出符号集(an output alphabet) $V=\{v_1,v_2,\dots,v_{|V|}\}$ ，即 $x_t\in V,t=1..T$ 。和上一节一样，我们也假定了一系列状态的存在，这些状态来自于一个状态符号集合 $S=\{s_1,s_2,\dots s_{|s|}\},z_t\in S,t=1..T$ ，但是在这种情况下，状态值是不可见的。状态 $i$ 和 $j$ 之间的转换将再次用状态转移矩阵 $A_{ij}$ 中的对应值表示。

我们还将生成输出观测值的概率作为隐状态的函数来建模。为此，我们做了输出无关的假设(output independence assumption)，同时定义 $P(x_t=v_k|z_t=s_j)=P(x_t=v_k|x_1,\dots,x_T,z_1,\dots,z_T)=B_{jk}$ 。矩阵 $B$ 编码了隐藏状态产生输出 $v_k$ 的概率， $v_k$ 在相应时间产生的状态是 $s_j$ 。

回到天气的例子，假设你有四天的冰淇淋消费记录 $\vec{x}=\{x_1=v_3,x_2=v_2,x_3=v_1,x_4=v_2\}$ 。其中我们的观察集合仅仅有冰激凌消耗的数量，即 $V=\{v_1=1冰激凌,v_2=2冰激凌,v_3=3冰激凌\}$ 。HMM能给我们回答什么问题呢？

2.1 隐马尔科夫模型的三个问题

我们可能会问HMM三个基本问题。观察到的序列的概率是多少（比如我们观察到消耗了 $3, 2, 3, 2$ 个冰淇淋）？最有可能产生观测结果的一系列状态是什么（那四天的天气如何）？我们如何学习给定数据时的隐马尔可夫模型参数 $A$ 和 $B$ 的值？

2.2 观测序列的概率：正演过程

在HMM中，我们假设数据是由以下过程生成的：假设存在一系列基于我们时间训序列长度的状态 $\vec{z}$ 。该状态序列由状态转换矩阵 $A$ 参数化的马尔可夫模型生成。在每个时间步 $t$ ，我们选择一个输出 $x_t$ 作为状态 $z_t$ 出现下的函数。因此，为了得到一个观测序列的概率，我们需要将给定的每个可能状态序列的数据 $\vec{x}$ 的似然概率相加。

$\begin{aligned} P(\vec{x};A,B) &= \sum_{\vec{z}}P(\vec{x},\vec{z};A,B) \\ &= \sum_{\vec{z}}P(\vec{x}|\vec{z};A,B)P(\vec{z};A,B) \end{aligned}$

上述公式适用于任何概率分布。然而，HMM假设允许我们进一步简化表达式：

$\begin{aligned} P(\vec{x};A,B) &= \sum_{\vec{z}}P(\vec{x}|\vec{z};A,B)P(\vec{z};A,B) \\ &= \sum_{\vec{z}}(\prod_{t=1}^TP(x_t|z_t;B))(\prod_{t=1}^TP(z_t|z_{t-1};A)) \\ &= \sum_{\vec{z}}(\prod_{t=1}^TB_{z_tx_t})(\prod_{t=1}^TA_{z_{t-1}z_t}) \end{aligned}$

好消息是，上式是一个关于参数的简单表达式。推导过程遵循HMM假设：输出独立假设、马尔可夫假设和平稳过程假设，这三个假设都用于推导第二行。坏消息是所有可能的产生序列 $\vec{z}$ 情况的总和太大了。因为 $z_t$ 在每个时间步都可能有 $∣ S ∣$ 种可能情况，直接计算总和需要操作的时间复杂度是 $O(|S|^T)$ 。

算法 1 前向算法计算 $\alpha_i(t)$

基本情况： $\alpha_i(0) = A_{0i},i=1..|s|$
递归： $\alpha_j(t) = \sum_{i=1}^{|S|}\alpha_i(t-1)A_{ij}B_{jx_t},j=1..|S|,t=1..T$

幸运的是，可以根据一个名叫前向算法(Forward Procedure)的算法更快的计算 $P(\vec{x};A,B)$ ，该算法采用了动态规划的思想。首先让我们定义一个符号： $\alpha_i(t)=P(x_1,x_1,\dots,x_t,z_t=s_i;A,B)$ 。 $\alpha_i(t)$ 代表随时间 $t$ （通过任意状态指定）变化的所有观测值和我们在时间 $t$ 进入状态 $s_i$ 的联合概率。在我们有了这个符号之后，所有观察到对象的全集的概率 $P(\vec{x})$ 可以如下表达：

$\begin{aligned} P(\vec{x};A,B) &= P(x_1,x_2,\dots,x_T;A,B) \\ &= \sum_{i=1}^{|S|}P(x_1,x_2,\dots,x_T,z_T=s_i;A,B) \\ &= \sum_{i=1}^{|S|}\alpha_i(T) \end{aligned}$

算法 $1$ 给出了一种有效的方法来计算 $\alpha_i(t)$ 。在每个时间步，我们进行计算的时间复杂度仅仅是 $O (∣ S ∣)$ ，这样得到最终计算观察到的状态序列的总概率 $P(\vec{x};A,B)$ 算法的时间复杂度是 $O(|S|\times T)$ 。

一个类似称为向后过程(Backward Procedure)的算法可以用来计算类似的概率 $\beta_i(t)=P(x_T,x_{T-1},\dots,x_{t+1},z_t=s_i;A,B)$ 。

2.3 最大似然状态目标序列：维特比算法

隐马尔可夫模型最常见的问题之一是想要知道在给定了一个观察到的输出序列 $\vec{x}\in V^T$ 时，最有可能的状态序列 $\vec{z}\in S^T$ 是什么。可以用如下公式表达：

$arg\max_{\vec{z}}P(\vec{z}|\vec{x};A,B)=arg\max_{\vec{z}} \frac{P(\vec{x}, \vec{z};A,B)}{\sum_{\vec{z}}P(\vec{x}, \vec{z};A,B)}=arg\max_{\vec{z}}P(\vec{x}, \vec{z};A,B)$

第一个化简遵循贝叶斯规则，第二个化简遵循分母不直接依赖 $\vec{z}$ 的观察结果。简而言之，我们这里模型的意思是尝试所有可能产生目标序列 $\vec{z}$ ，并取其中能使得联合概率最大的那个目标序列。然而，枚举一组可能的任务序列需要的时间复杂度是 $O(|S|^T)$ 。在这一点上，你可能会想到使用上一小节的正向算法那样的动态规划方案来解决本节的问题可能会节约时间，没错。注意，如果将 $arg\max_{\vec{z}}$ 替换为 $\sum_{\vec{z}}$ ，那么我们当前的任务与前向算法的表达式完全类似。

算法 2 基于 $E M$ 算法解决隐马尔可夫模型普通应用的算法：

（ $E$ 步）对于每一个可能的序列 $\vec{z} \in S^T$ ，设：

$Q(\vec{z}):=p(\vec{z}|\vec{x};A, B)$

（ $M$ 步）设：

$\begin{aligned} A, B &:= arg\max_{A,B}\sum_{\vec{z}}Q(\vec{z})log\frac{P(\vec{x}, \vec{z}; A, B)}{Q(\vec{z})} \\ &s.t.\sum_{j=1}^{|S|}A_{ij}=1,i=1...|S|;A_{ij}\ge0,\quad i,j=1...|S| \\ &\quad\sum_{k=1}^{|V|}B_{ik}=1,i=1...|S|;B_{ik}\ge0,\quad i=1...|S|,k=1...|V| \end{aligned}$

维特比算法(Viterbi Algorithm)与正向过程类似，不同之处在于，我们只需要跟踪最大概率并记录其对应的状态序列，而不是跟踪到目前为止所看到的生成观测结果的总概率。

2.4 参数学习：基于EM算法的隐马尔可夫模型

HMM模型的最后一个问题是：给定一组观察序列的集合，使这组集合最有可能出现的状态转移概率矩阵(state transition probabilities) $A$ 和状态生成概率矩阵(output emission probabilities) $B$ 的值是多少？例如，基于语音识别数据集求解最大似然参数可以使我们有效地训练HMM模型，之后在需要求得候选语音信号的最大似然状态序列时使用该模型。

在本节中，我们推导了隐马尔可夫模型的期望最大化算法。这个证明来自于CS229课堂讲稿中给出的 $E M$ 的一般公式。算法 $2$ 给出了基本的 $E M$ 算法。注意， $M$ 步中的优化问题现在受到约束，使得 $A$ 和 $B$ 包含有效的概率。就像我们为（非隐）马尔可夫模型找到的最大似然解一样，我们将能够用拉格朗日乘子来解决这个优化问题。还要注意， $E$ 步和 $M$ 步都需要枚举所有 $S|^T$ 种可能的序列 $\vec{z}$ 。我们将使用前面提到的前向和后向算法为我们的 $E$ 步和 $M$ 步计算一组有效的统计量。

首先，我们用马尔可夫假设重写目标函数：

$\begin{aligned} A,B &= arg\max_{A,B}\sum_{\vec{z}}Q(\vec{z})log\frac{P(\vec{x},\vec{z};A,B)}{Q(\vec{z})} \\ &= arg\max_{A,B}\sum_{\vec{z}}Q(\vec{z})log P(\vec{x},\vec{z};A,B) \\ &= arg\max_{A,B}\sum_{\vec{z}}Q(\vec{z})log (\prod_{t=1}^TP(x_t|z_t;B))(\prod_{t=1}^TP(z_t|z_{t-1};A)) \\ &= arg\max_{A,B}\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^TlogB_{z_tx_t}+logA_{z_{t-1}z_t} \\ &= arg\max_{A,B}\sum_{\vec{z}}Q(\vec{z})\sum_{i=1}^{|S|}\sum_{j=1}^{|S|}\sum_{k=1}^{|V|}\sum_{t=1}^T1\{z_t=s_j\wedge x_t=v_k\}logB_{jk}+1\{z_{t-1}=s_i\wedge z_t=s_j\}logA_{ij} \end{aligned}$

在第一行中，我们将对数除法分解为减法，注意分母的项不依赖于参数 $A, B$ 。第 $3$ 行应用了马尔可夫假设。第 $5$ 行使用示性函数按状态索引 $A$ 和 $B$ 。

对于可见马尔可夫模型的最大似然参数，忽略不等式约束是安全的，因为解的形式自然只产生正解。构造拉格朗日函数：

$\begin{aligned} \mathcal{L}(A,B,\delta,\epsilon) = &\sum_{\vec{z}}Q(\vec{z})\sum_{i=1}^{|S|}\sum_{j=1}^{|S|}\sum_{k=1}^{|V|}\sum_{t=1}^T1\{z_t=s_j\wedge x_t=v_k\}logB_{jk}+1\{z_{t-1}=s_i\wedge z_t=s_j\}logA_{ij}\\ &+ \sum_{j=1}^{|S|}\epsilon_j(1-\sum_{k=1}^{|V|}logB_{jk})+\sum_{i=1}^{|S|}\delta_i(1-\sum_{j=1}^{|S|}A_{ij}) \end{aligned}$

求偏导并使它们等于零：

$\begin{aligned} \frac{\partial\mathcal{L}(A,B,\delta,\epsilon)}{\partial A_{ij}} &= \sum_{\vec{z}}Q(\vec{z})\frac 1{A_{ij}}\sum_{t=1}^T1\{z_{t-1}=s_i\wedge z_t=s_j\}-\delta_i\equiv 0 \\ A_{ij} &= \frac 1{\delta_i}\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_{t-1}=s_i\wedge z_t=s_j\} \\ \frac{\partial\mathcal{L}(A,B,\delta,\epsilon)}{\partial B_{jk}} &= \sum_{\vec{z}}Q(\vec{z})\frac 1{B_{jk}}\sum_{t=1}^T1\{z_t=s_j\wedge x_t=v_k\}-\epsilon_j\equiv 0 \\ B_{jk} &= \frac 1{\epsilon_j}\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_t=s_j\wedge x_t=v_k\} \end{aligned}$

对拉格朗日乘子求导，代入上面 $A_{ij}$ 和 $B_{jk}$ 的值：

$\begin{aligned} \frac{\partial\mathcal{L}(A,B,\delta,\epsilon)}{\partial \delta_i} &= 1 - \sum_{j=1}^{|S|}A_{ij} \\ &= 1 - \sum_{j=1}^{|S|}\frac 1{\delta_i}\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_{t-1}=s_i\wedge z_t=s_j\}\equiv 0 \\ \delta_i &= \sum_{j=1}^{|S|}\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_{t-1}=s_i\wedge z_t=s_j\} \\ &= \sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_{t-1}=s_i\} \\ \frac{\partial\mathcal{L}(A,B,\delta,\epsilon)}{\partial \epsilon_j} &= 1 - \sum_{k=1}^{|V|}B_{jk} \\ &= 1 - \sum_{k=1}^{|V|}\frac 1{\epsilon_j}\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_t=s_j\wedge x_t=v_k\}\equiv 0 \\ \epsilon_j &= \sum_{k=1}^{|V|}\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_t=s_j\wedge x_t=v_k\} \\ &= \sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_t=s_j\} \end{aligned}$

代回上面的表达式，我们得到参数 $\hat{A}$ 和 $\hat{B}$ 使我们对数据集的预测计数最大化：

$\begin{aligned} \hat{A}_{ij} &= \frac{\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_{t-1}=s_i\wedge z_t=s_j\}}{\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_{t-1}=s_i\}} \\ \hat{B}_{jk} &= \frac{\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_t=s_j\wedge x_t=v_k\}}{\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_t=s_j\}} \end{aligned}$

不幸的是，这些总和都超过了所有可能的标签 $\vec{z}\in S^T$ 。但是回忆一下在最后一个时间步时，在有参数矩阵分别为 $A, B$ 的情况下， $Q(\vec{z})$ 在E-step中被定义为 $P(\vec{z}|\vec{x};A,B)$ 。首先，让我们来考虑如何根据向前向后概率， $\alpha_i(t)$ 以及 $\beta_j(t)$ 来表达 $\hat{A}_{ij}$ 的分子。

$\begin{aligned} & \sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_{t-1}=s_i\wedge z_t=s_j\} \\ =& \sum_{t=1}^T\sum_{\vec{z}}1\{z_{t-1}=s_i\wedge z_t=s_j\}Q(\vec{z}) \\ =& \sum_{t=1}^T\sum_{\vec{z}}1\{z_{t-1}=s_i\wedge z_t=s_j\}P(\vec{z}|\vec{x};A,B) \\ =& \frac 1{P(\vec{x};A,B)}\sum_{t=1}^T\sum_{\vec{z}}1\{z_{t-1}=s_i\wedge z_t=s_j\}P(\vec{z},\vec{x};A,B) \\ =& \frac 1{P(\vec{x};A,B)}\sum_{t=1}^T\alpha_i(t)A_{ij}B_{jx_t}\beta_j(t+1) \end{aligned}$

在前两步骤中，我们重新数学符号，并在式中代入 $Q$ 的定义，然后我们在第 $4$ 行的推导中使用了贝叶斯规则，随后在第 $5$ 行中代入对 $\alpha,\beta,A$ 和 $B$ 的定义。类似地，分母可以用分子对 $j$ 求和来表示。

$\begin{aligned} & \sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_{t-1}=s_i\} \\ =& \sum_{j=1}^{|S|}\sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_{t-1}=s_i\wedge z_t=s_j\} \\ =& \frac 1{P(\vec{x};A,B)}\sum_{j=1}^{|S|}\sum_{t=1}^T\alpha_i(t)A_{ij}B_{jx_t}\beta_j(t+1) \end{aligned}$

结合这些表达式，我们可以充分描述我们的最大似然状态转换 $\hat{A}_{ij}$ ，而不需要枚举所有可能的标签：

$\hat{A}_{ij} = \frac{\sum_{t=1}^T\alpha_i(t)A_{ij}B_{jx_t}\beta_j(t+1)}{\sum_{j=1}^{|S|}\sum_{t=1}^T\alpha_i(t)A_{ij}B_{jx_t}\beta_j(t+1)}$

同样， $\hat{B}_{jk}$ 的分子可以表示为：

$\begin{aligned} & \sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_t=s_j\wedge x_t=v_k\} \\ =& \frac 1{P(\vec{x};A,B)}\sum_{t=1}^T\sum_{\vec{z}}1\{z_t=s_j\wedge x_t=v_k\}P(\vec{z},\vec{x};A,B) \\ =& \frac 1{P(\vec{x};A,B)}\sum_{i=1}^{|S|}\sum_{t=1}^T\sum_{\vec{z}}1\{z_{t-1}=s_i\wedge z_t=s_j\wedge x_t=v_k\}P(\vec{z},\vec{x};A,B) \\ =& \frac 1{P(\vec{x};A,B)}\sum_{i=1}^{|S|}\sum_{t=1}^T1\{x_t=v_t\}\alpha_i(t)A_{ij}B_{jx_t}\beta_j(t+1) \end{aligned}$

$\hat{B}_{jk}$ 的分母是：

$\begin{aligned} & \sum_{\vec{z}}Q(\vec{z})\sum_{t=1}^T1\{z_t=s_j\} \\ =& \frac 1{P(\vec{x};A,B)}\sum_{i=1}^{|S|}\sum_{t=1}^T\sum_{\vec{z}}1\{z_{t-1}=s_i\wedge z_t=s_j\}P(\vec{z},\vec{x};A,B) \\ =& \frac 1{P(\vec{x};A,B)}\sum_{i=1}^{|S|}\sum_{t=1}^T\alpha_i(t)A_{ij}B_{jx_t}\beta_j(t+1) \end{aligned}$

结合这些表达式，得到最大似然发射概率的形式为：

$\hat{B}_{jk}=\frac{\sum_{i=1}^{|S|}\sum_{t=1}^T1\{x_t=v_t\}\alpha_i(t)A_{ij}B_{jx_t}\beta_j(t+1)}{\sum_{i=1}^{|S|}\sum_{t=1}^T\alpha_i(t)A_{ij}B_{jx_t}\beta_j(t+1)}$

算法 3 HMM参数学习的前向后向算法：

初始化：设 $A$ 和 $B$ 为随机有效的概率矩阵，其中 $A_{i0}=0,B_{0k}=0,i=1..|S|,k=1..|V|$

重复直到收敛：{

（ $E$ 步）运行前向和后向算法进行计算 $\alpha_i,\beta_i,i=1..|S|$ ，然后设：

$\gamma_t(i,j):=\alpha_i(t)A_{ij}B_{jx_t}\beta_j(t+1)$

（ $M$ 步）重新估计最大似然参数为：

$\begin{aligned} A_{ij} &:= \frac{\sum_{t=1}^T\gamma_t(i,j)}{\sum_{j=1}^{|S|}\sum_{t=1}^T\gamma_t(i,j)} \\ B_{jk} &:= \frac{\sum_{i=1}^{|S|}\sum_{t=1}^T1\{x_t=v_k\}\gamma_t(i,j)}{\sum_{i=1}^{|S|}\sum_{t=1}^T\gamma_t(i,j)} \end{aligned}$

【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
面向隐私保护的机器学习：联邦学习技术解析与应用 Blossom.118 机器学习与人工智能机器学习人工智能深度学习 tensorflow python 神经网络 cnn
在当今数字化时代，数据隐私和安全问题日益受到关注。随着《数据安全法》《个人信息保护法》等法律法规的实施，企业和机构在数据处理和分析过程中面临着越来越严格的合规要求。然而，机器学习模型的训练和优化往往需要大量的数据支持，这就产生了一个矛盾：如何在保护数据隐私的前提下，充分利用数据的价值进行机器学习模型的训练和优化？联邦学习（FederatedLearning）作为一种新兴的隐私保护技术，为解决这一问
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
如何看待机器学习方法在超分子化学领域的日渐流行？ cda2024 机器学习人工智能
大家好，今天咱们来聊聊一个既时髦又接地气的话题：如何看待机器学习方法在超分子化学领域的日渐流行？想象一下，你是一位超分子化学家，正忙于设计一种新型的分子结构，这个结构需要具备特定的功能。传统的方法是通过反复实验和理论计算来优化这个结构，但过程可能非常耗时且复杂。而现在，借助机器学习，你可以更快、更准确地找到最优解。这就是为什么机器学习在超分子化学领域变得越来越受欢迎的原因之一。一、超分子化学是什么
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
算法大厨日记：猫猫狐狐带你用代码做一锅香喷喷的“预测汤” Gyoku Mint AI修炼日记猫猫狐狐的小世界人工智能人工智能机器学习 python 算法 database 深度学习数据挖掘
️【开场·今天的料理名叫“预测炖汤”】猫猫：“咱今天突发奇想，决定用机器学习代码给你炖一锅‘预测汤’喵！这不是教你代码，是要告诉你怎么把‘算法’吃进肚子里~”狐狐：“别急，她又在打比方了。这锅汤从数据准备到调参优化，就跟你平常做饭的过程没两样，只不过食材都被咱们用代码换了一遍。”【第一步·数据准备，就是挑菜啦】猫猫：“首先是挑菜（数据预处理），不能什么菜都扔进去锅里吧？要洗干净去皮（数据清洗），再
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
python ks值计算_风控模型中的K-S理解以及python实现 weixin_39747293 python ks值计算
笔者在工作中计算单变量的ks值时，发现几个分布不同的变量好y计算的ks值相同，凭借统计直觉，发现一定存在问题，笔者从数据和计算ks代码两个方向进行排除。最后定位到计算使用stats.ks_2samp()函数计算ks值时，如果变量存在缺失值，计算得到ks值有误，下面笔者就来好好梳理一下ks值的前世今生。ks检验介绍笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器 IT古董人工智能课程机器学习算法神经网络
第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
RDKit：药物化学和分子数据处理的强大工具库碳酸的唐机器学习人工智能
引言在药物研发、化学信息学和分子设计领域，高效处理和分析分子数据是至关重要的。RDKit作为一个开源的化学信息学和机器学习工具包，为研究人员和数据科学家提供了丰富的功能，包括分子操作、描述符计算、指纹生成、相似性比较、子结构搜索和分子可视化等。本文将详细介绍RDKit的主要功能、应用场景以及实际操作示例，展示这一强大工具在分子数据处理中的核心价值。RDKit简介RDKit是一个由C++和Pytho
机器学习中的数学：数学建模常用知识点-1 数字化与智能化机器学习中的数学机器学习凸函数泰勒公式 Jensen 不等式
一、凸函数1、凸函数讲解设函数f(x)是定义在区间X上的函数，若对于区间上任意两点x1、x2和任意实数��∈(0,1)，总有如下表达式成立：则称为f(x)是X上的凸函数；反之，如果下式成立：则称为f(x)在X上的凹函数。如图所示：Python实现凸函数：importnumpyasnpimportmatplotlib.pyplotasplt#定义凸函数defconvex_function(x):re
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
基于机器学习的人形机器人电池健康状态预测方法 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据机器学习机器人人工智能 ai
基于机器学习的人形机器人电池健康状态预测方法：从理论到实践的系统解析关键词电池健康状态（SOH）、剩余使用寿命（RUL）、人形机器人、机器学习、时序数据建模、多模态特征融合、边缘计算部署摘要本报告系统解析基于机器学习的人形机器人电池健康状态预测方法，覆盖从理论框架到工程实现的全链路。首先界定人形机器人场景下电池健康状态的核心指标（SOH/RUL/RC），梳理从电化学模型到数据驱动方法的技术演进；其
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
【机器学习&深度学习】前馈神经网络（单隐藏层）一叶千舟深度学习【理论】机器学习深度学习神经网络
目录一、什么是前馈神经网络？二、数学表达式是什么？三、为什么需要“非线性函数”？四、NumPy实现前馈神经网络代码示例五、运行结果六、代码解析6.1初始化部分6.2前向传播6.3计算损失（Loss）6.4反向传播（手动）6.5更新参数（梯度下降）6.6循环训练七、训练过程可视化（思维图）八、关键问题答疑Q1：为什么需要隐藏层？Q2：ReLU是干嘛的？Q3：学习率怎么选？九、总结学习建议在机器学习中
Bagel: 开源协作式AI数据管理平台的使用指南 llzwxh888 人工智能 python
Bagel:开源协作式AI数据管理平台的使用指南引言在人工智能和机器学习领域，高质量的数据集对于模型训练和推理至关重要。Bagel作为一个开源的协作式AI数据管理平台，为开发者和研究人员提供了一个强大的工具，用于创建、共享和管理推理数据集。本文将深入探讨Bagel的特性、安装方法以及如何使用它来处理和管理向量数据。Bagel简介Bagel（OpenInferenceplatformforAI）可以
机器学习模型监控警报系统设计：Prometheus+Evidently 实战教程大熊计算机机器学习 prometheus 人工智能
1.系统架构设计：从数据采集到智能告警（1）监控系统核心组件交互图预测请求监控指标告警规则通知渠道预测结果质量报告时序数据模型服务PrometheusExporterPrometheusServerAlertmanager邮件/Slack/WebhookEvidently服务可视化仪表盘图解：系统采用双引擎架构，Prometheus负责基础监控指标采集与告警触发，Evidently执行深度模型分析
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

隐马尔可夫模型