10382

传统声学模型之HMM和GMM

声学模型是指给定声学符号(音素)的情况下对音频特征建立的模型。

数学表达

用 $X$ 表示音频特征向量 (观察向量)，用 $S$ 表示音素 (隐藏/内部状态)，声学模型表示为 $P(X|S)$。

但我们的机器是个牙牙学语的孩子，并不知道哪个音素具体的发出的声音是怎么样的。我们只能通过大量的数据去教他，比如说在拼音「é」的时候对应「鹅」的发音，而这个过程就是 GMM 所做的，根据数据建立起「é」这个拼音对应的音频特征分布，即 $P(x|s=é)$。孩子学会每个拼音的发音后，就可以根据拼音拼读一个单词 / 一个句子，但你发现他在读某段句子的时候，听起来好像怪怪的，你检查发现是他把某个拼音读错了，导致这句话听起来和常理不符。而这个怪怪的程度就是你听到这个音频特征序列的时感觉这个音频序列以及其背后的拼音出现的可能性的倒数，这部分则是通过 HMM 来建模的。

总结一下，GMM 用于对音素所对应的音频特征分布进行建模，HMM 则用于音素转移和音素对应输出音频特征之间关系的建模。

HMM

即为隐马尔可夫模型（Hidden Markov model，HMM）

HMM 脱胎于马尔可夫链，马尔可夫链表示的是一个系统中，从一个状态转移到另一个状态的所有可能性。但因为在实际应用过程中，并不是所有状态都是可观察的，不过我们可以通过可观察到的状态与隐藏状态之间的可能性。因此就有了隐马尔可夫模型。

HMM 要遵循的假设：

一阶马尔可夫假设：下一个状态只依赖于当前的状态。因此多阶马尔可夫链可简化为

\[P(s_{t+1} | s_1,s_2,\ldots,s_t) = P(s_{t+1} | s_t) \]
输出无关假设：每个输出只取决于当前 (内部/隐藏) 状态，和前一个或多个输出无关。

声学模型为什么要用HMM？

因为声学模型建立的是在给定音素序列下输出特定音频特征序列的似然 $P(X|S)$，但在实际情况中，我们只知道音频特征序列，并不知道其对应的音素序列，所以我们需要通过 HMM 建立音频特征与背后的每个音素的对应关系，以及这个音素序列是怎么由各个音素组成的。

上两个假设可以引申出 HMM 中主要的两种概率构成：

从一个内部状态 $i$ 转移到另一个内部状态 $j$ 的概率称为转移(Transition) 概率，表示为 $a_{ij}$。
在给定一个内部状态 $j$ 的情况下观察到某个观察值 $x_t$ 的概率称为输出(Emission)概率，表示为 $b_j(x_t)$。

HMM 的三个经典问题

评估问题 Estimation
解码问题 Decoding
训练问题 Learning

⚠️：后文提到的状态即指的是内部 / 隐藏状态。

评估问题

评估问题就是说，我已知模型参数 $\theta$ (输出概率以及转移概率)，最后得到的观察序列为某个特定序列 $X$ 的概率是多少。

在刚才的例子中，就是孩子已经知道每个拼音后面可能接什么拼音，每个拼音怎么读，当他读出了某段声音，这段声音的概率是多少。

因为在观察序列固定的情况下，有多种可能的状态序列 $S$，而评估问题就是要计算出在所有可能的状态下得到观察序列的概率，表示为

\[\begin{aligned} P(X) = \sum_S P(X | S) P(S) \\ \end{aligned} \]

在当前的公式里，我们暂时先忽略固定的参数 $\theta$。根据一阶马尔可夫假设，时刻 $t$ 的状态都只取决于时刻 t-1 的状态，因此单个状态序列出现的概率表示为

\[\begin{aligned} P(S) &= P(s_1) \prod^T_{t=2} P(s_t|s_{t-1}) \\ &= \pi_k \prod^T_{t=2} a_{ij} \end{aligned} \]

其中， $\pi_k$ 表示时刻1下状态为 $k$ 的概率。

根据输出无关假设，在时刻 $t$ 观察序列的值只取决于时刻 $t$ 的状态，因此观察序列关于状态序列的似然表示为

\[P(X|S) = \prod_{t=1}^T P(x_t|s_t) = \prod_{t=1}^T b_j(x_t) \]

因此整个观察序列出现的概率为

\[\begin{aligned} P(X) &= \sum_S P(X | S) P(S) \\ &= \sum_S \pi_k b_k(x_1) \prod^T_{t=2} a_{ij} b_j(x_t) \end{aligned} \]

由于 $i,j,k$ 都表示可能的状态，假设有 $n$ 种状态，那么计算该概率的事件复杂度就为 $O(n^T)$，可谓是指数级别了。

因此，前人开动了脑筋，提出了在该问题上将时间复杂度将为多项式时间的方法。

似然前向算法

该方法采用了分治 / 动态规划的思想，在时刻 $t$ 下的结果可以利用时刻 $t-1$ 的结果来计算。

在时刻 $t$，观察序列的概率表示为前 $t$ 个时刻的观察序列与时刻 $t$ 所有可能的状态同时出现的概率和

\[P(x_1,x_2,\ldots,x_t) = \sum_{j\in N} P(x_1,x_2,\ldots,x_t,s_t=j) \]

其中， $N$ 表示所有可能的状态的集合。

而连加符号的后面部分被定义为前向概率 $\alpha_t(j)$，而它可以被上一个时刻的前向概率迭代表示。

\[\begin{aligned} \alpha_t(j) &=P(x_1,x_2,\ldots,x_t,s_t=j) \\ &= \sum_{i\in N} P(x_1,x_2,\ldots,x_{t-1},s_{t-1}=i)P(s_t|s_{t-1}=i)P(x_t|s_{t}=j) \\ &= \sum_{i\in N}\alpha_{t-1}(i) a_{ij} b_j(x_t) \end{aligned} \]

通过该方法，当前时刻下某个状态的概率只需要遍历上一时刻所有状态的概率 ($n$)，然后当前时刻的所有状态的概率和也只需要遍历当前的所有状态就可以计算得到 ($n$)，考虑到观察序列持续了 $T$ 个时刻，因此时间复杂度降为 $O(n^2T)$。

整个过程总结如下

初始化：根据初始的状态分布，计算得到时刻1下每个状态的前向概率 $\alpha_1(k) = \pi_k b_k(x_1)$
对于每个时刻，计算该时刻下每个状态的前向概率 $\alpha_t(j) = \sum_{i\in N}\alpha_{t-1}(i) a_{ij} b_j(x_t)$
最终得到结果 $P(X) = \sum_{i\in N}\alpha_{T}(i)$

解码问题

解码问题就是说在得到 HMM 模型之后，我们如何通过观察序列找到最有可能的状态序列。在语音识别中，在给定的音频片段下，找到对应的各个音素。

还是刚才的例子，我们需要猜测孩子读出的这段声音最有可能对应什么样的拼音序列，这就是解码问题。

Viterbi 算法

数学表示

给定在时间 $t$ 下的内部状态为 $j$，局部最优概率 $v_t(j)$ 表示的是在时刻 $t$ 观察序列与最优内部状态序列的联合概率。

\[v_{t}(j)=\max _{s_{0}, s_{1} \ldots s_{t-1}} P\left(s_{0}, s_{1}, \ldots, s_{t-1}, x_{1}, x_{2}, \ldots, x_{t}, s_{t}=j | \theta\right) \]

同样也可以根据时间递归表示为

\[v_{t}(j)=\max_{i \in N} v_{t-1}(i) a_{i j} b_{j}\left(x_{t}\right) \]

算法具体流程如下

初始化：根据初始的状态分布，计算得到时刻1下每个状态的最优概率 $v_1(k) = \pi_k b_k(x_1)$
对于每个时刻，计算该时刻下每个状态的局部最优概率 $v_t(j) = \max_{i\in N}v_{t-1}(i) a_{ij} b_j(x_t)$，记录下最优局部最优序列 $(s_1^*,s_2^*,\ldots,s_{t-2}^*) \bigcup (s_{t-1}^*)$
最终得到全局最优概率 $P(X,S^*) = \max_{i\in N} v_T(i)$
得到全局最优序列 $S^* = \arg \max_{i\in N} v_T(i), S^* = (s_1^*,s_2^*,\ldots,s_T^*)$

在表示上很类似于上面的前向算法，只是加和变成了取最大值。具体推导流程也就不再赘述了。两者的区别可以看下图(来源) ，红线表示解码路径，黑线表示评估路径。

不过这张图是简化的状态，即状态序列 $S$ 是确定的情况下的状态转移与观察序列之间的关系。

思考：为何每次取局部最优最后就能得到全局最优？

这和一阶马尔可夫假设有关，因为每一个时刻的状态只取决于上一个时刻的状态，因此只要上一个时刻每一个状态的前向概率是最大的，再乘上这一时刻对某个状态的转移概率和输出概率，而这两个概率在参数表里是固定的，因此再选出乘出来的概率最大即可保证该时刻在这个时刻为这个状态的概率最大，直到最后一个时刻。（类似于动态规划的状态转移方程思想）

训练问题

训练 (learning) 问题主要是如何学习 HMM 模型参数(输出概率和表现概率)的问题。在语音识别中，即在一开始只有音频和标注的情况下，如何学习到模型。

还是刚刚那个例子，假如说你没有教孩子，但给了他本语文教材和对应的录音磁带，他需要通过教材中的拼音和磁带中的录音来训练语感 (比如说哪个拼音读什么音，每个拼音之后可能会跟什么拼音)。他自学成才了以后我们才能做刚刚那两个问题。

所以说训练问题是评估和解码问题的基础，但是是三个问题中最复杂的，因为它是无闭式解的。

HMM 参数估计方法：

最大似然：Baum-Welch 算法
贝叶斯：最大后验
判别训练：MMI，MCE，MPE，sMBR

Baum–Welch 算法

HMM训练问题的标准算法，又称前向后向算法，是 EM 算法的特例。

后向算法的表示和前向算法类似，而后向概率 $\beta_t(i)$ 表示的是在给定 $t$ 时刻状态为 $i$，看到时刻 t+1 到时刻 $T$ 观察序列的概率，表示为

\[\begin{aligned} \beta_{t}(i) &= P(x_{t+1},x_{t+2},\ldots,x_{T}|s_{t} = i) \\ &= \sum_{j \in N} P(s_{t+1}=j | s_{t}=i) P(x_{t+1} | s_{t+1}=j) P(x_{t+1},x_{t+2},\ldots,x_{T}|s_{t+1} = j) \\ &= \sum_{j \in N} a_{ij}b_{t+1}(j)\beta_{t+1}(j) \\ \beta_{T}(i) &= 1 \\ \end{aligned} \]

最后，整个观察序列出现的概率用后向算法表示为

\[P(X) = \sum_{j \in N} \pi_{j} b_{j}\left(x_{1}\right) \beta_{1}(j) \]

为了能学习 HMM 模型参数，我们可以通过一个最大似然估计的变体评估我们的转移概率 $\hat{a}_{ij}$ ，可以表示为

\[\hat{a}_{ij} = \frac{从状态i转移到状态j的期望次数}{从状态i转移到所有状态的期望次数} \]

但如何计算这些次数是个问题，假设我们可以估计在时刻 $t$ 和给定观察序列下从状态 $i$ 转移到状态 $j$ 的概率，那我们就可以把每个时刻的概率加起来作为从状态 $i$ 转移到状态 $j$ 的总次数。

我们定义了一个「状态转移占有(occupation)率」 $\xi_{t}(i,j)$ ，作为给定所有观察序列的情况下在时刻 $t$ 状态为 $i$ 后下一时刻转移到状态 $j$ 的概率，表示为

\[\begin{aligned} \xi_{t}(i,j) &=P\left(s_{t}=i, s_{t+1}=j | X, \theta\right) \\ &=\frac{P\left(s_{t}=i, s_{t+1}=j, X | \theta\right)}{P(X | \theta)} \end{aligned} \]

下图(修改自来源)直观地展示了 $\xi_{t}(i,j)$ 分子部分的计算过程，因此其分子可以表示为 $\alpha_{t}(i) a_{i j} \beta_{t+1}(j) b_{j}\left(x_{t+1}\right)$

而其分母部分则可以表示为某个时刻所有状态的前向概率和后向概率的乘积和

\[\begin{aligned} P(X | \theta) &= \sum_{k \in N}P(X_{1}^t, s_t=k | \theta)P(X_{t+1}^T | s_t = k, \theta)\\ & = \sum_{k\in N} \alpha_{t}(k) \beta_{t}(k)\\ \end{aligned} \]

因此 $\xi_{t}(i,j)$ 最后可表达为

\[\xi_{t}(i,j)=\frac{\alpha_{t}(i) a_{i j} \beta_{t+1}(j) b_{j}\left(x_{t+1}\right)}{\sum_{k\in N} \alpha_{t}(k) \beta_{t+1}(k)} \]

我们可以把各个时刻的 $\xi_{t}(i,j)$ 加起来作为「从状态 $i$ 转移到状态 $j$ 的期望次数」，再将状态 $j$ 所有可能的状态下的期望次数加和就可以得到「从状态 $i$ 转移到所有状态的期望次数」，从而计算得到 $\hat{a}_{ij}$。

\[\hat{a}_{i j}=\frac{\sum_{t=1}^{T-1} \xi_{t}(i,j)}{\sum_{t=1}^{T-1} \sum_{j \in N}\xi_{t}(i,j)} \]

我们同样需要一个用于计算输出概率 $\hat{b}_j(v_k)$ 的最大似然估计公式，$v_k$ 表示的是输出序列中的第 $k$ 个音素对应的音频特征。

\[\hat{b}_j(x_t) = \frac{在状态j下观察到v_k的期望次数}{在状态j下所有的期望观察次数} \]

为了计算这个公式，我们需要知道在给定观察序列的情况下在时刻 $t$ 的状态为 $i$ 的概率，我们将其称为「状态占有率」 $\gamma_{t}(i)$,

\[\begin{aligned} \gamma_{t}(i) &=P\left(s_{t}=i | X, \theta\right)\\ &= \frac{P\left(s_{t}=i, X | \theta\right)}{P(X | \theta)} \\ \end{aligned} \]

而分子部分的概率其实刚刚我们在计算 $\xi_{t}(i,j)$ 分母时已经用到了，即时刻 $t$ 下为状态 $i$ 的前向概率乘上后向概率。

\[\begin{aligned} \gamma_{t}(i) &= \frac{P(X_{1}^t, s_t=i | \theta)P(X_{t+1}^T | s_t = i, \theta)}{p(X | \theta)}\\ &=\frac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{k\in N} \alpha_{t}(k) \beta_{t}(k)} \end{aligned} \]

得到了 $\gamma_{t}(i)$ 以后，就可以用他来计算 $\hat{b}_j(v_k)$ 了，我们加上了所有 $x_t$ 为 $v_k$ 的时刻的 $\gamma_{t}(i)$ 作为分子，而分母就是所有时刻的 $\gamma_{t}(i)$ 之和。

\[\hat{b}_{i}\left(v_k\right)=\frac{\sum_{t=1,s.t. x_t=v_k}^{T} \gamma_{t}(i)}{\sum_{t=1}^{T} \gamma_{t}(i)} \]

同时，$\hat{a}_{ij}$ 的分母也可以用 $\gamma_{t}(i)$ 来表示

\[\hat{a}_{i j}=\frac{\sum_{t=1}^{T-1} \xi_{t}(i,j)}{\sum_{t=1}^{T-1} \gamma_{t}(i)} \]

得到新的 HMM 参数 $\theta_1$ 后，又可以计算得到新的 $\theta_2$，同样又可以估计得到新的最佳 $\theta_1$，一直迭代这个过程直到收敛。

在 E 步建立 $P(\gamma,\xi | x, a, b)$，然后 M 步找到将上式最大化的参数 $a, b$，具体流程如下

初始化：初始化转移概率矩阵 $A$，以及输出概率矩阵 $B$
E 步：
1. 计算得到每个时刻的每个状态的前向概率 $\alpha_t(i)$ 和后向概率 $\beta_t(i)$
2. 更新状态占有率 $\gamma_{t}(i)$ 和状态转移占有率 $$\xi_{t}(i,j)$$
M 步：
1. 计算得到期望概率：
  1. 期望初始化概率 $\hat{\pi}_{i}=\gamma_{1}(i)$
  2. 期望转移概率 $\hat{a}_{ij}$
  3. 期望输出概率 $\hat{b}_j(v_k)$
不停迭代 E 步 M 步直到收敛

尽管从原理上来讲前向后退算法可以完全无监督地学习参数，但实际上初始化非常重要。因此，通常会给算法额外的信息。例如，对于基于 HMM 的语音识别，通常手动设定 HMM 结构，并且从一组观察序列 $X$ 中仅训练输出概率和(非零的)转移概率。

GMM

高斯混合模型 (Gaussian mixture model，GMM) 就是用混合的高斯随机变量的分布来拟合训练数据（音频特征）形成的模型。该方法提供了一种基于规则的方法来衡量一个音素和被观察音频帧的「距离」。

给定一个音素，我们可以使用 GMM 学习观察值的特征向量，这个概率分布允许我们在给定一个音素(状态)下计算音频段的似然 $P(x | s)$.

单变量高斯分布

假设观察向量中某个特征 $x$ 的分布为正态分布，那么该特征 $x$ 的似然函数可以表示为均值为 $\mu$ 方差为 $\sigma^2$ 的高斯分布

\[f(x|\mu,\sigma)=\mathcal{N}\left(\mu, \sigma^{2}\right)=\frac{1}{\sigma \sqrt{2 \pi} } e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} \]

在被标记了状态的训练数据下，我们可以计算的到关于状态 $i$ 的均值和方差

\[\begin{array}{l} \mu_{i}=\frac{1}{T} \sum_{t=1}^{T} x_{t} & \text { s.t. } x_{t} \text { is state } i \\ \sigma_{i}^{2}=\frac{1}{T} \sum_{t=1}^{T}\left(x_{t}-\mu_{i}\right)^{2} & \text{ s.t. } q_{t} \text { is state } i \end{array} \]

高斯分布易于从训练数据中学习并且让我们有了一个良好的似然函数 $f(x|\mu,\sigma)$。在语音识别中我们可以为每个音素(状态)学到一个高斯分布，这将作为似然概率，也可以作为 HMM 中的输出概率。

根据 HMM 在时刻 $t$ 下所处状态 $i$ 的概率，将每个观察向量 $x_t$ 按比例分配给每个可能的状态 $i$。而在时刻 $t$ 处于状态 $i$ 的概率在 HMM 中为表示为状态占有率 $\gamma_t(i)$，因此可以在将高斯分布的参数期望表示为

\[\bar{\mu}_{i}=\frac{\sum_{t=1}^{T} \gamma_{t}(i) x_{t}}{\sum_{t=1}^{T} \gamma_{t}(i)} \quad \bar{\sigma}_{i}^{2}=\frac{\sum_{t=1}^{T} \gamma_{t}(i)\left(x_{t}-\mu_{i}\right)^{2}}{\sum_{t=1}^{T} \gamma_{t}(i)} \]

多变量高斯分布

在多变量高斯分布中，我们将均值 $\mu$ 替换为多个特征均值的向量 $\boldsymbol{\mu} = \left(\mu_1,\ldots,\mu_n\right)^T$，将方差 $\sigma$ 替换为协方差矩阵 $\Sigma\in\mathbb{R}^{n\times n}$，其中第 $i$ 行 $j$ 列个元素表示为 $\sigma_{ij}^2 = E\left[(x_i-\mu_i)(x_j-\mu_j)\right]$，最终的高斯分布表示为

\[f(x | \boldsymbol{\mu}, \Sigma)=\frac{1}{(2 \pi)^{n / 2}|\Sigma|^{1 / 2}} e^{-\frac{1}{2}(x-\boldsymbol{\mu})^{T} \Sigma^{-1}(x-\boldsymbol{\mu})} \]

通过快速傅立叶变化 FFT 得到的特征之间是相关的，但通过梅尔倒谱相关系数 MFCC 得到的特征之间是不相关的。在特征不相关的情况下，协方差矩阵是对角阵，计算和存储代价小了很多。这样我们就可以单独考虑每个声学特征的方差。

混合高斯分布

但单个高斯分布可能并不能很好地来对特征的分布进行建模 (现实世界总是没有那么理想化)，因此采用多个加权的高斯分布来对对特征分布建模。

比如说上图(来源)中的3分量 GMM，有6个高斯参数加上3个权重。

因此，对于一个 HMM 的状态 $j$，观察特征向量 $x$ 的似然函数可以表示为

\[b_{j}(x)=p(x | s=j)=\sum_{m=1}^{M} c_{j m} \mathcal{N}\left(x ; \boldsymbol{\mu}_{j m}, \Sigma_{j m}\right) \]

其中 M 为 GMM 的分量数，而 $c_{j m}$ 表示的是在状态 $j$ 下第 $m$ 个分量的权重。

在实际的 GMM 训练中，通常采用 EM 算法来进行迭代优化，以求取 GMM 中的加权系数及各个高斯函数的均值与方差等参数。

缺点：

不能考虑语音的顺序信息
高斯混合分布也很难拟合非线性或者近似非线性的数据特征

最后再重声一下，GMM 用于对音素所对应的音频特征分布进行建模，而 HMM 则用于音素转移和音素对应输出音频特征之间关系的建模。

写不动了，HMM 和 GMM 梳理推导了好久，如果各位读者有不懂的欢迎留言讨论～

参考链接：

Speech Recognition — GMM, HMM
【PDF】CHAPTER A Hidden Markov Models
【PPT】CS 224S-Lecture 5: GMM Acoustic Modeling and Feature Extraction
【PPT】声学模型-V2-赵老师

内测分发平台是否支持应用的微服务化部署咕噜企业签名分发-大圣微服务架构云原生
内测分发平台是否支持应用的微服务化部署，这个问题实际上触及到了现代软件开发和运维的深层次需求。其支持程度不仅仅是一个简单的“是”或“否”的答案，而是涉及到平台的设计理念、技术架构以及实际应用场景的综合考量。首先，一些走在技术前沿的内测分发平台，它们在设计之初就充分考虑了微服务架构的复杂性和多样性。这些平台不仅原生支持微服务架构，还提供了丰富多样的工具和接口，以帮助开发者高效地管理和部署微服务。例如
python编译Edge-tts： Edge tts Player 浩读语音朗读 edge-tts python 自然语言处理 edge 前端
Edge-TTS是Python库，通过微软AzureCognitiveServices转化文本为自然语音，Edge-TTS支持40多种语言和300种声音，提供优质的语音输出，这给学习外语的学生和老师很大的福利。下面，尝试着用python来编写一个简单的TTS转MP3。EdgeTTSfromtkinterimport*fromtkinterimportttkfromtkinter.filedialo
AI摄像头动捕：精准量化八段锦动作质量，赋能传统功法习练
在追求动作标准度的竞技体育、舞蹈教学或运动康复领域，如何科学、客观、高效地评估动作质量一直是核心挑战。如今，AI摄像头动捕技术的成熟，正为这些领域带来突破性的解决方案，尤其在需要高度专注与准确性的八段锦、太极拳等传统健身功法领域中展现出巨大潜力。AI摄像头动捕系统，通过部署多组高帧率RGB摄像头，在空间中构建一个精密的三维捕捉场域。这种无穿戴动捕（或称无标记点动捕）的方式，让用户无需任何设备束缚人
基于人工智能的图表生成器警世龙开发记录人工智能自然语言处理
基于人工智能的图表生成器软件需求分析本项目旨在开发一个基于Web的图表生成工具，利用人工智能技术将自然语言描述转换为专业的流程图、时序图等可视化图表。具体需求如下：支持用户输入自然语言描述来生成图表。提供实时预览功能，让用户能够即时看到生成的图表。允许用户对生成的Mermaid代码进行编辑。支持图表的缩放和平移操作。提供代码保存和图片导出功能。具备快捷键支持，提高用户操作效率。技术选型前端HTML
如何看待机器学习方法在超分子化学领域的日渐流行？ cda2024 机器学习人工智能
大家好，今天咱们来聊聊一个既时髦又接地气的话题：如何看待机器学习方法在超分子化学领域的日渐流行？想象一下，你是一位超分子化学家，正忙于设计一种新型的分子结构，这个结构需要具备特定的功能。传统的方法是通过反复实验和理论计算来优化这个结构，但过程可能非常耗时且复杂。而现在，借助机器学习，你可以更快、更准确地找到最优解。这就是为什么机器学习在超分子化学领域变得越来越受欢迎的原因之一。一、超分子化学是什么
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
Edge-TTS在广电系统中的语音合成技术的创新应用
Edge-TTS在广电系统中的语音合成技术的创新应用作者：本人是一名县级融媒体中心的工程师，多年来一直坚持学习、提升自己。喜欢Python编程、人工智能、网络安全等多领域的技术。摘要随着人工智能技术的快速发展，文字转语音(Text-to-Speech,TTS)系统已成为多种应用的重要组成部分，尤其在广播电视领域。本文介绍了一种基于Edge-TTS大模型的文字转语音工具，该工具结合了现代文本处理和语
数据库的查询爱吃草莓的土拨鼠️ 数据库
一.单表查询1.简单数据查询a.显示指定字段列：使用“*”显示全部字段列；列出字段名显示指定字段列。b.显示字段列别名：使用AS关键字为字段指定别名，方便理解。c.显示计算的列值：通过算术运算符(+-*/%)对字段进行计算，得到新的列值。d.消除重复行：使用DISTINCT参数消除查询结果中的重复行。e.限制行数：利用LIMIT控制返回的行数，可指定偏移量和行数。f.排序：ORDERBY子句按指定
掌握软件工程领域持续集成的部署流程
掌握软件工程领域持续集成的部署流程关键词：持续集成、自动化构建、版本控制、单元测试、持续交付、DevOps、流水线摘要：本文通过面包工厂的生动比喻，揭示持续集成的核心原理。我们将构建一条"代码加工流水线"，用真实的Jenkins配置案例展示从代码提交到自动化部署的全过程，并探讨现代软件开发中持续集成带来的革命性变化。背景介绍目的和范围本文面向初入软件行业的开发者，系统讲解持续集成（Continuo
小柿子影视安卓版，跨平台开发的技术挑战与解决方案 2501_92530989 音视频百度经验分享其他
在移动应用开发的浪潮中，视频类App因其对性能、用户体验、跨平台兼容性要求高，成为开发者面临的重点技术难题之一。本文将结合实际案例，分析一个典型的视频类项目“小柿子”的跨平台开发过程中的关键技术点。一、背景介绍“小柿子影视”是一款轻量级视频播放App，专注于提供清爽的界面和流畅的播放体验。该项目同时支持小柿子安卓与小柿子iOS两个平台，目标用户覆盖广泛。因此，跨平台开发策略、播放器内核选择、缓存机
Serverless架构下的持续交付实践软件工程实践软件工程最佳实践 AI软件构建大数据系统架构 serverless 架构运维 ai
Serverless架构下的持续交付实践关键词：Serverless架构、持续交付、DevOps、无服务器计算、自动化部署摘要：本文深入探讨了Serverless架构下的持续交付实践。首先介绍了Serverless架构和持续交付的背景知识，接着解释了相关核心概念及其关系，详细阐述了核心算法原理与操作步骤，通过数学模型加深理解，结合实际项目案例展示了代码实现与解读，探讨了实际应用场景，推荐了相关工具
深入解析 Cookie、LocalStorage 和 SessionStorage 浪裡遊杂文前端服务器后端信息与通信 tcp/ip 交互
浏览器数据存储三剑客：深入解析Cookie、LocalStorage和SessionStorage在现代Web应用开发中，经常需要在用户的浏览器端存储数据，以实现用户状态管理、个性化设置、离线功能等。浏览器为此提供了几种主要的客户端存储机制，其中Cookie、LocalStorage和SessionStorage是最常用且核心的三种。虽然它们都用于在浏览器端存储数据，但它们在设计目的、生命周期、作
9-STM32的ADC采样和DAM配置水果里面有苹果嵌入式软件 stm32 单片机嵌入式硬件
STM32的ADC采样和DAM配置Adc_Init();//ADC初始化My_DMA_Config(DMA1_Channel1,(u32)&ADC1->DR,(u32)&ADC1_Value,ADC_CHANNEL_NUM*ADC_C_VAL_TIMES);//配置DMA通道DMA_Cmd(DMA1_Channel1,ENABLE);//启动DMA通道ADC_SoftwareStartConvCm
联咏NT98567高度集成边缘IPC应用SoC规格特性 weixin_Todd_Wong2010 边缘计算人工智能计算机视觉 python c++神经网络
联咏NT98567MQG是一款高度集成的SoC，具有高图像质量、低比特率和低功耗的特点，适用于电池应用，目标是2Mp至5Mp/8Mp边缘IP摄像头应用。该SoC集成了双核ARMCortexA7CPU、新一代ISP、H.265/H.264视频压缩编解码器、视频处理引擎（VPE）用于双传感器拼接和鱼眼去畸变、高性能硬件DLA模块、图形引擎、显示控制器、以太网PHY、USB2.0主机/设备、音频编解码器
海思Hi3519DV500方案1200万无人机吊舱套板 weixin_Todd_Wong2010 嵌入式硬件 AI 前端边缘计算图像处理
海思Hi3519DV500方案1200万无人机吊舱套板Hi3519DV500是一颗面向行业市场推出的超高清智能网络摄像头SoC。该芯片最高支持四路sensor输入，支持最高4K@30fps的ISP图像处理能力，支持2FWDR、多级降噪、六轴防抖、全景拼接、多光谱融合等多种传统图像增强和处理算法，支持通过AI算法对输入图像进行实时降躁等处理，为用户提供了卓越的图像处理能力，集成了高效的神经网络推理引
飞算 JavaAI 2.0.0和 AI 编程技术设计的 120 章 Java 系统教程 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总开发语言深度学习 pillow AI编程人工智能
以下是基于飞算JavaAI2.0.0和AI编程技术设计的120章Java系统教程，涵盖从基础到高阶、理论到实践的全栈知识体系，结合经典案例与企业级项目实战，适合零基础到架构师的学习路径：第一部分：基础入门（第1-30章）Java开发环境配置JDK21+IntelliJIDEA+飞算AI插件安装第一个AI生成的HelloWorld程序基础语法与AI辅助编程数据类型、变量、运算符飞算AI：自动生成算法
100G QSFP28双纤单波光模块的高性价比解决方案易天ETU 光模块信息与通信网络 5G 数据中心互联万兆光模块单波100G光模块 QSFP28光模块
我们都知道传统的100G光模块采用的都是4路25G的光学通道并行或波分复用进行传输的，目前市场上主流的光模块主要是100GSR4/CWDM4/PSM4/LR4/ZR4等。而我们今天为大家介绍的100G单波光模块，使用的是单波长100GPAM4调制技术，可以更好的降低生产成本和获得更高的传输效率。一、传统100G光模块和100G单波光模块的区别对比传统的100G光模块采用的是4x25GNRZ技术。使
掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
Aop和Ioc有什么关系？（面试简洁版）乞讨不是罪过面试 java 职场和发展
AOP（面向切面编程）和IoC（控制反转）是Spring框架的两大核心，它们既独立又协作，共同实现松耦合、可扩展的架构设计。以下是它们的核心关系基础关系1.IoC是基石：Spring通过IoC容器（如ApplicationContext）统一管理所有Bean（包括普通业务Bean和AOP代理对象）。没有IoC，AOP无法自动生效。2.AOP是增强：AOP基于IoC管理的Bean，通过动态代理（JD
SR触发器为什么能够消抖马职音人嵌入式硬件
SR触发器（Set-Reset触发器）能够用于**消抖（Debounce）**，主要是因为它的双稳态特性和对输入信号的锁定能力。机械开关（如按键、拨动开关）在闭合或断开时，由于金属触点的弹性，会在短时间内产生多次快速通断（即“抖动”），导致信号出现多个脉冲。SR触发器可以通过其逻辑特性消除这些抖动，确保输出稳定的电平信号。---##**SR触发器消抖的原理**###**1.SR触发器的基本特性**
浏览器存储机制解析：Cookie vs localStorage vs sessionStorage neon1204 计算机｜网络计算机网络缓存
全面对比：cookie、localStorage和sessionStorage1.Cookie核心作用：用于浏览器和服务器通信（如身份验证）存储大小：最多4KB生命周期：可设置过期时间（通过Expires或Max-Age）未设置则随浏览器会话结束失效访问方式：读/写：document.cookie（字符串形式）修改需手动字符串拼接通信特性：每次HTTP请求自动携带（通过请求头）增加网络负担安全相关
电赛DEEPSEEK 马职音人嵌入式硬件 stm32 学习单片机 HAL库
以下是针对竞赛题目的深度优化方案，重点解决频率接近时的滤波难题和相位测量精度问题：以下是使用NIMultisim14.3实现本项目的详细解决方案：一、基础要求实现方案（模块化设计）1.双频信号发生电路电路结构：[信号源1]XFG1（1kHz）->[电压跟随器U1A]->[加法器U2A][信号源2]XFG2（10kHz）->[电压跟随器U1B]->[加法器U2A]关键参数设置：元件清单：-运算放大器
element plus封装表单组件和跨组件的表单校验 2302_79447558 vue.js elementui javascript
最基础的表单组件封装在做项目的时候,刚开始并没有想到要做表单校验,项目又有超级多的表单要生成,所以最开始想到高度封装一个表单组件,通过参数来生成表单,并进行传值等操作下面展示了部分代码(远程搜索感觉还挺有意思的,所以保留下来了){ele.remoteFunc(ele,queryString)}"default-first-option:loading="ele.loading">import{re
钉钉小程序框架引入 Pinia 状态管理
上一篇文章描述了如何使用其他手段实现路由守卫文章地址：钉钉小程序开发中实现路由守卫拦截-CSDN博客本文将深入探讨如何在基于这些技术栈的小程序项目中引入状态管理插件一、了解PiniaPinia是一个全新的Vue状态管理库，旨在替代Vuex成为Vue3应用程序中的首选状态管理解决方案。它提供了更加简洁的API和更好的TypeScript支持。通过结合使用UniApp、Vue3、TypeScript和
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑 Echo_Wish Python 进阶人工智能
非结构化数据真“野”？聊聊AI处理它时踩过的那些坑在AI圈子里有一句“老话”：真正的世界，是非结构化的。图像、音频、视频、文本、传感器原始数据……这些在数据库里没个字段、没个主键的家伙，占据了全世界80%以上的数据量。咱们都喜欢说“数据是新时代的石油”，但很少人说：非结构化数据，就是粘稠未提炼的原油——处理它，才是最累的活。这篇文章，我不想跟你讲那些“炫技”的论文和模型，而是从一个一线AI工程师的
vue-28（服务器端渲染（SSR）简介及其优势）清幽竹客 VUE vue.js javascript
服务器端渲染（SSR）简介及其优势服务器端渲染（SSR）是现代网络应用的关键技术，特别是使用Vue.js等框架构建的应用。它通过在服务器上渲染初始应用状态来弥补传统单页应用（SPA）的局限性，从而提升性能、SEO和用户体验。本课程将全面介绍SSR，包括其优势以及与客户端渲染的对比。我们将为后续课程中使用Nuxt.js奠定基础，这是一个强大的框架，简化了Vue.js的SSR实现。理解服务器端渲染（S
Python中类基础知识详解和应用点云SLAM Python python 开发语言深度学习人工智能计算机视觉 python中的类学习
Python类知识详解类的定义语法class类名:#类体（属性、方法）示例：classPerson:pass创建类的实例（对象）p=Person()#创建一个类的对象（实例）类的构造方法（__init__）__init__是类的构造函数，在实例化对象时自动调用，用于初始化属性。classPerson:def__init__(self,name,age):self.name=nameself.age
软件测试工作总结
软件测试经验，总结了一些心得。软件测试零基础从入门到精通【企业真实项目实战】首先是测试流程，流程相对于工作不光是规范，同时也是在告诉我们每个阶段需要做什么。然后是测试用例，主要是说明测试用例的必要性和编写的方法。第三是缺陷管理，包括了缺陷的生命周期以及录入一个缺陷生命周期需要哪些要素。第四是测试报告，简要说明测试报告应该包含的内容。第五是其他测试。一、测试流程1）项目启动时，项目经理根据项目的需求
探索Android开发新境界：Kotlin协程实战乐园黎情卉Desired
探索Android开发新境界：Kotlin协程实战乐园AndroidCoroutinesPlaygroundAndroidCoroutinesPlayground项目地址:https://gitcode.com/gh_mirrors/an/AndroidCoroutinesPlayground在快速迭代的移动开发领域，异步处理和代码结构的清晰性至关重要。今天，我们向您隆重推荐一个极佳的开源项目——
远程办公与协作新趋势：从远程桌面、VDI到边缘计算，打造高效、安全的混合办公环境北极光SD-WAN组网边缘计算安全人工智能
一、引言随着数字化转型的加速，越来越多的企业开始采用远程办公和混合办公模式，以提升员工的灵活性和企业的敏捷性。然而，异地办公也带来了诸如桌面环境不一致、安全风险增加、沟通协作效率降低等诸多挑战。因此，如何打造一致、安全且高效的远程办公环境，成为企业管理者急需破解的难题。本文将从远程桌面与虚拟桌面基础架构（VDI）、协作工具与平台集成、边缘计算在混合办公中的应用三个维度，分析如何构建一个高效、安全且
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include