happy_hongwei

机器学习之隐马尔科夫模型(HMM)原理及Python实现 (大章节)

HMM

隐马尔可夫模型（hidden Markov model, HMM）是可用于标注问题的统计学模型，是生成模型。

本章节内容参考李航博士的《统计学习方法》
本章节添加了一些结论性结果的推导过程。

1. 从一个自然语言处理的例子开始

例如有三个个句子：
句子一：我/名词看见/动词猫/名词
句子二：猫/名词是/动词可爱的/形容词
句子三：我/名词是/动词可爱的/形容词
一般只能观察到具体的词，所以像"我看见猫 …"是观测集合，而词性如"名词动词形容词 …"是状态序列

设 $Q$ 是所有可能的状态集合， $V$ 是所有可能的观测集合：

$Q = \{q_1, q_2, ..., q_N\}, V=\{v_1, v_2, ..., v_M\}$

其中， N是可能的状态数，M是可能的观测数。

例如： $Q=\{名词，动词，形容词 \}，V=\{我，看见，猫，是，可爱的\}，N=3, M=5$

$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列：

$I = \{i_1, i_2,..., i_T \}, O=\{o_1, o_2,..., o_T\}$

例如： $I = (名词，动词，名词) ， O = (我，看见，猫)$

$A$ 是状态转移矩阵：

$A=[a_{ij}]_{N*N} \tag1$

其中，

$a_{ij} = p(i_{t+1}=q_j|i_t=q_i), i=1,2,...,N; j=1,2,...,N \tag2$

例如：

转态转移概率	名词	动词	形容词
名词	0	1	0
动词	1/3	0	2/3
形容词	1/3	1/3	1/3

$B$ 是观测概率矩阵，也就是发射矩阵：

$B=[b_j(k)]_{N*M} \tag3$

其中，

$b_j(k) = p(o_t=v_k|i_t=q_j), k=1,2,...,M; j=1,2,...,N \tag4$

例如：

观测矩阵概率	我	看见	猫	是	可爱的
名词	1	0	1	0	0
动词	0	1	0	1	0
形容词	0	0	0	0	1

$\pi$ 是初始状态概率向量：

$\pi = (\pi_i) \tag5$

其中，

$\pi_i = p(i_1 = q_i), i = 1,2,...,N \tag6$

$A, B$ 和 $\pi$ 是HMM的参数，用 $\lambda$ 表示：

$\lambda = (A,B,\pi) \tag7$

例如：

名词	动词	形容词
1	0	0

隐马尔可夫的三个基本问题
1.概率计算问题。给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ,计算在已知模型参数的情况下，观测序列的概率，即 $p(O|\lambda)$ 。
2.学习问题。已知观测序列 $O=(o_1,o_2,...,o_T)$ ,估计模型参数 $\lambda=(A,B,\pi)$ ，使 $p(O|\lambda)$ 最大。
3.预测问题，也称解码问题。已知模型 $\lambda=(A,B,\pi)$ 和 $O=(o_1,o_2,...,o_T)$ ，求条件概率最大 $p (I ∣ O)$ 最大的状态序列 $I=(i_1,i_2,...,i_T)$ 。

2. 概率预测问题

概率问题预测用直接计算法，计算复杂度高，可以采用动态规划形式的前向和后向算法降低计算复杂度。
为了表示方便，记：

$o_{1:t} )= (o_1,o_2,...,o_n); (o_{t_:T})=(o_t,o_{t+1},...,o_T)$

2.1 前向算法

接下来就是解前向概率 $p(i_t,o_{1:t}|\lambda)$ ：

$\begin{aligned} p(i_t,o_{1:t}|\lambda) &=\sum_{i_{t-1}} p(i_{t-1},i_t,o_{1:t-1},o_t|\lambda) \\ &=\sum_{i_{t-1}} p(o_t|i_{t-1},i_t,o_{1:t-1},\lambda)p(i_t|i_{t-1},o_{1:t-1},\lambda)p(i_{t-1},o_{1:t-1}|\lambda) \end{aligned}$

由隐马尔科夫的条件独立性假设可得：

$p(o_t|i_{t-1},i_t,o_{1:t-1},\lambda) = p(o_t|i_t,\lambda)$

$p(i_t|i_{t-1},o_{1:t-1},\lambda)=p(i_t|i_{t-1},\lambda)$

故

$p(i_t,o_{1:t}|\lambda)=\sum_{i_{t-1}} p(o_t|i_t,\lambda) p(i_t|i_{t-1},\lambda)p(i_{t-1},o_{1:t-1}|\lambda)=[\sum_{i_{t-1} } p(i_{t-1},o_{1:t-1}|\lambda) p(i_t|i_{t-1},\lambda)] p(o_t|i_t,\lambda)$

设：

$\alpha_{t+1}(i) = p(o_{1:t+1},i_{t+1}=q_i|\lambda) \tag8$

且：

$p(i_{t+1}=q_i|i_t=q_j,\lambda)] = a_{ji}$

$p(o_{t+1}|i_{t+1},\lambda)=b_i(o_{t+1})$

则：

$\alpha_{t+1}(i)=[\sum_{j=1}^N \alpha_t(j)a_{ji}]b_i(o_{t+1}) \tag9$

所以前向算法就可迭代进行。

前向算法：
1.初值

$\alpha_1(i) = \pi_ib_i(o_1)$

2.递推 $t = 1, 2, . . ., T - 1$

$\alpha_{t+1}(i)=[\sum_{j=1}^N \alpha_t(j)a_{ji}]b_i(o_{t+1})$

3.终止
$p(O|\lambda) = \sum_{i=1}^N \alpha_T(i)$

2.2 后向算法

后向算法解决后向概率 $p(o_{t+1:T}|i_t, \lambda)$ :

$\begin{aligned} p(o_{t+1:T}|i_t, \lambda) &= \sum_{i_{t+1}} p(i_{t+1},o_{t+1},o_{t+2:T} | i_t, \lambda) \\ &= \sum_{i_{t+1}} p(o_{t+2:T}|i_{t+1}, i_t, o_{t+1}, \lambda) p(o_{t+1}|i_{t+1}, i_t, \lambda) p(i_{t+1}|i_t,\lambda)\\ \end{aligned}$

由隐马尔科夫的条件独立假设得：

$p(o_{t+2:T}|i_{t+1}, i_t, o_{t+1}, \lambda)=p(o_{t+2:T}|i_{t+1}, \lambda)$

$p(o_{t+1}|i_{t+1}, i_t, \lambda) = p(o_{t+1}|i_{t+1}, \lambda)$

设：

$\beta_t(i) = p(o_{t+1:T}|i_t=q_i, \lambda) \tag{10}$

又：

$p(i_{t+1}=q_j|i_t=q_i,\lambda) = a_{ij}$

$p(o_{t+1}|i_{t+1}=q_j, \lambda) = b_j(o_{t+1})$

则：

$\beta_t(i) = \sum_{j=1}^N a_{ij} b_j(o_{t+1}) \beta_{t+1}(i) \tag{11}$

后向算法：
(1)

$\beta_T (i) = 1$

(2) 对t=T-1,T-2,…,1

$\beta_t(i) = \sum_{j=1}^N a_{ij} b_j(o_{t+1}) \beta_{t+1}(i)$

(3)

$p(O|\lambda) = \sum_{i=1}^N \pi_i b_i(o_1) \beta_1(i)$

2.3 一些概率与期望值

这两个期望值都是后面EM算法用到的中间参量
1.计算 $t$ 时刻处于状态 $q_i$ 的概率。
概率计算问题是计算 $p(O|\lambda)$ ，则有：

$p(O|\lambda)=\sum_{i_t}p(O,i_t|\lambda)$

依据隐马尔科夫的独立性假设：

$p(o_{t+1:T}|i_t,o_{1:t}, \lambda) = p(o_{t+1:T}|i_t, \lambda)$

所以：

$\begin{aligned} p(O|\lambda) &=\sum_{i_t}p(O,i_t|\lambda) \\ &=\sum_{i_t} p(o_{t+1:T}|i_t,o_{1:t}, \lambda) p(i_t,o_{1:t}|\lambda) \\ &=\sum_{i_t} p(o_{t+1:T}|i_t, \lambda) p(i_t,o_{1:t}|\lambda) \\ \end{aligned}$

又有：

$\alpha_t(i) = p(o_{1:t},i_t=q_i|\lambda) \tag{12}$

$\beta_t(i) = p(o_{t+1:T}|i_t=q_i, \lambda) \tag{13}$

故：

$p(O,i_t=q_i|\lambda) = p(o_{t+1:T}|i_t=q_i, \lambda) p(i_t=q_i,o_{1:t}|\lambda) = \alpha_t(i) \beta_t(i)$

$p(O|\lambda) = \sum_{i_t} \alpha_t(i) \beta_t(i)$

设：

$\gamma_t(i) = p(i_t=q_i|O,\lambda)$

于是可以得到：

$\gamma_t(i) = p(i_t=q_i|O,\lambda) = \frac {p(i_t=q_i,O|\lambda)}{p(O|\lambda)} = \frac {\alpha_t(i) \beta_t(i)}{\sum_{j=1}^N \alpha_t(j) \beta_t(j)} \tag{14}$

2.计算计算 $t$ 时刻处于状态 $q_i$ 且计算 $t + 1$ 时刻处于状态 $q_j$ 的概率

$\begin{aligned} p(O|\lambda) &=\sum_{i_t} \sum_{i_{t+1}} p(O,i_t, i_{t+1}|\lambda) \\ &=\sum_{i_t} \sum_{i_{t+1}} p(o_{1:t},o_{t+1},o_{t+2:T},i_t, i_{t+1}|\lambda) \\ &=\sum_{i_t} \sum_{i_{t+1}} p(o_{t+2:T}|o_{1:t},o_{t+1},i_t, i_{t+1},\lambda)p(o_{t+1}|o_{1:t},i_t,i_{t+1},\lambda) p(i_{t+1}|i_t,o_{1:t},\lambda) p(i_t,o_{1:t}|\lambda) \\ \end{aligned}$

由隐马尔科夫的独立性假设可得：

$p(O|\lambda) = \sum_{i_t} \sum_{i_{t+1}} p(o_{t+2:T}| i_{t+1},\lambda)p(o_{t+1}|i_{t+1},\lambda) p(i_{t+1}|i_t,\lambda) p(i_t,o_{1:t}|\lambda)$

设：

$\xi_t(i,j)=p(i_t=q_i,i_{t+1}=q_j|O,\lambda)$

又有公式(2)(4)(12)(13)

得：

$\xi_t(i,j) = \frac {p(i_t=q_i,i_{t+1}=q_j|O,\lambda)}{p(O|\lambda)} =\frac {\alpha_t(i) a_{ij} b_j(o_{t+1}) \beta_{t+1}(j)} {\sum_{i=1}^N \sum_{j=1}^N \alpha_t(i) a_{ij} b_j(o_{t+1}) \beta_{t+1}(j)} \tag{15}$

3. 学习问题

3.1 监督学习

如果有标记好状态序列的样本，那就太好办了，直接将接个矩阵统计的各个维度定义后进行统计就可以了。统计过程中注意概率之和为一的约束。

3.2 无监督学习

如果没有标记状态序列的样本，可以用Baum-Welch算法(EM算法)实现。

已知：包含 $S$ 个长度为 $T$ 的观测序列的观测序列 ${O_1,O_2,...,O_S \}$
目标：学习隐马尔可夫模型的参数 $\lambda=(A,B,\pi)$

记观测数据 $O$ ,隐数据 $I$ ，那么隐马尔可夫模型可以表示为：

$p(O|\lambda) = \sum_I p(O|I,\lambda) p(I|\lambda)$

E步：

因为对 $\lambda$ 而言， $\overline \lambda)$ 是常数项，所以

$\begin{aligned} Q(\lambda,\overline \lambda) &= E_I[\log p(O,I|\lambda)|O, \overline \lambda] \\ &= \sum_I \log p(O,I|\lambda) p(I|O,\overline \lambda) \\ &= \sum_I \log p(O,I|\lambda) \frac {p(I,O|\overline \lambda)}{p(O| \overline \lambda)} \\ &= \sum_I \log p(O,I|\lambda) p(I,O|\overline \lambda) \\ \end{aligned}$

将概率计算问题2.1小姐中前向算法的递归公式展开就可以得到：

$p(O,I|\lambda) = \pi_{i_1} b_{i_1}(o_1) a_{i_1i_2} b_{i_2}(o_2) ... a_{i_{T-1}i_T} b_{iT}(o_T) = \pi_{i_1} [\prod_{t=1}^{T-1} a_{i_ti_{t+1}}][\prod_{t=1}^T b_{it}(o_t)]$

于是：

$Q(\lambda, \overline \lambda) = \sum_I \log \pi_{i_1} p(O, I| \overline \lambda) + \sum_I (\sum_{t=1}^{T-1} a_{i_ti_{t+1}}) p(O, I| \overline \lambda) + \sum_I (\sum_{t=1}^T b_{it}(o_t)) p(O, I| \overline \lambda) \tag{16}$

特此说明隐变量
隐马尔可夫模型的隐变量就是观测序列对应的状态序列，所以隐变量可以用（14）式的变量表示
后面在M步中更新模型参数的时候也用到了（15）式，是不是就说明隐变量是两个，其实不是的，这儿只是为了表示的方便和算法的方便。
也就是在E步中，用 $\gamma$ 和 $\xi$ 表示隐变量，只是为了编程和表示的便利，这两个变量在E步中信息是重复的。

M步：

1.求解 $\pi_i$
由(15)式可得：

$L(\pi_{i_1}) = \sum_I \log \pi_{i_1} p(O, I| \overline \lambda) = \sum_{i}^N \log \pi_{i_1} p(O, i_1=i| \overline \lambda)$

又因为 $\pi_i$ 满足约束条件 $\sum_{i=1}^N \pi_{i_1}=1$ ，利用拉格朗日乘子法，写出拉格朗日函数：

$\sum_{i=1}^N \log \pi_{i} p(O, i_1=i| \overline \lambda) + \gamma(\sum_{i=1}^N \pi_{i} - 1)$

对其求偏导并且令其结果为0得：

$\frac {\partial} {\partial \pi_i} [\sum_{i=1}^N \log \pi_{i} p(O, i=i| \overline \lambda) + \gamma(\sum_{i_1=1}^N \pi_{i} - 1)]=0 \tag{17}$

得：

$i_1=i| \overline \lambda) + \gamma \pi_i=0$

得到：

$\pi_i = \frac {p(O, i_1=i| \overline \lambda)} {-\lambda}$

带入 $\sum_{i=1}^N \pi_{i_1}=1$ 的：

$-\lambda = \sum_{i=1}^N p(O, i_1=i| \overline \lambda) = p(o|\overline \lambda)$

求得并有公式(14)：

$\pi_i = \frac {p(O, i_1=i| \overline \lambda)} {p(o|\overline \lambda)} = \gamma_1(i) \tag{18}$

2.求解 $a_{ij}$ :

$L(a_{ij})=\sum_I (\sum_{t=1}^{T-1} a_{i_ti_{t+1}}) p(O, I| \overline \lambda) = \sum_{i=1}^N (\sum_{t=1}^{T-1} a_{i_ti_{t+1}}) ( \sum_{j=1}^N p(O, i_t=i, i_{t+1}=j| \overline \lambda) ) \\ = \sum_{i=1}^N \sum_{j=1}^N \sum_{t=1}^{T-1} a_{ij} p(O, i_t=i, i_{t+1}=j| \overline \lambda)$

应用约束条件 $\sum_{j=1}^N a_{ij} = 1$ ,用拉格朗日乘子法可以求出：

$\sum_{i=1}^N \sum_{j=1}^N \sum_{t=1}^{T-1} a_{ij} p(O, i_t=i, i_{t+1}=j| \overline \lambda) + \lambda(\sum_{j=1}^N a_{ij} - 1)$

对上式求骗到并等于0得到：

$\frac {\partial}{\partial a_{ij}} [\sum_{i=1}^N \sum_{j=1}^N \sum_{t=1}^{T-1} a_{ij} p(O, i_t=i, i_{t+1}=j| \overline \lambda) + \lambda(\sum_{j=1}^N a_{ij} - 1)] = 0$

得到：

$\sum_{t=1}^{T-1} p(O, i_t=i, i_{t+1}=j| \overline \lambda) + \lambda a_{ij} = 0$

所以：

$a_{ij} = \frac {\sum_{t=1}^{T-1} p(O, i_t=i, i_{t+1}=j| \overline \lambda)}{- \lambda}$

将上式带入 $\sum_{j=1}^N a_{ij} = 1$ ：

$\lambda = \sum_{j=1}^N \sum_{t=1}^{T-1} p(O, i_t=i, i_{t+1}=j| \overline \lambda) = \sum_{t=1}^{T-1} p(O, i_t=i| \overline \lambda)$

故得：

$a_{ij} = \frac {\sum_{t=1}^{T-1} p(O, i_t=i, i_{t+1}=j| \overline \lambda)}{\sum_{t=1}^{T-1} p(O, i_t=i| \overline \lambda) } = \frac {\sum_{t=1}^{T-1} p(O, i_t=i, i_{t+1}=j| \overline \lambda) / p(o|\overline \lambda)} {\sum_{t=1}^{T-1} p(O, i_t=i| \overline \lambda) / p(o|\overline \lambda) }$

将（14）和（15）带入的：

$a_{ij} = \frac {\sum_{t=1}^{T-1} \xi_t(i,j)} {\sum_{t=1}^{T-1} \gamma_t(i) } \tag{19}$

3.求解 $b_j{k}$ :

$L(b_j{k}) = \sum_I (\sum_{t=1}^T b_{it}(o_t)) p(O, I| \overline \lambda) = \sum_{j=1}^N \sum_{t=1}^T b_{j}(o_t) p(O, i_t=j| \overline \lambda)$

在约束条件 $\sum_{k=1}^M b_j(k) = 1$ 的拉格朗日乘子法：

$\sum_{j=1}^N \sum_{t=1}^T b_{j}(o_t) p(O, i_t=j| \overline \lambda) + \lambda(\sum_{k=1}^M b_j(k) - 1)$

对其求偏导得：

$\frac {\partial}{\partial b_j(k)} [\sum_{j=1}^N \sum_{t=1}^T b_{j}(o_t) p(O, i_t=j| \overline \lambda) + \lambda(\sum_{k=1}^M b_j(k) - 1)] = 0$

因为只有在 $o_t=v_k$ 时偏导才不会等于0，以 $I(o_t=v_k)$ 表示，则：

$\sum_{t=1}^T p(O, i_t=j| \overline \lambda) I(o_t=v_k) + \lambda b_{j}(o_t)I(o_t=v_k) = 0$

$b_{j}(o_t)I(o_t=v_k)$ 可以写作 $b_{j}(k)$ ，故：

$b_{j}(k) = \frac {\sum_{t=1}^T p(O, i_t=j| \overline \lambda) I(o_t=v_k)} {- \lambda}$

将上式带入 $\sum_{k=1}^M b_j(k) = 1$ 得：

$\lambda = \sum_{k=1}^M \sum_{t=1}^T p(O, i_t=j| \overline \lambda) I(o_t=v_k) = \sum_{t=1}^T p(O, i_t=j| \overline \lambda)$

得到：

$b_{j}(k) = \frac {\sum_{t=1}^T p(O, i_t=j| \overline \lambda) I(o_t=v_k)} {\sum_{t=1}^T p(O, i_t=j| \overline \lambda)}$

又有（14）式可得：

$b_{j}(k) = \frac {\sum_{t=1,o_t=v_k}^T \gamma_t(j)} {\sum_{t=1}^T \gamma_t(j)} \tag{20}$

EM算法总结：
E步：

$\gamma_t(i) = p(i_t=q_i|O,\lambda) = \frac {p(i_t=q_i,O|\lambda)}{p(O|\lambda)} = \frac {\alpha_t(i) \beta_t(i)}{\sum_{j=1}^N \alpha_t(j) \beta_t(j)}$

$\xi_t(i,j) = \frac {p(i_t=q_i,i_{t+1}=q_j|O,\lambda)}{p(O|\lambda)} =\frac {\alpha_t(i) a_{ij} b_j(o_{t+1}) \beta_{t+1}(j)} {\sum_{i=1}^N \sum_{j=1}^N \alpha_t(i) a_{ij} b_j(o_{t+1}) \beta_{t+1}(j)}$

M步：
$\pi_i = \frac {p(O, i_1=i| \overline \lambda)} {p(o|\overline \lambda)} = \gamma_1(i)$

$a_{ij} = \frac {\sum_{t=1}^{T-1} \xi_t(i,j)} {\sum_{t=1}^{T-1} \gamma_t(i) }$

$b_{j}(k) = \frac {\sum_{t=1,o_t=v_k}^T \gamma_t(j)} {\sum_{t=1}^T \gamma_t(j)}$

4. 预测问题（解码问题）

用维特比算法进行求解：
已知：模型 $\lambda=(A,B,\pi)$ 和 $O=(o_1,o_2,...,o_T)$
求：条件概率最大 $p(I|O,\lambda)$ 最大的状态序列 $I=(i_1,i_2,...,i_T)$
因为 $p (O)$ 是一个定值，所以：

$\max_I p(I|O,\lambda) = \max_I p(I, O|\lambda) / p(O|\lambda) = \max_I p(I, O|\lambda)$

定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $i_1,i_2,...,i_t)$ 中概率最大值为：

$\delta_t(i) = \max_{i_1,i_2,...,i_{t-1}} p(i_t=i, i_{t-1:i_1},o_{t:1}|\lambda)$

递推推导：

$\begin{aligned} &p(i_{t+1}=i,i_{t:1},o_{t+1:1}| \lambda) \\ &=p(i_{t+1}=i,i_t,i_{t-1:1},o_{t+1},o_{t:1}| \lambda) \\ &= p(o_{t+1}|i_{t+1}=i,i_t,o_{t:1},\lambda) p(i_{t+1}=i|i_t,i_{t-1:1},o_{t:1}, \lambda) p(i_t,i_{t-1:1},o_{t:1}|\lambda) \\ &= p(o_{t+1}|i_{t+1}=i,\lambda) p(i_{t+1}=i|i_t,\lambda) p(i_t,i_{t-1:1},o_{t:1}|\lambda) \\ \end{aligned}$

故：

$\delta_{t+1}(i) = \max_{i_1,i_2,...,i_{t-1}} p(i_{t+1}=i,i_{t:1},o_{t+1:1}| \lambda) = \max_{1 \le j \le N} [\delta _t(j) a_{ji}] b_i(o_{t+1}) \tag{21}$

定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $i_1,i_2,...,i_{t-1})$ 中概率最大的第 $t - 1$ 个节点为：

$\psi_t(i) = \arg \max_{1 \le j \le N}[\delta _{t-1}(j) a_{ji}] \tag{22}$

5. python实现模型

5.1 参数对应关系

下面说一下上面公式中出现的参数和下面模型之中的名称的对应关系(公式中的符号将会和代码一致):

:param N: $N$ 表示状态数
:param M: $M$ 表示观测数
:param V: $V$ 表示观测集合，维度 $(M,)$
:param A: $A$ 对应于状态转移矩阵，维度 $(N, N)$
:param B: $B$ 对应于观测概率矩阵（发射矩阵)，维度 $(N, M)$
:param pi: $\pi$ 对应于初始状态向量，维度 $(N,)$
:param S: $S$ 表示输入句子数量
:param T: $T$ 表示每个句子的个数
:param gamma: $\gamma$ 隐变量，表示状态的概率矩阵，维度 $(S, N, T)$
:param xi: $\xi$ 隐变量，表示状态的概率矩阵，维度 $(S, N, N, T)$
:param alpha: $\alpha$ 前向算法结果，维度 $(N, T)$
:param beta: $\beta$ 后向算法结果,维度 $(N, T)$
:param delta: $\delta$ 维特比算法中存储概率最大值，维度 $(N, T)$
:param psi: $\psi$ 维特比算法中存储概率最大值索引，维度 $(N, T)$
:param I: $I$ 输出的状态向量，维度 $(T,)$

小技巧：为了避免连续乘积带来内存溢出，一般先用对数进行计算，最后再用指数运算还原。
logsumexp() # http://bayesjumping.net/log-sum-exp-trick/
$\log\sum_i \exp(x_i) = b + \log \sum_i \exp(x_i-b)$

def logSumExp(ns):
    max = np.max(ns)
    ds = ns - max
    sumOfExp = np.exp(ds).sum()
    return max + np.log(sumOfExp)

5.2 python实现HMM

import numpy as np


class MyHMM(object):
    def __init__(self, N=None, A=None, B=None, pi=None):
        """
        HMM模型：
        >隐马尔可夫的三个基本问题
        >1.概率计算问题。给定模型$\lambda=(A,B,\pi)$和观测序列$O=(o_1,o_2,...,o_T)$,计算在已知模型参数的情况下，观测序列的概率，
            即$p(O|\lambda)$。用前向算法或后向算法。
        >2.学习问题。已知观测序列$O=(o_1,o_2,...,o_T)$,估计模型参数$\lambda=(A,B,\pi)$，使$p(O|\lambda)$最大。用BW算法。
        >3.预测问题，也称解码问题。已知模型$\lambda=(A,B,\pi)$和$O=(o_1,o_2,...,o_T)$，求条件概率最大$p(I|O)$最大的状态序列
            $I=(i_1,i_2,...,i_T)$。用维特比算法解码。

        :param N: $N$ 表示状态数
        :param M: $M$ 表示观测数
        :param V: $V$ 表示观测集合，维度$(M,)$
        :param A: $A$ 对应于状态转移矩阵，维度$(N, N)$
        :param B: $B$对应于观测概率矩阵（发射矩阵)，维度$(N, M)$
        :param pi: $pi$ 对应于初始状态向量，维度$(N,)$
        :param S: $S$ 表示输入句子数量
        :param T: $T$ 表示每个句子的个数
        :param gamma: $gamma$ 隐变量，表示状态的概率矩阵，维度$(S,N,T)$
        :param xi: $xi$ 隐变量，表示状态的概率矩阵，维度$(S,N,N,T)$
        :param alpha: $alpha$ 前向算法结果，维度$(N,T)$
        :param beta: $beta$ 后向算法结果,维度$(N,T)$
        :param delta: $delta$ 维特比算法中存储概率最大值，维度$(N,T)$
        :param psi: $psi$ 维特比算法中存储概率最大值索引，维度$(N,T)$
        :param I: $I$ 输出的状态向量，维度$(T,)$
        """
        self.N = N  # 状态数
        self.params = {
            'A': A,
            'B': B,
            'pi': pi,
            'gamma': None,
            'xi': None
        }

        self.M = None  # 观测数

        self.S = None  # 句子个数
        self.T = None  # 每个句子的长度

        self.V = None  # 观测集合

        self.eps = np.finfo(float).eps

        np.random.seed(2)

    def _init_params(self):
        """
        初始化模型参数
        :return:
        """
        def generate_random_n_data(N):
            ret = np.random.rand(N)
            return ret / np.sum(ret)

        pi = generate_random_n_data(self.N)
        A = np.array([generate_random_n_data(self.N) for _ in range(self.N)])
        B = np.array([generate_random_n_data(self.M) for _ in range(self.N)])

        gamma = np.zeros((self.S, self.N, self.T))
        xi = np.zeros((self.S, self.N, self.N, self.T))

        self.params = {
            'A': A,
            'B': B,
            'pi': pi,
            'gamma': gamma,
            'xi': xi
        }

    def logSumExp(self, ns, axis=None):
        max = np.max(ns)
        ds = ns - max
        sumOfExp = np.exp(ds).sum(axis=axis)
        return max + np.log(sumOfExp)

    def _forward(self, O_s):
        """
        前向算法，公式参考博客公式(9)
        :param O_s: 单个序列，维度(N,)
        :return:
        """
        A = self.params['A']
        B = self.params['B']
        pi = self.params['pi']
        T = len(O_s)

        log_alpha = np.zeros((self.N, T))

        for i in range(self.N):
            log_alpha[i, 0] = np.log(pi[i] + self.eps) + np.log(B[i, O_s[0]])

        for t in range(1, T):
            for i in range(self.N):
                log_alpha[i, t] = self.logSumExp(np.array([log_alpha[_i, t-1] +
                                                           np.log(A[_i, i] + self.eps) +
                                                           np.log(B[i, O_s[t]])
                                                           for _i in range(self.N)]))
        return log_alpha

    def _backward(self, O_s):
        """
        后向算法，参考博客公式(11)
        :param O_s: 单个序列，维度(N,)
        :return:
        """
        A = self.params['A']
        B = self.params['B']
        pi = self.params['pi']
        T = len(O_s)

        log_beta = np.zeros((self.N, T))

        for i in range(self.N):
            log_beta[i, T-1] = 0

        for t in range(T-2, -1, -1):
            for i in range(self.N):
                log_beta[i, t] = self.logSumExp(np.array([
                    log_beta[_i, t+1] + np.log(A[i, _i] + self.eps) + np.log(B[_i, O_s[t+1]] + self.eps)
                for _i in range(self.N)]))
        return log_beta

    def _E_step(self, O):
        """
        BW算法的E_step
        计算隐变量，参考博客公式(9)(11)
        :param O:
        :return:
        """
        A = self.params['A']
        B = self.params['B']
        pi = self.params['pi']
        # 对S个句子依次执行
        for s in range(self.S):
            O_s = O[s]
            log_alpha = self._forward(O_s)
            log_beta = self._backward(O_s)

            # 前向算法得到的最大似然
            log_likelihood = self.logSumExp(log_alpha[:, self.T -1])  # log p(O|lambda)
            # # 后向算法得到的最大似然 （两个结果应该是相等的）
            # log_likelihood = self.logSumExp(np.array([np.log(pi[_i] + self.eps) + np.log(B[_i, 0] + self.eps) + log_beta[_i, 0] for _i in range(self.N)]))

            for i in range(self.N):
                self.params['gamma'][s, i, self.T-1] = log_alpha[i, self.T-1] + log_beta[i, self.T-1] - log_likelihood

            for t in range(self.T - 1):
                for i in range(self.N):
                    self.params['gamma'][s, i, t] = log_alpha[i, t] + log_beta[i, t] - log_likelihood
                    for j in range(self.N):
                        self.params['xi'][s, i, j, t] = log_alpha[i, t] + np.log(A[i, j] + self.eps) + np.log(B[j, O_s[t + 1]] + self.eps) + log_beta[j, t+1] - log_likelihood

    def _M_step(self, O):
        """
        BW算法的M_step。参考博客公式(18)(19)(20)
        :param O:
        :return:
        """
        gamma = self.params['gamma']
        xi = self.params['xi']

        count_gamma = np.zeros((self.S, self.N, self.M))
        count_xi = np.zeros((self.S, self.N, self.N))

        for s in range(self.S):
            O_s = O[s, :]
            for i in range(self.N):
                for k in range(self.M):
                    if not (O_s == k).any():

                        count_gamma[s, i, k] = np.log(self.eps)
                    else:
                        count_gamma[s, i, k] = self.logSumExp(gamma[s, i, O_s == k])

                for j in range(self.N):
                    count_xi[s, i, j] = self.logSumExp(xi[s, i, j, :])

        self.params['pi'] = np.exp(self.logSumExp(gamma[:, :, 0], axis=0) - np.log(self.S + self.eps))
        np.testing.assert_almost_equal(self.params['pi'].sum(), 1)

        for i in range(self.N):
            for k in range(self.M):
                self.params['B'][i, k] = np.exp(self.logSumExp(count_gamma[:, i, k]) - self.logSumExp(
                    count_gamma[:, i, :]
                ))

            for j in range(self.N):
                self.params['A'][i, j] = np.exp(self.logSumExp(count_xi[:, i, j]) - self.logSumExp(
                    count_xi[:, i, :]
                ))

            np.testing.assert_almost_equal(self.params['A'][i, :].sum(), 1)
            np.testing.assert_almost_equal(self.params['B'][i, :].sum(), 1)

    def fit(self, O, V=(0,1,2,3,4), max_iter=20):
        O = np.array(O)
        self.S, self.T = O.shape
        self.M = len(V)
        self.V = V
        print(self.S, self.T)

        self._init_params()

        for i in range(max_iter):
            self._E_step(O)
            self._M_step(O)

    def decode(self, O_s):
        """
        用维特比算法解码。参考公式(21)(22)
        :param O_s:
        :return:
        """
        O_s = np.array(O_s)
        if len(O_s.shape) != 1:
            raise ('只容许一个序列进行解码.')

        T = len(O_s)

        delta = np.zeros((self.N, self.T))
        psi = np.zeros((self.N, self.T))

        for i in range(self.N):
            psi[i, 0] = 0
            delta[i, 0] = np.log(self.params['pi'][i] + self.eps) + np.log(self.params['B'][i, O_s[0]])

        for t in range(1, T):
            for i in range(self.N):
                seq_prob = [delta[j, t-1] + np.log(self.params['A'][j, i] + self.eps) + np.log(self.params['B'][i, O_s[t]]) for j in range(self.N)]
                delta[i, t] = np.max(seq_prob)
                psi[i, t] = np.argmax(seq_prob)

        pointer = np.argmax(delta[:, -1])
        I = [pointer]
        for t in reversed(range(1, T)):
            pointer = int(psi[int(pointer), t])
            I.append(pointer)

        I.reverse()
        return I

5.3 模型测试

def generate_data():
    O = [['我', '看见', '猫'],
         ['猫', '是', '可爱的'],
         ['我', '是', '可爱的']]
    word2index = {}
    index2word = {}
    for sentence in O:
        for word in sentence:
            if word not in word2index.keys():
                word2index[word] = len(word2index)
                index2word[len(index2word)] = word
    print(word2index)
    print(index2word)
    O_input = []
    for sentence in O:
        O_input.append([word2index[word] for word in sentence])
    print(O_input)
    return O_input


def run_my_model():
    O_input = generate_data()
    N = 3  # 隐变量的维度设为3，表示有3种词性
    my = MyHMM(N=N)
    my.fit(O_input)

    print('A:')
    print(my.params['A'])
    print('B:')
    print(my.params['B'])
    print('pi:')
    print(my.params['pi'])

    I = my.decode(O_s=(2, 1, 0))
    print("I:")
    print(I)

打印的结果为：
A:
[[0.33333528 0.33332093 0.33334378]
[0.43652988 0.25000742 0.3134627 ]
[0.2500279 0.4999721 0.25 ]]
B:
[[9.91856630e-17 1.12533719e-04 1.06467892e-01 3.70235380e-05 8.93382551e-01]
[7.40229993e-17 3.33285967e-01 1.91726675e-07 6.66712274e-01 1.56719927e-06]
[5.31681136e-01 1.48466699e-11 4.68318638e-01 1.95615241e-11 2.25912305e-07]]
pi:
[1.16786216e-17 3.50652002e-23 1.00000000e+00]
I:
[2, 1, 2]

参考资料：
《统计学习方法》李航著

你可能感兴趣的:(机器学习,NLP)

主要空间数据挖掘方法 CodeYoung7 总结归纳数据挖掘地理信息
文章出自：http://blog.csdn.net/shaoz/article/details/6847925张新长马林兵等，《地理信息系统数据库》[M]，科学出版社，2005年2月第二章第二节空间数据空间数据挖掘是多学科和多种技术交叉综合的新领域，其挖掘方法以人工智能、专家系统、机器学习、数据库和统计等成熟技术为基础。下面介绍近年来出现的主要空间数据挖掘方法。1、空间分析方法利用GIS的各种空间
【数据挖掘】ARFF格式与数据收集布鲁惠比寿数据挖掘数据挖掘人工智能
【数据挖掘】ARFF格式与数据收集三级目录1.ARFF格式与数据收集2.稀疏数据3.属性类型4.缺失值与不正确的值5.了解数据6.知识表达7.聚类机器学习算法训练数据挖掘分析数据共享与交换三级目录1.ARFF格式与数据收集ARFF（Attribute-RelationFileFormat）是一种用于存储数据集的文本文件格式，常用于机器学习和数据挖掘领域。它可以表示结构化数据，包括属性定义、关系信息
国外7个最佳大语言模型 (LLM) API推荐程序员后端
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
第26篇：pFedLoRA: Model-Heterogeneous Personalized Federated Learning with LoRA使用lora微调的模型异构个性化联邦学习还不秃顶的计科生联邦学习深度学习人工智能开发语言
第一部分：解决的问题联邦学习（FederatedLearning,FL）是一种分布式机器学习方法，允许客户端在本地数据上训练模型，同时通过中心服务器共享学习成果。传统FL框架假设客户端使用相同的模型结构（模型同构），但在实际中可能面对：统计异质性：客户端的数据分布不均（non-IID）。资源异质性：客户端硬件资源有限。模型异质性：客户端可能拥有不同的模型结构。模型异构的个性化联邦学习（MHPFL）
零基础学会asp.net做AI大模型网站/小程序十六：专栏总结借雨醉东风 asp.net 小程序后端
本专栏以实战为主，轻理论。如果哪里有不太懂的，可关注博主后加个人微信（平台规定文章中不能贴联系方式，需先关注博主，再加微信），后续一起交流学习。-------------------------------------正文----------------------------------------目录本专栏总结后续方向项目简介项目结构使用方法项目地址关键特点LLaMA机器学习简介使用LLaMA
Vision Transformer（ViT）：用 Transformer 颠覆图像识别金外飞176 论文精读 transformer 深度学习人工智能
VisionTransformer（ViT）：用Transformer颠覆图像识别在计算机视觉领域，卷积神经网络（CNN）长期以来一直是图像识别任务的主流架构。然而，近年来，自然语言处理（NLP）领域中大放异彩的Transformer架构也开始在图像识别中崭露头角。今天，我们将深入探讨一种创新的架构——VisionTransformer（ViT），它将Transformer的强大能力直接应用于图像
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
（九万字）面向2025年BOSS直聘人工智能算法工程师高频面试题解析快撑死的鱼人工智能回归 python pytorch
面向2025年BOSS直聘人工智能算法工程师高频面试题解析1.机器学习（ML）理论解析机器学习是让计算机从数据中学习规律的一套方法论，包含监督学习、无监督学习和强化学习等范式。在监督学习中，给定带标签的数据，算法尝试学习从输入到输出的映射关系；无监督学习则在缺乏标签的情况下挖掘数据内在结构；强化学习则让智能体通过与环境交互、依据奖赏反馈来改进策略(Q-learning-Wikipedia)。机器学
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
人工智能与机器学习入门：基尼系数（Gini Index）和基于熵（Entropy）基尼系数基于熵机器学习入门
在决策树应用一文中，在构建决策分类树应用决策算法时，介绍了基尼系数（GiniIndex）和基于熵（Entropy）两种算法。本文通过实例来更加深入的介绍一下这两个算法。仍然以简单的数据为例：id喜欢颜色是否有喉结身高性别1绿否165女2蓝是170男3粉否172女4绿是175男基尼系数分别对喜欢颜色是否有喉结求基尼系数如下：喜欢的颜色id喜欢颜色性别1绿女2蓝男3粉女4绿男对于姓别女分类而言，数据如
34、深度学习-自学之路-深入理解-NLP自然语言处理-RNN一个简单的程序，可以从程序中理解RNN的基本思想。小宇爱深度学习-自学之路深度学习自然语言处理 rnn
importsys,random,mathfromcollectionsimportCounterimportnumpyasnpf=open('tasks_1-20_v1/en/qa1_single-supporting-fact_train.txt','r')raw=f.readlines()f.close()tokens=list()forlineinraw[0:1000]:tokens.ap
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】 code_stream #机器学习神经网络
第1章绪论基本概念：介绍了人工智能的发展历程及不同阶段的特点，如符号主义、连接主义、行为主义等。还阐述了深度学习在人工智能领域的重要地位和发展现状，以及其在图像、语音、自然语言处理等多个领域的成功应用。术语解释人工智能：旨在让机器模拟人类智能的技术和科学。深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
DeepSeek原理介绍以及对网络安全行业的影响 AI拉呱 Deepseek 人工智能
大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，兼职硕士研究生导师；热爱机器学习和深度学习算法应用，深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖，拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验。曾辅导十几位非计算机学生转行到算法岗位就业。关注评审分享一起学习更多知识。1.DeepSeek公司介绍1.1DeepSeek是什么：wh
FOKS-TROT: 一个高效、易用的全功能开源知识图谱生成工具柳旖岭
FOKS-TROT:一个高效、易用的全功能开源知识图谱生成工具项目简介FOKS-TROT是一个基于Python的全功能开源知识图谱生成工具，旨在帮助研究人员和开发者快速构建具有丰富信息的知识图谱。该项目由hkx3upper在GitCode上开发并维护。通过FOKS-TROT，您可以轻松地将各种数据源（如文本文件、数据库、API）转换为结构化的知识图谱，并对其进行可视化分析和机器学习任务。此外，该工
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
LLM与知识图谱融合:智能运维知识库构建 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着信息技术的飞速发展，IT运维管理面临着越来越大的挑战。海量的设备、复杂的网络环境、日益增长的数据量，使得传统的运维方式难以满足需求。为了提高运维效率和质量，智能运维应运而生。智能运维的核心是将人工智能技术应用于运维领域，通过机器学习、深度学习等算法，实现自动化、智能化的运维管理。其中，大语言模型（LLM）和知识图谱是两个重要的技术方向。LLM能够理解和生成自然语言，可以用于构建智能
机器学习·文本数据读写处理 AAA顶置摸鱼 python 深度学习机器学习人工智能数据处理
前言在自然语言处理的第一步，需要面对的是各种各样以不同形式表现的文本数据，比如，txt、Excel中的表格数据，还有无法直接打开的pkl文件等。针对这些不同类型的数据，可以基于Python中的基本功能函数或者调用某些库进行读写以及作一些基本的处理。一、文本数据读写方法1.读写TXT文件读取方法：read()：读取整个文件，返回字符串。readline()：逐行读取，返回字符串。readlines(
AI编剧系统深度解析：从算法架构到影视工业化应用实战 Coderabo DeepSeek R1模型企业级应用人工智能算法
媒体娱乐行业革命：AI编剧创意辅助系统架构解析与实战应用一、行业背景与技术架构在流媒体内容需求激增的当下，传统编剧模式面临产能瓶颈。AI编剧创意辅助系统通过自然语言处理（NLP）、生成对抗网络（GAN）和知识图谱技术，构建了包含剧本生成、情节优化、角色塑造等模块的智能创作平台。核心架构分为：知识图谱层：整合影视剧本数据库（IMSDb）、维基百科等结构化数据NLP处理层：基于Transformer的
用 TensorFlow 搭建简单的手写数字识别模型 lozhyf 工作面试学习 tensorflow 人工智能 python
一、引言手写数字识别是机器学习领域中一个经典且基础的问题，它在很多实际场景中都有广泛的应用，比如邮政系统中的邮件分拣、银行支票金额识别等。TensorFlow是一个强大的开源机器学习框架，由Google开发并维护，它提供了丰富的工具和接口，能帮助我们快速搭建和训练深度学习模型。在这篇博客中，我们将使用TensorFlow构建一个简单的神经网络模型，用于识别手写数字。二、环境准备在开始之前，你需要安
【机器学习】基于3D CNN通过CT图像分类预测肺炎 MUKAMO AI Python应用机器学习深度学习人工智能神经网络 3D CNN
1.引言1.1.研究背景在医学诊断中，医生通过分析CT影像来预测疾病时，面临一些挑战和局限性：图像信息的广度与复杂性：CT扫描生成的大量图像对医生来说既是信息的宝库也是处理上的负担。每组CT数据可能包含数百张切片，医生必须迅速审阅这些图像，以便捕捉到病变的微小细节。这种庞大的信息量要求医生在有限的时间内做出精准诊断，但同时也增加了漏诊或误诊的风险。部分容积效应也可能模糊小病变的边界，使得准确诊断变
TensorFlow LiteRT 概览姚家湾 tensorflow 人工智能 python
LiteRT（简称LiteRuntime，以前称为TensorFlowLite）是Google面向设备端AI的高性能运行时。您可以找到适用于各种机器学习/AI任务的LiteRT就绪模型，也可以使用AIEdge转换和优化工具将TensorFlow、PyTorch和JAX模型转换为TFLite格式并运行。主要特性针对设备端机器学习进行了优化：LiteRT解决了五项关键的ODML约束条件：延迟时间（无需
机器学习（1）安装Pytorch CoderIsArt 机器学习与深度学习机器学习 pytorch 人工智能
1.安装命令pip3installtorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu1182.安装过程Log：Lookinginindexes:https://download.pytorch.org/whl/cu118CollectingtorchDownloadinghttps://download.
【拥抱AI】如何实现AI外呼通话，并与客户达成确认奔跑草- 人工智能人工智能
实现AI外呼通话并与客户达成确认涉及多个技术组件和步骤。以下是一个基本的流程和技术方案，仅供参考。1.技术选型与准备主要技术组件语音识别（ASR）：将客户的语音转换为文本。自然语言处理（NLP）：理解和生成自然语言对话。语音合成（TTS）：将文本转换为客户可以听到的语音。呼叫平台/API：用于发起和管理电话呼叫。数据库：存储客户信息、通话记录等数据。业务逻辑层：处理对话管理和决策逻辑。2.系统架构
27岁大龄转码秋招惨败，朋友劝我转Java来得及吗？还是继续走前端或机器学习？程序员yt java 机器学习开发语言
今天给大家分享的是一位粉丝的提问，27岁大龄转码秋招惨败，朋友劝我转Java来得及吗？还是继续走前端或机器学习？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：211建筑本科，22年毕业后gap一年转码去了英国读的QS100的it的水硕（24年12月份毕业），转码后对就业形势认知不足，时间全花在课业上，八股文和算法准备的不充足，秋招算是惨败。读研
【深度学习pytorch-93】Transformer 相比 RNN 的优势华东算法王 DL-pytorch 深度学习 pytorch transformer
Transformer相比RNN的优势Transformer和RNN（循环神经网络）都是自然语言处理（NLP）领域的重要架构，但它们的工作原理和应用方式有很大不同。Transformer由于其独特的结构和机制，在多个方面优于RNN。以下是Transformer相比RNN的主要优势：1.并行计算能力RNN的局限性RNN是按顺序处理输入的，即每个时间步的输出都依赖于前一个时间步的输出。这意味着，在训练
【核心算法篇七】《DeepSeek异常检测：孤立森林与AutoEncoder对比》再见孙悟空_ 「2025 DeepSeek技术全景实战」算法分布式 docker 计算机视觉人工智能自然语言处理 DeepSeek
大家好，今天我们来深入探讨一下《DeepSeek异常检测：孤立森林与AutoEncoder对比》这篇技术博客。我们将从核心内容、原理、应用场景等多个方面进行详细解析，力求让大家对这两种异常检测方法有一个全面而深入的理解。一、引言在数据科学和机器学习领域，异常检测（AnomalyDetection）是一个非常重要的任务。它的目标是从数据集中识别出那些与大多数数据显著不同的异常点。这些异常点可能是由于
吐血整理！模型热加载能力大比拼，谁才是真正王者？盼达思文体科创经验分享
吐血整理！模型热加载能力大比拼，谁才是真正王者？引言你是否在开发过程中，为了模型更新而频繁重启服务，浪费大量时间？又是否疑惑为什么有些模型加载速度快如闪电，而有些却慢得像蜗牛？今天就带你深入了解模型热加载能力的支持对比，让你不再为模型加载问题而烦恼！核心内容模型热加载概念科普场景化描述：想象一下，你正在运营一个基于机器学习模型的在线推荐系统。当你训练出了一个新的、性能更好的模型时，如果不能进行热加
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_