空杯的境界

EM 算法

本内容主要介绍 EM 算法 以及其公式的详细推导过程。

EM 算法 全称 Expectation Maximization Algorithm，译作 期望最大算法 或最大期望化算法，它是一种迭代算法，用于含有 隐变量（hidden variable）的概率模型参数的极大似然估计，或极大后验概率估计。1977 年由 Dempster 等人总结提出。

1.1 Jensen 不等式

在开始介绍 EM 算法前，我们先介绍和了解一下凹凸函数和 Jensen 不等式。如果您已经了解它们，可以直接跳过。

1.1.1 凸函数和凹函数

凸函数 是一个定义在某个向量空间的子集 $C$ （区间）上的实值函数 $f$ ，如果在其定义域 $C$ 上的任意两点 $x_1$ ， $x_2$ ， $，有$

$f(x_1) + (1-t)f(x_2) \geq f\Big(t x_1 + (1-t)x_2\Big) \tag{1.1}$

也就是说凸函数任意两点的割线位于函数图形上面，这也是 Jensen 不等式的两点形式。如果总有 $f(x_1) + (1-t)f(x_2) > f\Big(t x_1 + (1-t)x_2\Big)$ ，则称函数 $f$ 为严格凸的。

凹函数 满足
$f(x_1) + (1-t)f(x_2) \leq f\Big(t x_1 + (1-t)x_2\Big) \tag{1.2}$
同理，如果总有 $f(x_1) + (1-t)f(x_2) < f\Big(t x_1 + (1-t)x_2\Big)$ ，则称函数 $f$ 为严格凹的。

从导数的角度理解，若在其定义域 $C$ 上，函数 $f$ 二次可微，如果 $f^{''}(x) \geq 0$ ，那么 $f$ 为凸函数；反之，如果 $f^{''}(x) \leq 0$ ，那么 $f$ 为凹函数。

图 1.1 凸函数

1.1.2 Jensen 不等式

1.1.2.1 Jensen 不等式

对于任意点集 ${x_i\}$ ，若 $\lambda_i \geq 0$ 且 $\sum_{i}\lambda_i = 1$ ，函数 $f (x)$ 满足：

$\begin{aligned} f(\sum_{i=1}^{m} \lambda_i x_i) \leq \sum_{i=1}^{m} \lambda_i f(x_i), \quad 如果 f(x) 为凸函数 \\ f(\sum_{i=1}^{m} \lambda_i x_i) \geq \sum_{i=1}^{m} \lambda_i f(x_i), \quad 如果 f(x) 为凹函数 \end{aligned} \tag{1.3}$

上式被称为 Jensen 不等式。

在概率论中，如果把 $\lambda_i$ 看成取值为 $x_i$ 的离散变量 $X$ 的概率分布，那么 Jensen 不等式可以写成
$\begin{aligned} f(E[X]) \leq E[f(X)], \quad 如果 f(x) 为凸函数 \\ f(E[X]) \geq E[f(X)], \quad 如果 f(x) 为凹函数 \end{aligned} \tag{1.4}$
其中， $E[\cdot]$ 表示期望。此外，如果 $f (x)$ 为严格凸函数或者凹函数，当且仅当 $X = E [X]$ 时， $E [f (X)] = f (E [X])$ 成立（即当 $X$ 为一个常数时）。

对于连续变量，Jensen 不等式给出了积分的函数值和函数的积分值间的关系：

$\begin{aligned} f(\int x p(x)dx) \leq \int f(x)p(x)dx, \quad 如果 f(x) 为凸函数 \\ f(\int x p(x)dx) \geq \int f(x)p(x)dx, \quad 如果 f(x) 为凹函数 \end{aligned} \tag{1.5}$

1.1.2.2 Jensen 不等式的证明过程

可以使用数学归纳法证明 Jensen 不等式成立，下面我们来证明当 $f (x)$ 为凸函数的情况，为凹函数时可以采用同样的方法进行证明。

当 $i = 1, 2$ 时，由凸函数的定义式（1.1），可知其成立。

假设当 $i = m$ 时，其成立；当 $i = m + 1$ 时，得

$f(\sum_{i=1}^{m+1} \lambda_i x_i) =f(\lambda_{m+1}x_{m+1} + \sum_{i=1}^{m}\lambda_i x_i) \tag{1.6}$

我们令 $\eta_i = \frac{\lambda_i}{1-\lambda_{m+1}}$ ，得

$f(\sum_{i=1}^{m+1} \lambda_i x_i) =f(\lambda_{m+1}x_{m+1} + (1-\lambda_{m+1})\sum_{i=1}^{m}\eta_i x_i) \tag{1.7}$

由凸函数的定义得

$f(\sum_{i=1}^{m+1} \lambda_i x_i) \leq \lambda_{m+1} f(x_{m+1}) +(1-\lambda_{m+1})f(\sum_{i=1}^{m}\eta_i x_i) \tag{1.8}$

因为 $\sum_{i=1}^{m+1} \lambda_i = 1$ ，可得 $\sum_{i=1}^{m} \lambda_i = 1-\lambda_{m+1}$ ，所以

$\sum_{i=1}^{m}\eta_i = \frac{\sum_{i=1}^{m} \lambda_i}{1-\lambda_{m+1}} = 1 \tag{1.9}$

由式（1.3）和（1.9）得

$f(\sum_{i=1}^{m}\eta_i x_i) \leq \sum_{i=1}^{m}\eta_i f(x_i) \tag{1.10}$

由式（1.8）和（1.10）得

$\begin{aligned} f(\sum_{i=1}^{m+1} \lambda_i x_i) &\leq \lambda_{m+1} f(x_{m+1}) +(1-\lambda_{m+1})\sum_{i=1}^{m}\eta_i f(x_i) \\ &=\lambda_{m+1} f(x_{m+1}) +\sum_{i=1}^{m}\lambda_i f(x_i) \\ &=\sum_{i=1}^{m+1} \lambda_i f(x_i) \end{aligned} \tag{1.11}$

因此当 $i = m + 1$ 时，Jensen 不等式也成立。

综上，Jensen 不等式成立。

1.2 EM 算法

阅读下面的内容，需要您对似然函数和极大似然估计有一定了解，如果您还不了解或者想温习一下，可以参考这里。

概率模型有时既含有观测变量（observable variable），又含有隐变量或潜在变量（latent variable）。如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，或贝叶斯估计法估计模型参数。但是，当模型含有隐变量时，就不能简单地使用这些估计方法。EM 算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法。

下面我们从 Chuong B Do & Serafim Batzoglou 在论文《What is the expectation maximization algorithm?》中的抛硬币的例子开始。论文中的截图如下：

图 1.2 抛硬币实验

我们将论文中的实验简单整理后如下：

场景：假设有两枚硬币（硬币 $A$ 和硬币 $B$ ），硬币 $A$ 正面朝上的概率为 $\theta_A$ ，硬币 $B$ 正面朝上的概率为 $\theta_B$ 。

实验：从两枚硬币中随机选择 1 枚硬币（选中的概率是相等的），使用选中的硬币抛十次。重复 5 次这样的操作，最终将得到 50 次的抛硬币结果。

目的：根据实验结果，推断出 $\theta_A$ 和 $\theta_B$ 的值。

如果我们知道每次抛的硬币是硬币 $A$ 或者硬币 $B$ ，那我们可以直接使用极大似然估计求解 $\theta_A$ 和 $\theta_B$ 的值。但是当前我们不知道每次抛的到底是哪个硬币，即存在隐变量，这个时候我们需要使用 EM 算法求解 $\theta_A$ 和 $\theta_B$ 的值。

EM 算法流程：

（1）参数初始化：假设 $\hat{\theta}_A^{(0)} = 0.60$ ， $\hat{\theta}_B^{(0)} = 0.50$ 。

（2）E 步：计算后验概率，即每一次抛的硬币分别为 $A$ 和 $B$ 的概率。

比如第一次抛硬币的结果为 HTTTHHTHTH，即 5 正 5 反，该硬币分别为 $A$ 和 $B$ 的概率为
$\frac{\theta_A^5 (1-\theta_A)^5} {\theta_A^5(1-\theta_A)^5 + \theta_B^5 (1-\theta_B)^5} =\frac{0.6^5 * 0.4^5}{0.6^5 * 0.4^5 + 0.5^5*0.5^5} \approx 0.45$

$\approx 0.55$

使用上面的计算方法，可以求出 5 次实验中，硬币分别为 $A$ 和 $B$ 的概率如表 1.1 所示。

表 1.1 硬币分别为 A 和 B 的概率

次数	为硬币 $A$ 的概率	为硬币 $B$ 的概率
1	0.45	0.55
2	0.80	0.20
3	0.73	0.27
4	0.35	0.65
5	0.65	0.35

然后根据上面得出的概率，计算硬币 $A$ 和硬币 $B$ 出现正反面的期望。比如第一次抛硬币为 5 正 5 反，则硬币 $A$ 分别为正面和反面的期望为

$E(A_{H}) = P(A)*5 = 0.45 * 5 \approx 2.2$

$E(A_{T}) = P(A)*5 = 0.45 * 5 \approx 2.2$

使用上面的计算方法，可以求出 5 次实验中，硬币 $A$ 和硬币 $B$ 出现正反面的期望如表 1.2 所示。

表 1.2 硬币 A 和硬币 B 出现正反面的期望

次数	硬币 $A$	硬币 $B$
1	$\approx$ 2.2 H, 2.2 T	$\approx$ 2.8 H, 2.8 T
2	$\approx$ 7.2 H, 0.8 T	$\approx$ 1.8 H, 0.2 T
3	$\approx$ 5.9 H, 1.5 T	$\approx$ 2.1 H, 0.5 T
4	$\approx$ 1.4 H, 2.1 T	$\approx$ 2.6 H, 3.9 T
5	$\approx$ 4.5 H, 1.9 T	$\approx$ 2.5 H, 1.1 T
合计	$\approx$ 21.3 H, 8.6 T	$\approx$ 11.7 H, 8.4 T

（3）M 步：计算新的参数 $\hat{\theta}_A$ 和 $\hat{\theta}_B$

$\hat{\theta}_A^{(1)} \approx \frac{21.3}{21.3 + 8.6} \approx 0.71$

$\hat{\theta}_B^{(1)} \approx \frac{11.7}{11.7 + 8.4} \approx 0.58$

（4）进行迭代：重复 E 步和 M 步，直到收敛。

经过十次迭代后，得到 $\hat{\theta}_A^{(10)} \approx 0.80$ ， $\hat{\theta}_B^{(10)} \approx 0.52$ 。

1.3 EM 算法的推导

通过上面抛硬币的例子，我们已经大致了解了 EM 算法，下面我们开始详细介绍 EM 算法的推导过程。

给定 $m$ 个训练样本 $\{x^{(1)}, \cdots, x^{(m)}\}$ ，假设样本间相互独立，我们希望将模型 $p (x, z)$ 的参数与数据进行拟合，其似然函数为：

$\begin{aligned} l(\theta) &= \sum_{i=1}^{m} \log p(x;\theta) \\ &= \sum_{i=1}^{m} \log \sum_{z} p(x,z;\theta) \end{aligned} \tag{1.12}$

但是，直接求解参数 $\theta$ 的极大似然估计一般会比较困难，因为上式存在一个隐变量 $z$ 。通常情况下，如果确定 $z$ 后，求解 $\theta$ 就很容易了。

针对存在含有隐变量的情况下，EM 算法提供了一种有效的极大似然估计方法。因为无法直接最大化 $l(\theta)$ ，所以采用此方法：不断地建立 $l(\theta)$ 的下界（E步），然后优化下界（M步）。这句话比较抽象，我们继续往下看。

对每一个样例 $i$ ，让 $Q_i$ 表示表示该样例隐变量 $z$ 的某种分布（存在 $\sum_{z} Q_i(z) =1$ ， $Q_i(z) \geq 0$ ）需要注意：如果 $Q_i$ 是连续性的，则 $Q_i$ 表示概率密度函数，需要将求和符号换成积分符号。

对式（1.12）进行变换得：

$\begin{aligned} \sum_{i} \log p(x^{(i)};\theta) &= \sum_{i} \log \sum_{z^{(i)}} p(x^{(i)},z^{(i)};\theta) \\ &= \sum_{i} \log \sum_{z^{(i)}} Q_i(z^{(i)}) \frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})} \\ &\geq \sum_{i} \sum_{z^{(i)}} Q_i(z^{(i)}) \log \frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})} \end{aligned} \tag{1.13}$

对分子和分母同时乘以 $Q_{i}(z^{(i)})$ ，所以式（1.13）中的第二个等号成立。根据 Jensen 不等式，式（1.13）中的不等式成立。在这里， $\log(x)$ ，由于 $\log(x)$ 的二阶导数为 $-\frac{1}{x^2} < 0$ ，所以其为凹函数。我们可以把 $Q_i(z^{(i)})$ 看做概率分布 $p$ ，那么 $\sum_{z^{(i)}} Q_i(z^{(i)})\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}$ 可以看做是 $\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}$ 的期望。根据 Jensen 不等式可得

$f\left(E_{z^{(i)}\thicksim Q_i} \left[\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}\right]\right) \geq E_{z^{(i)}\thicksim Q_i}\left[f\left( \frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})} \right)\right] \tag{1.14}$

这样就得到式（1.13）中的不等式成立。

我们可以把上式写成： $L(\theta) \geq J(z, Q)$ （ $z$ 为隐变量），那么我们可以通过不断的最大化 $J (z, Q)$ ，来使得 $L(\theta)$ 不断提高，最终达到它的最大值。图 1.2 更形象地描述这个过程：

图 1.3 EM 算法

这里来说说上图的内在含义：首先我们固定 $\theta$ ，调整 $Q (z)$ 使下界 $J (z, Q)$ 与 $L(\theta)$ 在此点 $\theta$ 处相等（即绿色曲线到蓝色曲线），然后固定 $Q (z)$ ，调整 $\theta$ 使下界 $J (z, Q)$ 达到最大值（即 $\theta^{(t)}$ 到 $\theta^{(t+1)}$ ）；然后再固定 $\theta$ ，调整 $Q (z)$ ，……，直到收敛到 $L(\theta)$ 的最大值处 $\theta^{*}$ 。

在上面的迭代过程中，存在以下两个问题：

什么时候下界 $J (z, Q)$ 与 $L(\theta)$ 在此点 $\theta$ 处相等？
为什么一定会收敛？

1.3.1 什么时候下界 $J (z, Q)$ 与 $L(\theta)$ 在此点 $\theta$ 处相等？

在前面介绍 Jensen 不等式时提到，当自变量 $X = E (x)$ 时，即为常数的时候，等式成立。换言之，为了使式（1.13）中的不等式取等号，需要满足

$\frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})} = c \tag{1.15}$

其中， $c$ 为常数，不依赖于 $z^{(i)}$ 。对上面的等式做一下变换，得

$p(x^{(i)},z^{(i)};\theta) = cQ_i(z^{(i)}) \tag{1.16}$

对上面的等式两边对 $z$ 求和，得

$\begin{aligned} \sum_z p(x^{(i)},z^{(i)};\theta) &= \sum_z cQ_i(z^{(i)}) \\ &= c \sum Q_i(z^{(i)}) \end{aligned} \tag{1.17}$

因为 $\sum Q_i(z^{(i)}) = 1$ （概率之和为 1），得

$\sum_z p(x^{(i)},z^{(i)};\theta) = c \tag{1.18}$

由式（1.15）和式（1.18）得

$\begin{aligned} Q_i(z^{(i)}) &= \frac{p(x^{(i)},z^{(i)};\theta)}{c} \\ &= \frac{p(x^{(i)},z^{(i)};\theta)}{\sum_z p(x^{(i)},z^{(i)};\theta)} \\ &= \frac{p(x^{(i)},z^{(i)};\theta)}{p(x^{(i)};\theta)} \\ &= p(z^{(i)} | x^{(i)}; \theta) \end{aligned} \tag{1.19}$

至此，我们推出了在固定参数 $\theta$ 后， $J (z, Q)$ 与 $L(\theta)$ 相等时， $Q_{i}(z^{(i)})$ 的取值就是其后验概率（在给定 $x^{(i)}$ 和 $\theta$ 后），这样我们同时解决了 $Q_{i}(z^{(i)})$ 的选值问题。此步就是 E 步，即建立 $L(\theta)$ 的下界。接下来是 M 步，即在给定 $Q_i(z^{(i)})$ 后，调整 $\theta$ ，从而极大化 $L(\theta)$ 的下界 $J (z, Q)$ 。不断地重复 E 步和 M 步，直至收敛，这就是 EM 算法。

EM 算法的完整步骤如下：

参数初始化：随机初始化参数 $\theta^{(0)}$ 。
E 步：根据当前参数 $\theta^{(t)}$ （初始值 $\theta^{(0)}$ 或上一次迭代中 M 步求得的 $\theta$ 值）求隐变量的后验概率 $Q_i(z^{(i)})=p(z^{(i)} | x^{(i)}; \theta^{(t)})$ ，即式（1.19）。
M 步：固定 $Q_i(z^{(i)})$ ，通过极大化 $J (z, Q)$ 求得新的参数 $\theta^{(t)}$ 。
进行迭代：重复 E 步和 M 步，直到收敛。

1.3.2 EM 算法的收敛性

我们怎么确保 EM 算法一定会收敛呢？首先，假设 $\theta^{(t)}$ 和 $\theta^{(t+1)}$ 是 EM 算法第 $t$ 次和 $t + 1$ 次迭代后的结果。如果我们证明了 $l(\theta^{(t)}) \leq l(\theta^{(t+1)})$ ，也就是说对数似然函数单调递增，那么最终就会得到最大值。

证明过程：

在选定 $\theta^{(t)}$ 后，由 E 步得
$Q_i^{(t)}(z^{(i)}) := p(z^{(i)}|x^{(i)};\theta^{(t)}) \tag{1.20}$
当 $Q_i$ 为后验概率时保证了 Jensen 不等式中的等号成立，即得

$l(\theta^{(t)}) = \sum_i \sum_{z^{(i)}} Q_i^{(t)}(z^{(i)}) \log \frac{p(x^{(i)},z^{(i)};\theta^{(t)})}{Q_i^{(t)}(z^{(i)})} \tag{1.21}$

参数 $\theta^{(t+1)}$ 是通过极大化式（1.21）得到。经过一些推导会有一下式子成立

$\begin{aligned} l(\theta^{(t+1)}) &\geq \sum_i \sum_{z^{(i)}} Q_i^{(t)}(z^{(i)}) \log \frac{p(x^{(i)},z^{(i)};\theta^{(t+1)})}{Q_i^{(t)}(z^{(i)})} \\ &\geq \sum_i \sum_{z^{(i)}} Q_i^{(t)}(z^{(i)}) \log \frac{p(x^{(i)},z^{(i)};\theta^{(t)})}{Q_i^{(t)}(z^{(i)})} \\ &= l(\theta^{(t)}) \end{aligned} \tag{1.22}$

下面来具体解释一下式（1.22）。对下面的式子（即式（1.13））

$l(\theta) \geq \sum_{i} \sum_{z^{(i)}} Q_i(z^{(i)}) \log \frac{p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})} \tag{1.23}$

中的参数分别取值 $Q_i = Q_i^{(t)}$ 和 $\theta = \theta^{(t+1)}$ 得

$l(\theta^{(t+1)}) \geq \sum_{i} \sum_{z^{(i)}} Q_i^{(t)}(z^{(i)}) \log \frac{p(x^{(i)},z^{(i)};\theta^{(t+1)})}{Q_i^{(t)}(z^{(i)})} \tag{1.24}$

从而式（1.22）中的第一个不等号成立。

因为参数 $\theta^{(t+1)}$ 是通过极大化式（1.21）得到，所以可得

$\sum_{i} \sum_{z^{(i)}} Q_i^{(t)}(z^{(i)}) \log \frac{p(x^{(i)},z^{(i)};\theta^{(t+1)})}{Q_i^{(t)}(z^{(i)})} \geq\sum_i \sum_{z^{(i)}} Q_i^{(t)}(z^{(i)}) \log \frac{p(x^{(i)},z^{(i)};\theta^{(t)})}{Q_i^{(t)}(z^{(i)})} \tag{1.25}$

从而式（1.22）中的第二个不等号成立。

由式（1.21）可得式（1.22）中的等号成立。

至此，我们证明了 $l(\theta^{(t)}) \leq l(\theta^{(t+1)})$ 。这样也就证明了 EM 算使得似然函数 $l(\theta)$ 单调递增，并收敛。在实际应用中，可以使用如下方法判断是否收敛： $l(\theta)$ 不再变化或者变化很小。

从上面的推导可以看出，EM 算法可以保证收敛到一个稳定点，但是却不能保证收敛到全局的极大值点，因此它是局部最优的算法。所以在应用中，初值的选择变得非常重要，常用的办法是选取几个不同的初值进行迭代，然后对得到的各个估计值加以比较，从中选择最好的。

从前面的推导中我们知道 $l(\theta) \geq J(Q,\theta)$ ，EM 算法可以看做是 $J(Q,\theta)$ 的坐标上升法。E 步固定 $\theta$ ，优化 $Q$ ；M 步固定 $Q$ ，优化 $\theta$ 。

1.4 EM 算法的应用

K-means 算法是 EM 算法思想的体现，E 步骤为聚类过程，M 步骤为更新类簇中心。高斯混合模型（GMM）也是 EM 算法的一个应用。

缺点：对初始值敏感，EM 算法需要初始化参数 $\theta$ ，而参数 $\theta$ 的选择直接影响收敛效率以及能否得到全局最优解。

参考

[1] 李航《统计学习方法》
[2] 周志华《机器学习》
[3] http://cs229.stanford.edu/notes/cs229-notes8.pdf
[4] Chuong B Do & Serafim Batzoglou《What is the expectation maximization algorithm?》
[5] 维基百科：凸函数
[6] 维基百科：凹函数
[7] Jensen不等式初步理解及证明
[8] 如何通俗理解EM算法
[9] 从最大似然到EM算法浅解
[10] EM-最大期望算法
[11] （EM算法）The EM Algorithm

Matlab多种算法解决未来杯B的多分类问题 Subject.625Ruben 算法分类机器学习数学建模未来杯 matlab 人工智能
1.读取数据首先，我们从Excel文件中读取训练集和测试集：2.训练集划分我们将80%的数据用于训练，20%用于验证。3.训练多个模型我们选取8种常见分类模型，并存储预测结果。fori=1:length(modelNames)switchmodelNames{i}case'MultinomialLogisticRegression'B=mnrfit(X_train,Y_train,'model',
Java与Elasticsearch集成详解，以及使用指南 qzw1210 java elasticsearch jenkins
Java与Elasticsearch集成详解1.环境配置首先，你需要在Maven项目中添加ElasticsearchJava客户端依赖：co.elastic.clientselasticsearch-java8.10.0com.fasterxml.jackson.corejackson-databind2.15.2jakarta.jsonjakarta.json-api2.1.12.客户端初始化E
基于群智能算法的三维无线传感网络覆盖优化数学模型-可以使用群智能算法直接调用进行优化，完整MATLAB代码算法小狂人算法应用 matlab php 开发语言
1.1三维覆盖模型由于节点随机抛洒，而传感器节点的分布情况会影响网络覆盖率，以RcovR_{\text{cov}}Rcov作为覆盖率评价标准。在三维覆盖区域中，传感器节点的覆盖区域是某一半径确定的球。在三维监测区域中随机抛洒NNN个传感器节点，形成节点集S={s1,s2,s3,⋯ ,sN}S=\{s_1,s_2,s_3,\cdots,s_N\}S={s1,s2,s3,⋯,sN}，第iii个节点的坐
使用 Dify 创建自然语言生成 Word 文档的应用（详细指南） engchina LINUX python 人工智能 Agent Dify
使用Dify创建自然语言生成Word文档的应用（详细指南）一、开发核心API1.1API功能规划1.2环境准备安装依赖库项目目录结构1.3核心代码解析（`app.py`）1.3.1初始化配置1.3.2关键功能模块1.4API接口说明1.4.1转换接口`/convert`1.4.2下载接口`/download/`1.5启动服务1.6测试二、创建Dify工具2.1工作流设计步骤步骤1：创建新工作流步骤
Java突击小练习--利用正则表达式来简易的校验邮箱与手机号格式 CJH~ java 正则表达式 mysql
//校验邮箱publicclassTestEmail{publicstaticvoidmain(String[]args){Scannerinput=newScanner(System.in);//*号代表任意数量，放在0-9a-zA-Z后面，代表可以写任意数量的字母和数字//@是邮箱的符号，接在刚刚那串的后面//|代表或，也就是说@后可以跟着qq或163或sina中的任意字符串，代表哪家邮箱//
Elasticsearch大文件检索性能提升20倍实践（干货）_elasticsearch 查询优化 2401_84247505 2024年程序员学习 elasticsearch jenkins 大数据
3、问题排查与定位步骤1：限定返回记录条数。不提供直接访问末页的入口。baidu，360，搜狗等搜索引擎都不提供访问末页的请求方式。都是基于如下的请求方式：通过点击上一下、下一页逐页访问。这个从用户的角度也很好理解，搜索引擎返回的前面都是相关度最高的，也是用户最关心的信息。Elasticsearch的默认支持的数据条数是10000条，可以通过post请求修改。最终，本步骤将支持ES最大返回值100
Spring Boot整合RabbitMQ极简教程 Cloud_. java-rabbitmq spring boot rabbitmq
一、消息队列能解决什么问题？异步处理：解耦耗时操作（如发短信、日志记录）流量削峰：应对突发请求，避免系统过载应用解耦：服务间通过消息通信，降低依赖二、快速整合RabbitMQ1.环境准备安装RabbitMQ（推荐Docker一键部署）：dockerrun-d--namerabbitmq-p5672:5672-p15672:15672rabbitmq:management访问管理界面：http://
【大模型对话的界面搭建-Open WebUI】 y_dd 人工智能深度学习人工智能 llama 语言模型
OpenWebUI前身就是OllamaWebUI，为Ollama提供一个可视化界面，可以完全离线运行，支持Ollama和兼容OpenAI的API。github网址https://github.com/open-webui/open-webui安装第一种docker安装如果ollama安装在同一台服务器上：dockerrun-d-p3000:8080--add-host=host.docker.in
go 加载yaml配置文件 zsd_666 后端 golang android 开发语言
go加载yaml配置文件config.yaml文件mysql:url:127.0.0.1userName:rootpassword:rootdbname:testport:3306准备结构体//用于接收yaml配置参数的struct结构体typeconfstruct{MysqlMysql`yaml:"mysql"`}typeMysqlstruct{Urlstring`yaml:"url"`User
TidyBot++：用于机器人学习开源的完整移动机械手三谷秋水计算机视觉智能体人工智能机器人开源人工智能机器学习深度学习
24年12月来自普林斯顿、斯坦福和dexterity.ai的论文“TidyBot++:AnOpen-SourceHolonomicMobileManipulatorforRobotLearning”。要充分利用模仿学习在移动机械操作方面的最新进展，需要收集大量人工引导的演示。本文提出一种开源设计，用于设计一种廉价、坚固、灵活的移动机械手，该机械手可支撑任意臂，从而实现各种现实世界的家用移动机械操作
Android StrictMode 使用与原理深度解析伟江.Zeng Android基础 android StrictMode 性能优化内存泄漏代码规范耗时检测 kotlin
AndroidStrictMode是Android系统提供的一种开发者工具，用于检测应用主线程中不合理的耗时操作（如磁盘I/O、网络请求等）和内存泄漏问题。通过配置策略和惩罚机制，它帮助开发者在早期发现潜在性能问题，提升应用流畅性。以下从使用方式和实现原理两方面进行深度解析。一、StrictMode使用详解1.基础配置在Application或Activity的onCreate()中初始化Stri
MATLAB算法实战应用案例精讲-【深度学习】归一化林聪木 matlab 算法深度学习
目录为什么要做特征归一化/标准化？常用featurescaling方法计算方式上对比分析featurescaling需要还是不需要什么时候需要featurescaling？什么时候不需要FeatureScaling？归一化基础知识点1.什么是归一化2.为什么要归一化3.为什么归一化能提高求解最优解的速度4.归一化有哪些类型5.不同归一化的使用条件6.归一化和标准化的联系与区别层归一化综述提出背景概
SSL证书自动续签(解决泛域名续签问题) 月会 ssl自动续签
文章目录SSL证书自动生成并自动续期Let’sEncryptCertbot介绍申请ssl证书下载certbot申请证书非泛域名申请证书nginx使用证书证书续期脚本linux定时执行脚本泛域名SSL证书自动生成并自动续期自动续期使用Let’sEncrypt证书颁发机构和certbot客户端共同完成Let’sEncryptLet’sEncrypt是一家免费、开放、自动化的证书颁发机构（CA），为公众
AtCoder Beginner Contest 275 A-D题解 Gowilli AtCoder c++算法数据结构
比赛名称：AtCoderBeginnerContest275A-FindTakahashi找出最大的元素并输出下标使用两个变量一个存储当前找到的最大值一个存储找到的最大值对应的下标，若当前数大于最大值更新最大值和下标AC代码//Problem:A-FindTakahashi//Contest:AtCoder-AtCoderBeginnerContest275//URL:https://atcode
PCIe信号传输的幕后：HCSL与LP-HCSL深度解析赛卡单片机嵌入式硬件服务器人工智能硬件架构 fpga开发
在数字化浪潮席卷的当下，PCIe（PeripheralComponentInterconnectExpress）作为高速串行计算机扩展总线标准，已然成为计算机内部硬件设备连接领域的中流砥柱。其信号传输的质量与完整性，恰似计算机系统运行的“命门”，对系统整体性能起着决定性作用。在PCIe体系架构里，HCSL（High-speedCurrentSteeringLogic）与LP-HCSL（Low-Po
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
Groovy语言的漏洞扫描花韵婷包罗万象 golang 开发语言后端
Groovy语言漏洞扫描：深入分析与实践引言Groovy是一种基于Java虚拟机（JVM）的动态编程语言，它结合了Python、Ruby和Smalltalk等语言的特性，提供了简洁的语法和强大的功能。Groovy广泛应用于脚本编写、自动化测试、构建工具（如Gradle）以及Web开发等领域。然而，随着Groovy的广泛应用，其安全性问题也逐渐显现出来。本文将深入探讨Groovy语言中的常见漏洞类型
Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
PCDN 与边缘计算的结合：未来内容分发的新趋势 yczykjyxgs pcdn 智能路由器
在数字化浪潮中，内容分发面临着前所未有的挑战与机遇。PCDN（P2P内容分发网络）与边缘计算的结合，正逐渐崭露头角，成为未来内容分发的新趋势。PCDN通过P2P技术，利用用户节点的闲置资源进行内容分发，有效减轻了中心服务器的压力，降低了传输成本。然而，在面对实时性要求极高的业务场景时，PCDN仍存在一定局限。边缘计算的出现，为解决这一问题提供了新思路。边缘计算将计算和存储能力下沉到网络边缘，靠近用
自动同步多服务器下SQL脚本3.0 a栋栋栋遇到的问题 sql 自动化事务失效
由于上一版发现数据库【MySQL】不支持DML事务回滚，该迭代主要是去兼容这种问题。数据表新增一个completed字段，用来表示当前版本下同步成功的个数。数据表CREATETABLE`auto_sql_version`(`id`intNOTNULLAUTO_INCREMENT,`version`varchar(20)CHARACTERSETutf8mb4COLLATEutf8mb4_0900_a
openssl TLS 单向认证 spring*-* 网络服务器运维
下面是一个简单的C语言程序示例，它展示了如何使用OpenSSL来实现基于TLS的加密TCP通信。这个程序包括一个服务器和一个客户端，它们通过TLS加密的TCP连接进行通信。步骤概览初始化OpenSSL库。创建SSL上下文（SSL_CTX）。在服务器端，加载服务器证书和私钥；在客户端，加载CA证书。使用SSL套接字进行加密通信。服务器端代码c复制代码#include#include#include#
大模型+智能代理：自动化测试的终极组合？测试者家园软件测试质量效能人工智能人工智能软件测试质量效能职场和发展 AI赋能智能体 LLM
用ChatGPT做软件测试在软件测试领域，自动化测试的目标一直是提高测试效率、减少人工干预、提升缺陷发现率。然而，传统自动化测试仍然面临诸多挑战，例如脚本维护成本高、难以应对动态UI变化、测试数据生成受限，以及难以覆盖复杂业务逻辑。近年来，大模型（LLM,LargeLanguageModel）+智能代理（Agent）的结合，为自动化测试带来了新的可能性。这种“智能测试代理”能够利用大模型的自然语言
SSL的原理和应用 m0_74092749 ssl 网络协议网络
前言：SSL协议便是Internet上应用最为广泛的网络数据安全传输协议。SSL协议隶属于会话层,处于有连接的会话层之上,它一经产生就在Internet领域发挥了它的巨大作用。目前,国外著名的商用浏览器和Web服务器都支持SSL协议,SSL已成为最流行的WWW安全协议。目前已经有若干国外厂商推出了基于SSL的安全产品,但是协议在核心密码算法上都有出口限制,大多采用一些低安全强度的算法,而且协议代码
详解PriorityQueue 27xixi 算法数据结构 java
PriorityQueue是Java集合框架中的一个类，它实现了优先级队列的数据结构。优先级队列是一种特殊的队列，其中的元素按照优先级顺序出队，而不是按照插入顺序（FIFO）。默认情况下，PriorityQueue是一个最小堆，即优先级最小的元素最先出队。1.PriorityQueue的特点基于堆实现:PriorityQueue通常基于二叉堆（最小堆或最大堆）实现。无界队列:PriorityQue
java Stream API中的聚合操作 27xixi java java18
聚合操作是指对一组数据进行处理，最终生成一个单一的结果。在编程中，聚合操作通常用于对集合（如列表、数组等）中的元素进行统计、计算或汇总。常见的聚合操作包括求和、求平均值、查找最大值/最小值、计数等。在Java的StreamAPI中，聚合操作是通过终端操作（TerminalOperations）来实现的。以下是一些常见的聚合操作及其用法：1.求和（Sum）对集合中的元素进行求和。示例：求整数列表的和
PCDN边缘计算小白入门指南神鸟云-Hu 边缘计算人工智能
一、PCDN边缘计算简介PCDN是一种基于P2P技术的边缘计算内容分发网络。它通过挖掘和利用边缘网络中的海量碎片化闲置资源，构建出低成本、高品质的内容分发网络服务。通过集成PCDNSDK（软件开发工具包），可以获得与CDN（ContentDeliveryNetwork，内容分发网络）相当或略高的分发质量，同时显著降低分发成本。PCDN适用于视频点播、直播、大文件下载等业务场景，旨在降低客户的分发成
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
Redis 常用数据类型 27xixi java技术栈 redis 数据库缓存
Redis常用数据类型的详细介绍及其典型应用场景：String（字符串）描述：最基本的数据类型，可存储文本、数字或二进制数据（最大512MB）。常用命令：SETkeyvalue：设置值GETkey：获取值INCRkey：将值自增1（原子性操作）EXPIREkeyseconds：设置过期时间应用场景：缓存简单键值对（如用户会话、配置项）。计数器（如文章阅读量、库存扣减）。分布式锁（结合SETNX命令
LabVIEW cRIO中CSV文件的读取 LabVIEW开发 LabVIEW知识 LabVIEW功能 CRIO
在LabVIEWcRIO中读取CSV文件，需通过文件传输、路径配置、数据解析等步骤实现。本文详细说明如何通过代码读取本地存储的CSV文件，并探讨直接通过对话框选择文件的可行性及替代方案。一、CSV文件传输至cRIO本地存储1.使用NIMAX文件管理步骤：打开NIMAX（Measurement&AutomationExplorer）。连接目标cRIO设备，进入“文件”选项卡。选择路径（如/c/），点
破解“光伏+储能+充电”一体化难题！安科瑞全方案打造智慧能源新标杆 Acrelgq23 能源
安科瑞顾强破解“光伏+储能+充电”一体化难题！安科瑞全方案打造智慧能源新标杆在“双碳”目标驱动下，光伏储能与充电桩的融合成为能源转型的关键场景。然而，多电源协同、保护逻辑冲突、运维可靠性低等难题，让许多充电站项目陷入“技术泥潭”。如何破局？安科瑞以全栈技术方案给出答案——从智能继电保护到智慧能源管理，一站式解决光储充一体化设计痛点，助力充电站高效、安全、经济运营！痛点直击：光储充一体化为何难落地？
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少