连理o

潜在语义分析 (LSA)，概率潜在语义分析 (PLSA)

潜在语义分析 (latent semantic analysis, LSA)
- 单词向量空间与话题向量空间
- - 单词向量空间 (word vector space)
  - 话题向量空间 (topic vector space)
- 潜在语义分析算法 (矩阵奇异值分解算法)
- 非负矩阵分解算法 (non-negative matrix factorization, NMF)
- - 非负矩阵分解
  - 非负矩阵分解的形式化
  - 非负矩阵分解算法
概率潜在语义分析 (probabilistic latent semantic analysis, PLSA)
- 生成模型
- - 基本思想
  - 生成模型的定义
  - 生成模型学习的 EM 算法
- 共现模型
- - 基本思想
  - 共现模型的定义
- 共现模型与生成模型

潜在语义分析 (latent semantic analysis, LSA)

潜在语义分析是一种无监督学习方法，主要用于文本的话题分析，其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系

单词向量空间与话题向量空间

单词向量空间 (word vector space)

文本信息处理的一个核心问题是对文本的语义内容进行表示，并进行文本之间的语义相似度计算 (e.g. 文本信息检索、文本数据挖掘)。最简单的方法是利用单词向量空间模型

基本思想

给定一个文本，用一个向量表示该文本的 “语义”，向量的每一维对应一个单词，其数值为该单词在该文本中出现的频数或权值。文本集合中的每个文本都表示为一个向量，存在于一个向量空间。向量空间的度量，如**内积或标准化内积 (余弦相似度)**表示文本之间的 “语义相似度”
严格定义: 给定一个含有 $n$ 个文本的集合 $D= \{d_1,...,d_n\}$ ，以及在所有文本中出现的 $m$ 个单词的集合 $W= \{w_1,...,w_m\}$ 。将单词在文本中出现的数据用一个单词-文本矩阵 (word-document matrix) 表示，记作 $X$
- 权值通常用单词频率-逆文本频率 (term frequency-inverse document frequency, TF-IDF) 表示，其定义是
  式中 $\text{tf}_{ij}$ 是单词 $w_i$ 出现在文本 $d_j$ 中的频数， $\text{tf}_{\boldsymbol \cdot j}$ 是文本 $j$ 中出现的所有单词的频数之和， $\text{df}_i$ 是含有单词 $w_i$ 的文本数， $\text{df}$ 是文本集合 $D$ 的全部文本数

优点：单词向量空间模型的优点是模型简单，计算效率高。由于单词的种类很多，而每个文本中出现单词的种类通常较少，所以单词-文本矩阵是一个稀疏矩阵，两个向量的内积计算只需要在其同不为零的维度上进行即可，需要的计算很少，可以高效地完成
缺点：内积相似度未必能够准确表达两个文本的语义相似度上。因为自然语言的单词具有一词多义性 (polysemy) 及多词一义性 (synonymy)，即同一个单词可以表示多个语义，多个单词可以表示同一个语义，所以基于单词向量的相似度计算存在不精确的问题
- 例如在下面的单词-文本矩阵中，文本 $d_1$ 与 $d_2$ 相似度并不高，尽管两个文本的内容相似，这是因为同义词 “airplane” 与 “aircraft” 被当作了两个独立的单词，单词向量空间模型不考虑单词的同义性，在此情况下无法进行准确的相似度计算。另一方面，文本 $d_3$ 与 $d_4$ 有一定的相似度，尽管两个文本的内容并不相似，这是因为单词 “apple” 具有多义，可以表示 “apple computer” 和 “fruit”，单词向量空间模型不考虑单词的多义性，在此情况下也无法进行准确的相似度计算

话题向量空间 (topic vector space)

两个文本的语义相似度可以体现在两者的话题相似度上。一个文本一般含有若干个话题，如果两个文本的话题相似，那么两者的语义应该也相似。话题可以由若干个语义相
关的单词表示，同义词可以表示同一个话题，而多义词可以表示不同的话题。这样，基于话题的模型就可以解决上述基于单词的模型存在的问题

话题向量空间

假设所有文本共含有 $k$ 个话题。假设每个话题由一个定义在单词集合 $W$ 上的 $m$ 维向量表示，称为话题向量，即
其中 $t_{il}$ 是单词 $w_i$ 在话题 $t_l$ 的权值，权值越大，该单词在该话题中的重要度就越高。这 $k$ 个话题向量 $t_1,..., t_k$ 张成一个话题向量空间 (topic vector space)，维数为 $k$ 。注意话题向量空间 $T$ 是单词向量空间 $X$ 的一个子空间
话题向量空间 $T$ 也可以表示为一个矩阵，称为单词-话题矩阵 (word-topic matrix)，记作

文本在话题向量空间的表示

现在考虑文本集合 $D$ 的文本 $d_j$ ，在单词向量空间中由一个向量 $x_j$ 表示，将 $x_j$ 投影到话题向量空间 $T$ 中，得到在话题向量空间的一个向量 $y_j$ ， $y_j$ 是一个 $k$ 维向量。也就是说
$x_j\approx Ty_j$ 可以看出， $y_j$ 的 $k$ 个分量就代表文本 $d_j$ 在 $k$ 个话题上的权值，权值越大，该话题在该文本中的重要度就越高
将 $Y=\begin{bmatrix}y_1&y_2&...&y_n\end{bmatrix}$ 称为话题-文本矩阵 (topic-document matrix)，表示话题在文本中出现的情况. 所以，单词-文本矩阵 $X$ 可以近似的表示为单词-话题矩阵 $T$ 与话题-文本矩阵 $Y$ 的乘积形式
$X\approx TY$

潜在语义分析

潜在语义分析就是确定话题向量空间 $T$ 以及文本在话题空间的表示 $Y$ ，使两者的乘积是单词-文本矩阵 $X$ 的近似
经过潜在语义分析后，在话题向量空间中，两个文本 $d_i$ 与 $d_j$ 的相似度可以由对应的向量的内积即 $y_i\cdot y_j$ 表示 (注意话题的个数通常远远小于单词的个数，话题向量空间模型更加抽象)

潜在语义分析算法 (矩阵奇异值分解算法)

潜在语义分析根据确定的话题个数 $k$ 对单词-文本矩阵 $X$ 进行截断奇异值分解，将其左矩阵 $U_k$ 作为话题向量空间，将其对角矩阵与右矩阵的乘积 $\Sigma_kV_k^TzW$ 作为文本在话题向量空间的表示

LSA 如果碰到新的文本还要连同之前的所有文本一起重新进行矩阵分解，感觉还是不太方便

非负矩阵分解算法 (non-negative matrix factorization, NMF)

非负矩阵分解

若一个矩阵 $X$ 的所有元素非负，则称该矩阵为非负矩阵，记作 $X\geq0$
给定一个非负矩阵 $X\geq 0$ ，找到两个非负矩阵 $W\geq0$ 和 $H\geq0$ ，使得
$X\approx WH$ 称为非负矩阵分解
可见，非负矩阵分解也可以用于话题分析。由于通常单词-文本矩阵 $X$ 是非负的，因此可以对 $X$ 进行非负矩阵分解，将其左矩阵 $W$ 作为话题向量空间，将其右矩阵 $H$ 作为文本在话题向量空间的表示。称 $W$ 为基矩阵， $H$ 为系数矩阵; 相比使用奇异值分解的潜在语义分析算法，非负矩阵分解具有很直观的解释，话题向量和文本向量都非负，对应着 “伪概率分布”，向量的线性组合表示局部叠加构成整体

非负矩阵分解的形式化

非负矩阵分解可以形式化为最优化问题求解

首先定义损失函数：

(1) 平方损失: 其下界是 0，当且仅当 $A = B$ 时达到下界
(2) 散度损失函数:其下界也是 0，当且仅当 $A = B$ 时达到下界。 $A$ 和 $B$ 不对称。当 $\sum_{i,j}a_{ij}=\sum_{ij}b_{ij}=1$ 时散度损失函数退化为 Kullback-Leiber 散度或相对熵，这时 $A$ 和 $B$ 是概率分布

那么这个散度损失函数是怎么来的呢？
首先假设我们使用一阶泰勒展开 $f(y)\approx f(x)+\nabla f(x)(y-x)$ 去近似估计函数值，那么估计误差为 $f(x)-f(y)+\nabla f(x)(y-x)$ 可以将其进行推广得到 Bregman 距离：
$B_\phi(x||y)=\phi(x)-\phi(y)-\langle\nabla \phi(x),x-y\rangle$ 其中， $\phi$ 为定义在闭合凸集的连续可微凸函数， $\langle\cdot,\cdot\rangle$ 表示向量内积；如果 $\phi$ 取信息熵的形式：
$\phi(x)=\sum_{i=1}^nx_i\ln x_i$ 则
$B_\phi(x||y)=\sum_{i=1}^n\left(y_i\ln\frac{y_i}{x_i}-y_i+x_i\right)$ 这样就可以得出散度损失函数
$D(A||B)=B_\phi(b||a)==\sum_{ij}\left(a_{ij}\ln\frac{a_{ij}}{b_{ij}}-a_{ij}+b_{ij}\right)$ 也就是说，散度损失函数就可以看作以 $b$ 为基准点对 $a$ 的信息熵进行一阶泰勒估计时的误差，直观上看，误差越小说明它们越接近

接着定义以下的最优化问题：

或

非负矩阵分解算法

考虑求解上面的两个最优化问题。由于目标函数 $X-WH||^2$ 和 $D (X ∣ ∣ W H)$ 只是对变量 $W$ 和 $H$ 之一的凸函数，而不是同时对两个变量的凸函数，因此找到全局最优 (最小值) 比较困难，可以通过数值最优化方法求局部最优 (极小值)
梯度下降法比较容易实现，但是收敛速度慢。共轭梯度法收敛速度快，但实现比较复杂。Lee 和 Seung 提出了新的基于 “乘法更新规则” 的优化算法，交替地对 $W$ 和 $H$ 进行更新，其理论依据是下面的定理：

定理证明见 Algorithms for Non-negative Matrix Factorization (论文翻译)

非负矩阵分解算法 (只介绍损失函数为平方损失的算法)

最优化目标函数：
应用梯度下降法求解。首先求目标函数的梯度
然后求得梯度下降法的更新规则，有
选取更新步长为
即得乘法更新规则

(1) 选取初始矩阵 $W$ 和 $H$ 为非负矩阵，可以保证迭代过程及结果的矩阵 $W$ 和 $H$ 均为非负
(2) 每次迭代对 $W$ 的列向量归一化，使基向量为单位向量

可见，乘法更新规则的迭代算法本质是梯度下降法，通过定义特殊的步长和非负的初始值，保证迭代过程及结果的矩阵 $W$ 和 $H$ 均为非负

概率潜在语义分析 (probabilistic latent semantic analysis, PLSA)

概率潜在语义分析受潜在语义分析的启发，1999 年由 Hofmann 提出，前者基于概率模型，后者基于非概率模型
概率潜在语义分析模型有生成模型，以及等价的共现模型。下面先介绍生成模型，然后介绍共现模型

生成模型

基本思想

生成模型将话题看作隐变量 $z$ ，文本和单词对看作观测变量 $(w, d)$ ；整个模型表示文本生成话题，话题生成单词，从而得到单词-文本共现数据的过程。对文本集合进行概率潜在语义分析，就能够发现每个文本的话题，以及每个话题的单词
- 这里看到隐变量是不是一下就想到了 EM 算法？没错，生成模型也是 EM 算法的一个应用。这里的观测变量即为单词-文本对 $(w, d)$ ，隐变量即为话题 $z$ ，目标是最大化单词-文本矩阵 $T$ 的生成概率 (也就是极大化似然函数)

生成模型的定义

假设有单词集合 $w= \{w_1,w_2 ,..,w_M\}$ ，其中 $M$ 是单词个数；文本 (指标) 集合 $D = \{d_1,...,d_N\}$ ，其中 $N$ 是文本个数；话题集合 $Z = \{ z_1,...,z_k\}$ ，其中 $K$ 是预先设定的话题个数
随机变量 $w$ 取值于单词集合; 随机变量 $d$ 取值于文本集合，随机变量 $z$ 取值于话题集合； $P (d)$ 表示生成文本 $d$ 的概率， $P (z ∣ d)$ 表示文本 $d$ 生成话题 $z$ 的概率， $P (w ∣ z)$ 表示话题 $z$ 生成单词 $w$ 的概率 (也就是说，一个文本的内容由其相关话题决定，一个话题的内容由其相关单词决定)

生成模型定义

生成模型通过以下步骤生成文本-单词共现数据:
- (1) 依据概率分布 $P (d)$ ，从文本集合中随机选取一个文本 $d$ ，共生成 $N$ 个文本; 针对每个文本，执行以下操作：
- (2) 在文本 $d$ 给定条件下，依据条件概率分布 $P (z ∣ d)$ ，从话题集合随机选取一个话题 $z$ ，共生成 $L$ 个话题，这里 $L$ 是文本长度
- (3) 在话题 $z$ 给定条件下，依据条件概率分布 $P (w ∣ z)$ ，从单词集合中随机选取一个单词 $w$
生成模型中，单词变量 $w$ 与文本变量 $d$ 是观测变量，话题变量 $z$ 是隐变量。文本-单词共现数据 $T$ 的生成概率为所有单词-文本对的生成概率的乘积，其中 $n (w, d)$ 表示 $(w, d)$ 的出现次数，每个单词-文本对 $(w, d)$ 的生成概率由以下公式决定 (在生成模型中， $w$ 与 $d$ 是条件独立的):
$\begin{aligned} P(w, d) &=P(d) P(w \mid d) \\ &=P(d) \sum_{z} P(w, z \mid d) \\ &=P(d) \sum_{z} P(w \mid z,d)P(z\mid d) \\ &=P(d) \sum_{z} P(w \mid z)P(z \mid d) \end{aligned}$

我们的目标是极大化文本-单词共现数据 $T$ 的生成概率。如果直接定义单词与文本的共现概率 $P (w, d)$ ，模型参数的个数是 $\cdot N)$ 。而生成模型的参数个数只有 $O(M\cdot K + N\cdot K)$ 。现实中 $K\ll M$ ，所以概率潜在语义分析通过话题对数据进行了更简洁地表示，减少了学习过程中过拟合的可能性

概率有向图模型

生成模型属于概率有向图模型，如图 18.2 所示。图中实心圆表示观测变量，空心圆表示隐变量，箭头表示概率依存关系，方框表示多次重复，方框内数字表示重复次数

生成模型学习的 EM 算法

我们的目标是最大化如下似然函数：

E 步:计算 $Q$ 函数

模型参数 $\theta=\{P(w \mid z),P(z \mid d)\}$ ；设隐变量为
$\gamma_{ijk}=\begin{cases}1\quad\quad给定\ (w_i,d_j)，话题为\ k \\0\quad\quad\ else \end{cases}$
为方便起见，记 $n(w_i,d_j)=n_{ij}$ ，则完全数据的似然为
$\begin{aligned} P(w,d,\gamma\mid \theta) &=\prod_{i,j}P(w_i,d_j,\gamma\mid \theta)^{n_{ij}} \\&=\prod_{i,j,k}\left[P(d_j)P(z_k \mid d_j)P(w_i \mid z_k) \right]^{n_{ij}\cdot\gamma_{ijk}} \end{aligned}$ 完全数据的对数似然为
$\begin{aligned} \log P(w,d,\gamma\mid \theta) &=\sum_{i,j,k}n_{ij}\cdot\gamma_{ijk}\left[\log P(d_j)+\log P(z_k \mid d_j)+\log P(w_i \mid z_k) \right] \end{aligned}$ 为了计算上式在给定不完全数据下的对隐变量的期望，只需计算 $\gamma_{ijk}$ 的条件期望 $\hat\gamma_{ijk}$
$\begin{aligned} \hat\gamma_{ijk}&=E[\gamma_{ijk}\mid w,d,\theta^-] \\&=P(\gamma_{ijk}=1\mid w_i,d_j,\theta^-) \\&=P(z_k\mid w_i,d_j,\theta^-) \\&=\frac{P(z_k,w_i\mid d_j,\theta^-)}{\sum_kP(z_k,w_i\mid d_j,\theta^-)} \\&=\frac{P(z_k\mid d_j)P(w_i\mid z_k,d_j,\theta^-)}{\sum_kP(z_k\mid d_j)P(w_i\mid z_k,d_j,\theta^-)} \\&=\frac{P(z_k\mid d_j)P(w_i\mid z_k)}{\sum_kP(z_k\mid d_j)P(w_i\mid z_k)} \end{aligned}$ 因此 $Q$ 函数为
$\begin{aligned} Q=\sum_{i,j,k}n_{ij}\cdot\hat\gamma_{ijk}\left[\log P(d_j)+\log P(z_k \mid d_j)+\log P(w_i \mid z_k) \right] \end{aligned}$ 省去常数项，可将 $Q$ 函数简化为函数 $Q^{'}$
$\begin{aligned} Q'=\sum_{i,j,k}n_{ij}\cdot\hat\gamma_{ijk}\left[\log P(z_k \mid d_j)+\log P(w_i \mid z_k) \right] \end{aligned}$

M 步: 极大化 $Q$ 函数

通过约束最优化求解 $Q$ 函数的极大值，这时 $P(z_k\mid d_j)$ 和 $P(w_i\mid z_k)$ 是变量，满足约束条件
应用拉格朗日法，引入拉格朗日乘子 $\tau_k$ 和 $\rho_j$ ，定义拉格朗日函数 $\Lambda$
将拉格朗日函数 $\Lambda$ 分别对 $P(z_k\mid d_j)$ 和 $P(w_i\mid z_k)$ 求偏导数，井令其等于 0，得到下面的方程组
解方程组得到 $M$ 步的参数估计公式:

共现模型

基本思想

共现模型将话题看作隐变量 $z$ ，文本和单词对看作观测变量 $(w, d)$ ；整个模型表示话题生成文本，话题生成单词，从而得到单词-文本共现数据的过程

共现模型的定义

共现模型中，文本-单词共现数据 $T$ 的生成概率为所有单词-文本对的生成概率的乘积，其中每个单词-文本对 $(w, d)$ 的生成概率由以下公式决定 (在生成模型中， $w$ 与 $d$ 是条件独立的):
$\begin{aligned} P(w, d) &=\sum_{z\in\mathcal Z}P(z)P(w,d\mid z) \\&=\sum_{z\in\mathcal Z}P(z)P(w\mid z)P(d\mid z) \end{aligned}$
共现模型也可以表示为三个矩阵乘积的形式。这样，概率潜在语义分析与潜在语义分析的对应关系可以从中看得很清楚。下面是共现模型的矩阵乘积形式：
概率潜在语义分析模型中的矩阵 $U^{'}$ 和 $V^{'}$ 是非负的、规范化的，表示条件概率分布，而潜在语义分析模型中的矩阵 $U$ 和 $V$ 是正交的，未必非负，并不表示概率分布

概率有向图模型

共现模型的学习算法推导类似于生成模型，这里略去

共现模型与生成模型

虽然生成模型与共现模型在概率公式意义上是等价的，但是拥有不同的性质。生成模型刻画文本-单词共现数据生成的过程，共现模型描述文本-单词共现数据拥有的模式
生成模型式 $\begin{aligned} P(w, d) &=P(d) \sum_{z} P(w \mid z)P(z \mid d) \end{aligned}$ 中单词变量 $w$ 与文本变量 $d$ 是非对称的，而共现模型式 $\begin{aligned} P(w, d) &=\sum_{z\in\mathcal Z}P(z)P(w\mid z)P(d\mid z) \end{aligned}$ 中单词变量 $w$ 与文本变量 $d$ 是对称的。所以前者也称为非对称模型，后者也称为对称模型

Ref

《统计学习方法》
非负矩阵分解 (1)：准则函数及 KL 散度

零基础起步：基于GpuGeek的文本生成模型实战昊昊该干饭了人工智能 nlp 深度学习 gpu算力 gru
在自然语言处理（NLP）领域，文本生成任务广泛应用于问答系统、智能摘要、内容创作等方向。本文将带领读者使用GpuGeek平台，从注册、上传数据到实例部署与训练，完整构建一个基于GPT2模型的文本生成系统，实战掌握AI模型的云端开发流程。目录一、GpuGeek平台使用流程详解1.注册与登录2.数据上传3.创建训练实例4.启动与使用实例5.关闭实例（手动&自动）二、文本生成实战任务：微调GPT-21.
大模型智能运维详解：技术架构、落地挑战与行业实践 FreeTools FreeAiGuard 运维架构人工智能运维开发科技
大模型智能运维详解：技术架构、落地挑战与行业实践作者：开源大模型智能运维FreeAiOps在数字化转型加速的背景下，企业IT系统复杂度呈指数级增长，传统运维模式面临效率低下、故障定位困难、成本高昂等瓶颈。大模型技术的出现为智能运维提供了突破性解决方案，其通过自然语言处理、多模态数据分析与自动化决策能力，正在重塑运维工作的底层逻辑。本文将从技术原理、落地挑战、行业实践三个维度，系统解析大模型智能运维
AppML 案例简介沐知全栈开发开发语言
AppML案例简介引言AppML，全称为“应用程序机器学习”，是一种将机器学习技术与移动应用开发相结合的技术框架。它旨在简化移动应用的机器学习功能集成，使得开发者无需深入了解复杂的机器学习算法，即可将强大的AI功能引入他们的应用中。本文将简要介绍AppML的一些成功案例，展示其在不同领域的应用和价值。AppML案例一：健康监测应用案例概述：一款名为“HealthMate”的健康监测应用利用AppM
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
深度学习流体力学【干货】人工智能交叉前沿技术，人工智能深度学习 python 机器学习
深度学习作为一种新兴的机器学习技术，为流体科学的研究提供了新的思路和方法。通过对大量数据的学习和分析，深度学习模型可以自动提取特征和模式，为流体科学中的复杂问题提供解决方案。然而，深度学习在流体科学中的应用还面临一些挑战，需要进一步研究和探索。未来，深度学习与传统流体力学方法的结合将成为流体科学研究的重要方向，多模态数据的融合、模型的可解释性、实时预测和控制等将是深度学习在流体科学中发展的重点。相
使用GPU进行机器学习训练时，如果GPU-Util计算核心满载工作但是显存占用较少，应该如何优化？十子木机器学习深度学习人工智能
是否需要优化？如果任务运行正常：无需干预（GPU设计本就是优先榨干计算性能）。如果出现卡顿或效率低下：增大batch_size：提升显存占用，减少数据搬运次数（但需避免OOM）。启用混合精度：torch.cuda.amp可减少显存占用并加速计算。检查CPU到GPU的数据流：避免频繁的小数据拷贝（如DataLoader的num_workers设置）。
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
入门pytorch-联邦学习四代机您发多少 pytorch 人工智能 python
本文联邦学习的代码引用于https://github.com/shaoxiongji/federated-learning本篇文章相当于带大家读一遍联邦学习的代码，同时加深了大家对联邦学习和Pytorch框架的理解。这里想简单介绍一下联邦学习。联邦学习说白了，就是假如有NNN个数据拥有者F1,...,FN{F_1,...,F_N}F1,...,FN，他们希望使用这些数据来训练机器学习模型，但是又各
Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
SoK: A Critical Evaluation of Efficient Website Fingerprinting Defenses
2023攻击和防御模型防御评估准确度、精确度和召回率：使用准确率来评估攻击模型在多类别封闭世界设置中的性能，但在二进制开放世界设置中使用精确率和召回率防御策略：（1）增加虚拟流量、（2）增加流量延迟、（3）将流量从一个流移到另一个流固定速率发送流量F，随机抽样以添加填充R，修改流量以产生与目标流量样本或模式的碰撞C，将流量分成多个流S，使用对抗性扰动来欺骗机器学习模型AF：（1）（2）BuFLO,
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
脑机新手指南（十五）speechBCI 项目新手入门指南（上）：项目概述、代码结构与环境搭建 Brduino脑机接口技术答疑脑机新手指南 python 脑机接口新手入门
一、引言在脑机接口（BCI）领域，语音相关的研究正不断取得突破。speechBCI项目为语音脑机接口的研究提供了一个优秀的开源代码库。该项目与前沿的学术研究、丰富的数据集以及具有挑战性的机器学习竞赛紧密相连。本指南将分上下两篇，详细引导新手深入了解和使用speechBCI项目。二、项目概述speechBCI项目不仅仅是一个代码集合，它背后有着深厚的学术背景和实际应用价值。它与一篇发表在[Natur
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
python学智能算法（十五）|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理西猫雷婶人工智能机器学习 python学习笔记机器学习 python 人工智能深度学习 scikit-learn
【1】引言前序学习进程中，已经学习CountVectorizer文本处理的简单技巧，先相关文章链接为：python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客此次继续深入，研究多文本的综合处理。【2】代码测试首先相对于单文本测试，直接将文本改成多行文本：#引入必要的模块fromsklearn.feature_extraction.te
python学智能算法（十六）|机器学习支持向量机简单示例西猫雷婶 python学习笔记人工智能机器学习机器学习 python 支持向量机人工智能深度学习
【1】引言前序学习了逻辑回归等算法，相关文章链接包括且不限于：python学智能算法（十）|机器学习逻辑回归（Logistic回归）_逻辑回归算法python-CSDN博客python学智能算法（十一）|机器学习逻辑回归深入（Logistic回归）_np.random.logistic()-CSDN博客今天在此基础上更进一步，学习支持向量机，为实现较好地理解，先解读一个简单算例。【2】代码解读【2
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
2025 年最强 RPA 软件盘点天竺鼠不该去劝架人工智能
RPA（机器人流程自动化）软件成为了企业提升效率、降低成本的重要工具。以下是2025年一些顶尖的RPA软件盘点。国外RPA软件UiPath地位：全球RPA市场的领军者。功能特性：全能型平台，覆盖流程发现、自动化设计到机器人管理全生命周期。拥有易用的低代码设计器，便于快速上手；强大的AI集成，可实现机器学习和文档理解；能与ERP、CRM等系统无缝集成。适用场景：适用于金融、零售、制造业等需要处理复杂
《机器学习数学基础》补充资料：什么是随机变量 CS创新实验室机器学习数学基础机器学习人工智能数学概率
卓永鸿提供本文介绍什么是随机变量及为什么要发展此种概念。我们先来看这个问题：一个边长为aaa的正三角形，CCC为其外接圆，外接圆半径为RRR。若在圆内随机作一弦，则弦长lll大于aaa的概率为何？法1：随机半径法先拉出一条圆半径，然后随机在半径上取一点，再画出通过此点并垂直半径的弦。易知当弦心距小于R/2R/2R/2时，弦长lll大于aaa，故概率为1/21/21/2。法2：随机端点法在圆周上随机
在浏览器中使用TensorFlow.js 魏铁锤chui tensorflow javascript 人工智能
TensorFlow.js简介介绍光学字符识别(OCR)是指能够从图像或文档中捕获文本元素，并将其转换为机器可读的文本格式的技术。如果您想了解更多关于这个主题的内容，本文是一个很好的介绍。TensorFlow.js是一个库，用于使用JavaScript开发和训练机器学习模型，并将其部署在浏览器中或Node.js上。您可以使用现有模型、转换PythonTensorFlow模型、使用迁移学习用您自己的
c++基于BP神经网络的手写数字识别鱼弦机器学习设计类系统开发语言人工智能
鱼弦：CSDN内容合伙人、CSDN新星导师、全栈领域创作新星创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于BP（Backpropagation）神经网络的手写数字识别是一种常见的机器学习应用。下面我将为您提供原理的详细解释、使用场景的解释以及一些相关的文献材料链接。原理详细解释
基于uniapp微信小程+SpringBoot+Vue的流浪动物救助领养系统设计和实现(源码+论文+部署讲解等)
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
【Python】Hydra 用法详解行码棋 #Python python 开发语言
Hydra官方文档Hydra（Python配置管理工具）1.引言在机器学习、深度学习和软件开发中，管理复杂的配置是一个常见的挑战。Hydra是一个强大的Python库，允许开发者轻松地管理和组织配置文件，支持动态参数覆盖、多层次配置和可组合配置等特性。2.安装HydraHydra可以通过pip直接安装：pipinstallhydra-core安装完成后，你可以使用hydra进行配置管理。3.基础用
用户实体行为分析与数据异常访问联防方案 KKKlucifer 时序数据库
一、用户实体行为分析（UEBA）技术概述1.1定义与概念用户实体行为分析（UEBA）是一种高级网络安全方法，它利用机器学习和行为分析技术，对用户、设备、应用程序等实体在网络环境中的行为进行深入分析，以检测出异常行为和潜在的安全威胁。UEBA的核心在于通过建立行为基线，识别出偏离正常行为模式的活动，从而发现那些传统安全工具难以检测到的高级、隐藏和内部威胁。1.2工作原理UEBA系统通过收集来自多个数
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
java opencv 数字识别算法_[机器学习]基于OpenCV实现最简单的数字识别后期小雨 java opencv 数字识别算法
本文将基于OpenCV实现简单的数字识别。这里以游戏AngryBirds为例，通过以下几个主要步骤对其中右上角的分数部分进行自动识别。1.学习分类器根据训练样本，选取模型训练产生数字分类器。这里的样本可以是通用的数字样本库(如NIST等)，也可以是针对应用场景而制作的专门训练样本。前者优在泛化性，后者强在准确率，当然常用做法是将这两者结合，即在通用数字库基础上做修改。另外这里由于模式并不复杂，计算
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

潜在语义分析 (LSA)，概率潜在语义分析 (PLSA)

目录

潜在语义分析 (latent semantic analysis, LSA)

单词向量空间与话题向量空间

单词向量空间 (word vector space)

话题向量空间 (topic vector space)

潜在语义分析算法 (矩阵奇异值分解算法)

非负矩阵分解算法 (non-negative matrix factorization, NMF)

非负矩阵分解

非负矩阵分解的形式化

非负矩阵分解算法

概率潜在语义分析 (probabilistic latent semantic analysis, PLSA)

生成模型

基本思想

生成模型的定义

生成模型学习的 EM 算法

共现模型

基本思想

共现模型的定义

共现模型与生成模型

你可能感兴趣的:(机器学习,自然语言处理)