zxhohai

再看LDA主题模型

之前学习文本挖掘时已经写过一篇关于主题模型的博客《文本建模之Unigram Model，PLSA与LDA》，前几天小组讨论主题模型时，又重新理解了一遍LDA，有了更深刻的认识，特记录一下。

1、Unigram Model

Unigram model是最简单的文本模型，其直接将文本的生成过程看作是从一个词汇表中重复取词的过程。因此只要知道每个词的产生概率，就能计算出一篇文档的产生概率。假设一篇文档由 $N$ 个词 $w_1,w_2,\dots,w_n$ 组成，如下图所示：

这 $N$ 个词必定来自于一个词汇表 $v_1,v_2,\cdots,v_V$ ，其中 $V$ 是词汇表大小， $v_i$ 是词汇表中某一个词，上图中红、黄、蓝、绿代表文档中该词所对应的词汇表中词。文档中每个词的产生相互独立（不考虑词产生过程中的相互影响），因此在知道词汇表中每个词的产生概率 $\vec{p}=(p_{v_1},p_{v_2},\dots,p_{v_V})$ ，和词汇表中每个词的出现次数 $\vec{n}=(n_{v_1},n_{v_2},\dots,n_{v_V})$ ，同时 $n_{v_1}+n_{v_2}+\dots+n_{v_V}=N$ ， $\vec{n}$ 的发生概率满足多项分布：
$p(\vec{n})=Multi(\vec{n}|\vec{p},N)=\begin{pmatrix} N \\ \vec{n} \end{pmatrix}\prod_{i=1}^Vp_{v_i}^{n_{v_i}}$

一篇文档相当于词汇表中 $V$ 各词 $n$ 次取值实验中的一种，因此一篇文档的产生概率可以写成：
$p(\vec{w})=\prod_{i=1}^Vp_{v_i}^{n_{v_i}}$

语料中 $M$ 篇文档的生成过程相互独立，所以语料的产生概率为：
$p(W)=\prod_{m=1}^M\prod_{i=1}^Vp_{v_i}^{n_{mv_i}}=\prod_{i=1}p_{v_i}^{n_{v_i}}$

此处， $n_{mv_i}$ 表示词汇表中词 $v_i$ 在第 $m$ 篇文档中的出现次数， $n_{v_i}$ 表示 $v_i$ 在整个语料库中的出现次数。现在，只剩下最后一个问题，怎么通过观测到的语料去估计词汇表中每个词的产生概率 $\vec{p}$ ，按照频率学派和贝叶斯学派的观点，存在两种计算方法。

频率学派

频率学派认为，词汇表中每个词的产生概率 $\vec{p}$ 虽然未知，但是其取值是固定的，是取值空间中的一个定值。 可以采用最大似然估计，于是参数 $\vec{p}$ 的估计值是
$\hat{p}_{v_i}=\frac{n_{v_i}}{N}$

其图模型是

图中方框表示重复此过程，灰色圆圈的w表示可观测变量，N表示一篇文档中包含N个单词，M表示生成M篇文档。

贝叶斯学派

贝叶斯学派认为，词汇表中每个词的产生概率 $\vec{p}$ 不仅未知，且其取值也未定，取值空间中的每种情况都有可能取到，也就是说，分布 $\vec{p}$ 也是从一个概率分布中取出来的，我们称这个概率分布为 $\vec{p}$ 的先验分布。因为每一个分布 $\vec{p}$ 都有可能产生我们的语料，我们不知道语料究竟是由哪一个 $\vec{p}$ 产生。假设 $\vec{p}$ 被选中的概率为 $p(\vec{p})$ ，那么此时语料的产生概率为：
$p(W)=\int p(W|\vec{p})p(\vec{p})d\vec{p}$

上面的推导中，我们已经知道 $p(\vec{n})$ 符合多项分布， $p (W)$ 是 $\vec{n}$ 的一种情况，因此也可以近似认为 $p (W)$ 符合多项分布，所以先验分布 $p(\vec{p})$ 的一个较比好的选择是多项分布的共轭先验分布，即Dirichlet分布 $Dir(\vec{p}|\vec{\alpha})$ 。此时，语料的产生概率为：
$\begin{aligned} p(W|\vec{\alpha}) &= \int p(W|\vec{p})p(\vec{p}|\vec{\alpha})d\vec{p}\\ &= \int\prod_{i=1}^Vp_{v_i}^{n_{v_i}}Dir(\vec{p}|\vec{\alpha})d\vec{p} \\ &= \int\prod_{i=1}^Vp_{v_i}^{n_{v_i}}\frac{1}{\Delta(\vec{\alpha})}\prod_{i=1}^Vp_{v_i}^{\alpha_i-1}d\vec{p} \\ &= \frac{1}{\Delta(\vec{\alpha})}\int\prod_{i=1}^Vp_{v_i}^{\alpha_i+n_{v_i}-1}d\vec{p} \\ &= \frac{\Delta(\vec{n}+\vec{\alpha})}{\Delta(\vec{\alpha})} \end{aligned}$

因为Dirichlet先验+多项分布的数据 $\rightarrow$ 后验分布为Dirichlet分布，所以分布 $\vec{p}$ 的后验分布为 $Dir(\vec{p}|\vec{n}+\vec{\alpha})$
$p(\vec{p}|W,\vec{\alpha})=Dir(\vec{p}|\vec{n}+\vec{\alpha})=\frac{1}{\Delta(\vec{n}+\vec{\alpha})}\prod_{i=1}^Vp_{v_i}^{n_{v_i}+\alpha_i-1}d\vec{p}$

因此可以用 $\vec{p}$ 的后验分布的均值作为 $\vec{p}$ 的估计值：
$\hat{p}_{v_i}=\frac{n_{v_i}+\alpha_i}{\sum_{k=1}^V(n_{v_k}+\alpha_k)}$

贝叶斯学派下，对应的图模型如下：

主题模型（topic model）

Unigram Model将一篇文档的生成过程简单地看作是从词袋中不断取词的过程显然于人类在写文章时遣词造句的过程存在较大差距。通常，我们在写文章时，首先会确定文章所包含的主题，然后根据主题选择相应的单词。基于以上思想，我们可以将词的产生过程拆分为两步：（1）产生位置 $i$ 的主题 $z_i$ ；（2）从主题对应的词分布下产生词 $w_i$ 。譬如一篇关于自然语言处理的文章，可能包含40%的语言学，30%的概率统计，20%的计算机，10%的其他主题，我们能够观察到的是文章中的词，但这个词是在哪一个主题下产生的并不清楚，每一个主题对应的词分布都有可能产生这个词，只是概率大小不一样：

因此，第 $m$ 篇文档 $d_m$ 中词 $v_i$ 的产生概率为
$p(v_i|d_m)=\sum_{k=1}^Kp(v_i|z_k)p(z_k|d_m)$

其中 $\vec{z}=(z_1,z_2,\dots,z_k)$ 表示一篇文档中每个topic的概率，因此第 $m$ 篇文档 $d_m$ 的产生概率为
$p(\vec{w}|d_m)=\prod_{i=1}^Vp(v_i|d_m)^{n(v_i,d_m)}$

其中 $n(v_i,d_m)$ 表示文档 $d_m$ 中词 $v_i$ 的出现次数。整个语料的产生概率为
$\begin{aligned} p(W) &=\prod_{m=1}^Mp(d_m)p(\vec{w}|d_m)\\ &=\prod_{m=1}^Mp(d_m)\prod_{i=1}^Vp(v_i|d_m)^{n(v_i,d_m)}\\ &=\prod_{m=1}^Mp(d_m)\prod_{i=1}^V\sum_{k=1}^K\Big(p(v_i|z_k)p(z_k|d_m)\Big)^{n(v_i,d_m)} \end{aligned}$

上式中， $p(d_m)$ 和 $n(v_i,d_m)$ 是已知的， $p(v_i|z_k)$ 和 $p(z_k|d_m)$ 是未知的，对于其取值同样存在频率学派和贝叶斯学派两种观点。

PLSA

PLSA（Probabilistic Latent Semantic Analysis）由Hofmann在1990年提出，PLSA属于频率学派的观点，即 $p(v_i|z_k)$ 和 $p(z_k|d_m)$ 的取值未知，但是取值空间的某一个定值，可以采用最大似然估计求解：
$\begin{aligned} \log p(W) &=\log \Bigg(\prod_{m=1}^Mp(d_m)\prod_{i=1}^V\sum_{k=1}^K\Big(p(v_i|z_k)p(z_k|d_m)\Big)^{n(v_i,d_m)}\Bigg)\\ &=\sum_{m=1}^M\log\bigg(p(d_m)\prod_{i=1}^V\sum_{k=1}^K\Big(p(v_i|z_k)p(z_k|d_m)\Big)^{n(v_i,d_m)}\bigg)\\ &=\sum_{m=1}^M\Bigg(\log p(d_m)+\log\bigg(\prod_{i=1}^V\sum_{k=1}^K\Big(p(v_i|z_k)p(z_k|d_m)\Big)^{n(v_i,d_m)}\bigg)\Bigg)\\ &=\sum_{m=1}^M\Bigg(\log p(d_m)+\sum_{i=1}^V{n(v_i,d_m)}\log\sum_{k=1}^Kp(v_i|z_k)p(z_k|d_m)\Bigg) \end{aligned}$

通过最大化这个对数似然函数就能求解出 $p(v_i|z_k)$ 和 $p(z_k|d_m)$ ，对于这种含有隐变量的参数估计，可以采用EM算法。PLSA对应的图模型如下：

图中， $d$ 代表一篇文档，文档确定后其主题分布也就确定了， $z$ 代表主题， $d$ 和 $w$ 是可观测到变量。

LDA

PLSA认为每一篇文档的主题分布是唯一的，每个主题下的词分布也是唯一的，这显然不符合贝叶斯学派的观点，因此Blei在PLSA的基础上加入贝叶斯框架，将其改造成贝叶斯版本，提出了LDA（Latent Dirichlet Allocation）模型。即主题分布和主题下词分布都是从一个概率分布中以相应概率取出的。 因此LDA对应的图模型如下：

图中，红色的框表示语料级，黄色的框表示文档级，绿色的框表示单词级。 $\theta$ 是文档的主题分布， $\varphi$ 是主题下的词分布。我们说一篇文档的产生过程是：先产生位置 $i$ 的主题，然后根据该主题产生位置 $i$ 对应的词，重复这个过程 $N$ 次就产生了一篇文档。我们也可以换一个做法：先产生文档每个位置的主题 $z_1,z_2,\dots,z_n$ ，然后产生每个位置对应的词 $w_1,w_2,\dots,w_n$ 。 重复文档产生过程 $M$ 次，就产生了语料库中的 $M$ 篇文档。

这种做法的好处是，一次性产生一篇文档每个位置的主题后，我们可以顺势统计每个主题的出现次数 $\vec{z_m}=(n_{1,m},n_{2,m},\dots,n_{k,m})$ ， $n_{k,m}$ 表示第 $m$ 篇文档中主题 $k$ 出现的次数，显然在给定第 $m$ 篇文档的主题分布 $\vec{\theta_m}$ 后， $\vec{z_m}$ 符合多项分布：
$p(\vec{z_m}|\vec{\theta_m})=\prod_{k=1}^K\theta_{k,m}^{n_{k,m}}$

$\theta_{k,m}$ 表示第 $m$ 篇文档中主题 $k$ 出现概率，因为文档的主题分布是不固定的，根据主题出现次数符合多项分布，我们同样假设主题分布的分布（主题的先验分布）为Dirichlet分布，即

所以第 $m$ 篇文档的主题为 $\vec{z_m}$ 的概率是
$\begin{aligned} p(\vec{z_m}|\vec{\alpha}) &=\int p(\vec{z_m}|\vec{\theta_m})p(\vec{\theta_m}|\vec{\alpha})d\vec{\theta_m}\\ &=\int p(\vec{z_m}|\vec{\theta_m})Dir(\vec{\theta_m}|\vec{\alpha})d\vec{\theta_m}\\ &=\int \prod_{k=1}^K\theta_{k,m}^{n_{k,m}}\frac{1}{\Delta(\vec{\alpha})}\prod_{k=1}^K\theta_{k,m}^{\alpha_{k}-1}d\vec{\theta_m}\\ &=\frac{1}{\Delta(\vec{\alpha})}\int\prod_{k=1}^K\theta_{k,m}^{n_{k,m}+\alpha_{k}-1}d\vec{\theta_m}\\ &=\frac{\Delta(\vec{z_m}+\vec{\alpha})}{\Delta(\vec{\alpha})} \end{aligned}$

因为Dirichlet先验+多项分布的数据 $\rightarrow$ 后验分布为Dirichlet分布，所以主题的后验分布还是Dirichlet分布
$p(\vec{\theta_m}|\vec{z_m},\vec{\alpha})=Dir(\vec{\theta_m}|\vec{z_m}+\vec{\alpha})$

语料库中 $M$ 篇文档的产生过程相互独立，因此有 $M$ 个相互独立的Dirichlet-Multinomial分布，从而整个语料库的主题分布概率为
$p(\vec{z}|\vec{\alpha})=\prod_{m=1}^Mp(\vec{z_m}|\vec{\alpha})=\prod_{m=1}^M\frac{\Delta(\vec{z_m}+\vec{\alpha})}{\Delta(\vec{\alpha})}$

每篇文档每个位置的主题生成好后，就可以在相应主题下按词分布生成对应位置的词，紧接着我们可以统计出语料中每个主题下词汇表中每个词的出现次数 $\vec{w_k}=(n_{v_1,k},n_{v_2,k},\dots,n_{v_V,k})$ ，如上图右边所示， $n_{v_i,k}$ 表示主题 $k$ 下词汇表中词 $v_i$ 的出现次数，显然在给定主题 $k$ 对应的词分布 $\vec{\varphi_k}$ 的情况下， $\vec{w_k}$ 符合多项分布
$p(\vec{w_k}|\vec{\varphi_k})=\prod_{i=1}^V\varphi_{v_i,k}^{n_{v_i,k}}$

$\varphi_{v_i,k}$ 表示主题 $k$ 下词汇表中词 $v_i$ 的产生概率，因为主题对应的词分布是不固定的，根据主题下词汇表中词出现次数符合多项分布，我们同样假设主题下词分布的的分布（主题下词的先验分布）为Dirichlet分布，即

所以主题 $k$ 下词为 $\vec{w_k}$ 的概率是：
$\begin{aligned} p(\vec{w_k}|z_k,\vec{\beta}) &=\int p(\vec{w_k}|\vec{\varphi_k})p(\vec{\varphi_k}|\vec{\beta})d\vec{\varphi_k}\\ &=\int p(\vec{w_k}|\vec{\varphi_k})Dir(\vec{\varphi_k}|z_k,\vec{\beta})d\vec{\varphi_k}\\ &=\int \prod_{i=1}^V\varphi_{v_i,k}^{n_{v_i,k}}\frac{1}{\Delta(\vec{\beta})}\prod_{i=1}^V\varphi_{v_i,k}^{\beta_{i}-1}d\vec{\varphi_k}\\ &=\frac{1}{\Delta(\vec{\beta})}\int\prod_{i=1}^V\varphi_{v_i,k}^{n_{v_i,k}+\beta_{i}-1}d\vec{\varphi_k}\\ &=\frac{\Delta(\vec{w_k}+\vec{\beta})}{\Delta(\vec{\beta})} \end{aligned}$

因为Dirichlet先验+多项分布的数据 $\rightarrow$ 后验分布为Dirichlet分布，主题下词的后验分布还是Dirichlet分布：
$p(\vec{\varphi_{k}}|\vec{w_k},\vec{\beta})=Dir(\vec{\varphi_k}|\vec{w_k}+\vec{\beta})$

语料中 $K$ 个主题产生词的过程相互独立，因此有 $K$ 个相互独立的Dirichlet-Multinomial共轭分布，所以在给定主题分布后，整个语料的词分布概率为
$p(W|\vec{z},\vec{\beta})=\prod_{k=1}^K\frac{\Delta(\vec{w_k}+\vec{\beta})}{\Delta(\vec{\beta})}$

所以，最终语料的主题分布为 $\vec{z}$ 且词分布为 $W$ 的概率为
$\begin{aligned} p(W,\vec{z}|\vec{\alpha},\vec{\beta}) &=p(W|\vec{z},\vec{\beta})p(\vec{z}|\vec{\alpha})\\ &=\prod_{k=1}^K\frac{\Delta(\vec{w_k}+\vec{\beta})}{\Delta(\vec{\beta})}\prod_{m=1}^M\frac{\Delta(\vec{z_m}+\vec{\alpha})}{\Delta(\vec{\alpha})} \end{aligned}$

有了联合分布 $p(W,\vec{z}|\vec{\alpha},\vec{\beta})$ ，我们可以利用Gibbs Sampling对参数进行估计。联合概率 $p(W,\vec{z})$ 中 $W$ 是可观测变量， $\vec{z}$ 是隐变量，即我们想要知道的是 $p(\vec{z}|W)$ ，所以我们可以对概率 $p(\vec{z}|W)$ 进行Gibbs采样，Gibbs采样中最重要的是计算出 $p(z_i=k|\vec{z}_{\neg i},W)$ 的概率，其中 $i = (m, n)$ 表示第 $m$ 篇文档第 $n$ 个词， $\neg i$ 表示除下标 $i$ 外的所有其他词。
$p(z_i=k|\vec{z}_{\neg i},W)\propto\frac{n_{k,m\neg i}+\alpha_k}{\sum_{k=1}^K(n_{k,m\neg i}+\alpha_k)}\cdot \frac{n_{v_t,k\neg i}+\beta_t}{\sum_{t=1}^V(n_{v_t,k\neg i}+\beta_t)}$

$n_{k,m\neg i}$ 表示第 $m$ 篇文档除去第 $n$ 个词后主题 $k$ 的数目， $n_{v_t,k\neg i}$ 表示除去第 $m$ 篇文档第 $n$ 个词后的语料中主题 $k$ 下词 $v_t$ 的数目。（具体推导过程请参考《LDA数学八卦》和博文《通俗理解LDA主题模型》）。

Gibbs采样过程如下：

对语料中每一个词 $w$ 随机初始化一个主题 $z$ ;
对语料中的每一个词，按照概率 $p(z_i=k|\vec{z}_{\neg i},W)$ 重新采样它的主题，在语料中进行更新；
重复第2步的采样过程，直至Gibbs采样收敛；
统计语料中的topic-word共现频率矩阵，该矩阵就是LDA模型。

总结

花费两天时间重新理解了一遍LDA主题模型，欢迎多多交流。

参考文献

LDA数学八卦
通俗理解LDA主题模型

大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
混合整数非线性规划的松弛与分解方法 Waiyuet Fung 混合整数非线性规划松弛方法分解技术启发式算法全局优化
背景简介混合整数非线性规划（MINLPs）作为运筹学中的一个重要领域，涉及到优化问题的连续和离散变量混合，在工程设计、生产调度、资源分配等多个领域发挥着关键作用。本书由I.Nowak撰写，旨在深入探讨这一复杂的优化问题及其解决方案。MINLPs基础概念在本书的第一部分，Nowak介绍了MINLPs的基本概念。MINLPs的目标是寻找一组连续和整数变量的最优组合，以最小化或最大化某个非线性目标函数。
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
从关键词到权重：TF-IDF算法解析多巴胺与内啡肽. 机器学习 tf-idf 算法机器学习
文章目录前言一、TF-IDF：关键词的“价值”评估师二、TF-IDF的计算：拆解关键词的“价值”三、TF-IDF的应用：从搜索引擎到文本挖掘四、代码实现：从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、分词与停用词过滤2.1代码功能2.2代码实现2.2.1读取分卷内容构建DataFrame：2.2.2分词与停用词过滤
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
AI在项目中的应用酒江人工智能
AI大模型（如GPT-4、BERT、T5等）在各类项目中有广泛的应用，可以极大地提高项目效率、优化流程，并解决许多传统方法难以应对的问题。以下是AI大模型在不同类型项目中的一些具体应用：1.自然语言处理（NLP）文本生成和摘要：AI大模型可以生成高质量的文本内容，自动撰写文章、新闻报道、博客或技术文档，甚至可以进行文献摘要，帮助内容创作者提高效率。情感分析：在客户服务、社交媒体监控或市场研究项目中
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
RAG数据嵌入和重排序：如何选择合适的模型从零开始学习人工智能深度学习
RAG数据嵌入和重排序：如何选择合适的模型在自然语言处理（NLP）领域，Retrieval-AugmentedGeneration（RAG）模型已经成为一种强大的工具，用于结合检索和生成能力来处理复杂的语言任务。RAG模型的核心在于两个关键步骤：数据嵌入（Embedding）和重排序（Re-ranking）。这两个步骤的选择和优化对于模型的性能至关重要。本文将探讨如何选择合适的模型来实现高效的数据
自然语言处理领域CCF推荐的A类期刊冰蓝蓝自然语言处理人工智能
在自然语言处理（NLP）这一蓬勃发展的领域，研究人员和学者们致力于探索语言的深层含义和应用。中国计算机学会（CCF）推荐的A类期刊和会议是该领域内公认的高质量研究发表平台。这是我在学习时整理的一些顶刊并附上官网地址直达。1.ACL(AnnualMeetingoftheAssociationforComputationalLinguistics)ACL是自然语言处理领域的顶级会议之一，由Associ
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
输入：0.5元/百万tokens（缓存命中）或2元（未命中）输出：8元/百万tokens 杏花春雨江南缓存
这句话描述了一种定价模型，通常用于云计算、API服务或数据处理服务中，根据资源使用情况（如缓存命中与否）来收费。以下是对这句话的详细解释：1.关键术语解释Tokens：在自然语言处理（NLP）或数据处理领域，Token通常指文本的最小单位（如一个单词或一个字符）。在这里，Tokens是计费的单位。缓存命中（CacheHit）：当请求的数据已经在缓存中时，称为缓存命中。缓存命中通常意味着更快的响应速
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
深入解析两大AI模型的架构与功能草莓屁屁我不吃人工智能 chatgpt
在人工智能（AI）领域，自然语言处理（NLP）一直是研究的热点之一。随着技术的不断进步，我们见证了从简单的聊天机器人到复杂语言模型的演变。其中，Google的Gemini和OpenAI的ChatGPT作为两大代表性模型，各自在技术和应用上展现出了卓越的性能。本文将详细解析Gemini和ChatGPT的系统架构、功能特性及其背后的技术原理。Gemini模型详解技术背景与架构Gemini，顾名思义，意
linux系统安全 IT小饕餮 linux基础 linux 系统安全运维
管理终端登录[root@localhost~]#grep"/sbin/nologin$"/etc/passwd表示禁止终端登录，应确保不被人改动输出结果：bin：x:1:1:bin:/bin:/sbin/nologindaemon：x:2:2:daemon:/sbin:/sbin/nologinadm：x:3:4:adm:/var/adm:/sbin/nologinlp：x:4:7:lp:/var
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
【NLP】 9. 处理创造性词汇 & 词组特征（Creative Words & Features Model），词袋模型处理未知词，模型得分 pen-ai NLP 机器学习自然语言处理人工智能深度学习
这里写目录标题处理创造性词汇&词组特征（CreativeWords&FeaturesModel）1.处理否定（NegationHandling）2.词组特征（Bigrams&N-grams）3.结合否定传播与n-grams进行优化词袋模型（Bag-of-Words,BoW）1.BoW示例2.处理未知词3.为什么忽略未知词？4.处理未知词的方法计算模型得分（ScoreCalculation）处理创造
【NLP】 5. Word Analogy Task（词类比任务）与 Intrinsic Metric（内在度量） pen-ai NLP 机器学习自然语言处理 word 人工智能
WordAnalogyTask（词类比任务）定义：WordAnalogyTask是用于评估词向量质量的内在指标（IntrinsicMetric）。该任务基于这样的假设：如果词向量能够捕捉单词之间的语义关系，那么这些关系应该能够在向量空间中保持一定的结构。示例：在一个理想的词向量空间中，单词之间的关系应该满足如下等式：king−man+woman≈queenking−man+woman≈queenk
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo