-柚子皮-

主题模型TopicModel：PLSA模型及PLSA的EM推导

http://blog.csdn.net/pipisorry/article/details/42560877

Introduction:

概率潜在语义分析简称pLSA(Probabilisticlatent semantic analysis)基于双模式和共现的数据分析方法延伸的经典的统计学方法。概率潜在语义分析应用于信息检索，过滤，自然语言处理，文本的机器学习或者其他相关领域。

概率潜在语义分析与标准潜在语义分析的不同是，标准潜在语义分析是以共现表（就是共现的矩阵）的奇异值分解的形式表现的，而概率潜在语义分析却是基于派生自LCM的混合矩阵分解。考虑到word和doc共现形式，概率潜在语义分析基于多项式分布和条件分布的混合来建模共现的概率。所谓共现其实就是W和D的一个矩阵，所谓双模式就是在W和D上同时进行考虑。基于概率统计的PLSA模型，用EM算法学习模型参数。

PLSA的建模——层面模型

层面模型就是关联于潜在类Z的共现表的潜在可变模型。在层面模型中，文档被视为潜在的K个层面的混合。每一个层面就是word对于z(潜在类)的概率分布。

PLSA的建模——数据的共现

对于每一组（w,d）都使之与潜在变量z关联。

PLSA的建模——预测words

已经的是文档的概率，首先要计算潜在类Z根据条件概率D，生成单词W根据条件概率Z。

PLSA的公式：

P(w,d) =

∑

P(c)P(d | c)P(w | c) = P(d)

∑

P(c | d)P(w | c)

注：这里的C和上面说的Z是一样的。

公式解析：第一个公式是对称公式，在这个公式中,W和D都是以相同的方式（都用了W和D基于C的条件概率）通过潜在类C处理的。第二个公式是非对称公式。在这个公式中，对于每一个D，先根据D的条件概率计算C，然后根据C的条件概率计算W。事实上，这个公式可以扩展成计算任何一对离散变量的共现。因为我们的W和D是已知的，但是Z是未知的，所以我们的重心放在求Z上。那么如何求Z呢？

PLSA的概率图模型如下

其中D代表文档，Z代表隐含类别或者主题，W为观察到的单词，表示单词出现在文档的概率，表示文档中出现主题下的单词的概率，给定主题出现单词的概率。并且每个主题在所有词项上服从Multinomial 分布，每个文档在所有主题上服从Multinomial 分布。

整个文档的生成过程：

(1) 以的概率选中文档；

(2) 以的概率选中主题；

(3) 以的概率产生一个单词。

我们可以观察到的数据就是对，而是隐含变量。

的联合分布为

而和分布对应了两组Multinomial 分布，我们需要估计这两组分布的参数。下面给出用EM算法估计PLSA参数的详细推导过程。

Estimate parameters in PLSA by EM

目标parameters有：、 -

如文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计一文所述，常用的参数估计方法有MLE、MAP、贝叶斯估计等等。

但是在PLSA中，如果我们试图直接用MLE来估计参数，就会得到似然函数

{ 由于文档长度可以单独计算，所以去掉它不影响 }

其中是单词出现在文档中的次数。

注意这是一个关于和的函数，一共有N*K + M*K个自变量，如果直接对这些自变量求偏导数，我们会发现由于自变量包含在对数和中，这个方程的求解很困难。因此对于这样的包含“隐含变量”或者“缺失数据”的概率模型参数估计问题，我们采用EM算法。

EM算法的步骤是：

(1)E步骤：求隐含变量Given当前估计的参数条件下的后验概率。

(2)M步骤：最大化Complete data对数似然函数的期望，此时我们使用E步骤里计算的隐含变量的后验概率，得到新的参数值。

两步迭代进行直到收敛。

{在PLSA中，Incomplete data 是观察到的，隐含变量是主题，那么complete data就是三元组}

针对我们PLSA参数估计问题

在E步骤中，直接使用贝叶斯公式计算隐含变量在当前参数取值条件下的后验概率，有

在这个步骤中，我们假定所有的和都是已知的，初始时随机赋值，后面迭代的过程中取前一轮M步骤中得到的参数值。

在M步骤中，我们最大化Complete data对数似然函数的期望(即把其中与z相关的部分积分掉），见【TopicModel - EM算法】）。其期望是

{TopicModel - EM算法 - Lazy Statistician规则：E(z) = ∑P（zk|di, wj)z中z替换成L式，相当于把其中与z相关的部分积分掉}

注意这里是已知的，取得是前面E步骤里面的估计值。下面我们来最大化期望，这又是一个多元函数求极值的问题，可以用拉格朗日乘数法。

拉格朗日乘数法可以把条件极值问题转化为无条件极值问题，在PLSA中目标函数就是,约束条件是 $\begin{aligned} &\Sigma_{j=1}^Mp(w_j|z_k) = 1\\ &\Sigma_{k=1}^Kp(z_k|d_i) = 1 \end{aligned}$ （1）

由此我们可以写出拉格朗日函数

这是一个关于和的函数，分别对其求偏导数，我们可以得到（对求导，j、k固定值）

（2）

{注意这里进行过方程两边同时乘以和的变形}，联立上面4组方程（1）（2），我们就可以解出M步骤中通过最大化期望估计出的新的参数值

{解方程组的关键在于先求出 $\tau_k,\rho_i$ ,其实只需要做一个加和运算就可以把 $\tau_k,\rho_i$ 的系数都化成1，后面就好计算了}

然后使用更新后的参数值，我们又进入E步骤，计算隐含变量 Given当前估计的参数条件下的后验概率。如此不断迭代，直到满足终止条件。

注意到我们在M步骤中还是使用对Complete Data的MLE，那么如果我们想加入一些先验知识进入我们的模型，我们可以在M步骤中使用MAP估计。正如文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计中投硬币的二项分布实验中我们加入“硬币一般是两面均匀的”这个先验一样。而由此计算出的参数的估计值会在分子分母中多出关于先验参数的preduo counts,其他步骤都是一样的。具体可以参考Mei Qiaozhu 的Notes。

http://blog.csdn.net/pipisorry/article/details/42560877

Estimate parameters in a simple mixture unigram language model by EM

在PLSA的参数估计中，我们使用了EM算法。EM算法经常用来估计包含“缺失数据”或者“隐含变量”模型的参数估计问题。这两个概念是互相联系的，当我们的模型中有“隐含变量”时，我们会认为原始数据是“不完全的数据”，因为隐含变量的值无法观察到；反过来，当我们的数据incomplete时，我们可以通过增加隐含变量来对“缺失数据”建模。

为了加深对EM算法的理解，下面我们来看如何用EM算法来估计一个简单混合unigram语言模型的参数。

最大似然估计与隐含变量引入

所谓unigram语言模型，就是构建语言模型是抛弃所有上下文信息，认为一个词出现的概率与其所在位置无关，具体概率图模型可以参见LDA及Gibbs Samping一文中的介绍。

通俗的说混合概率模型就是由最基本的概率分布比如正态分布、多元分布等经过线性组合形成的新的概率模型，比如混合高斯模型就是由K个高斯分布线性组合而得到。混合模型中产生数据的确切“component model”对我们是隐藏的。

我们假设混合模型包含两个multinomial component model,一个是背景词生成模型,另一个是主题词生成模型 $p(w|\theta_F)$ 。注意这种模型组成方式在概率语言模型中很常见，比如在TwitterLDA中使用的背景词和主题词两个多元分布；TimeUserLDA中使用的Global Topic 和Personal Topic两个多元分布，都是这类模型。为了表示单词是哪个模型生成的，我们会为每个单词增加一个布尔类型的控制变量。

文档的对数似然函数为

$d_{ij}$ 为第i个文档中的第j个词， $\lambda$ 为表示文档中背景词比例的参数，通常根据经验给定。因此 $\lambda$ 是已知的，我们只需要估计 $p(w|\theta_F)$ 即可。

同样的我们首先试图用最大似然估计来估计参数。也就是去找最大化似然函数的参数值，有

这是一个关于 $p(w|\theta_F)$ 的函数，同样的， $p(w|\theta_F)$ 包含在了对数和中。因此很难求解极大值，用拉格朗日乘数法，你会发现偏导数等于0得到的方程很难求解。所以我们需要依赖数值算法，而EM算法就是其中常用的一种。

我们为每个单词引入一个布尔类型的变量z表示该单词是background word 还是topic word.即

这里我们假设”complete data”不仅包含可以观察到F中的所有单词，而且还包括隐含的变量z。那么根据EM算法，在E步骤我们计算“complete data”的对数似然函数有

比较一下 $L_c(\theta_F)$ 和 $L(\theta_F)$ ，求和运算在对数之外进行，因为此时通过控制变量z的设置，我们明确知道了单词是由背景词分布还是topic 词分布产生的。

$L_c(\theta_F)$ 和 $L(\theta_F)$ 的关系是怎样的呢？如果带估计参数是 $\theta$ ,原始数据是X，对于每一个原始数据分配了一个隐含变量H，则有

似然函数的下界分析

EM算法的基本思想就是初始随机给定待估计参数的值，然后通过E步骤和M步骤两步迭代去不断搜索更好的参数值。更好的参数值应该要满足使得似然函数更大。我们假设一个潜在的更好参数值是 $\theta$ ，第n次迭代M步骤得到的参数估计值是 $\theta^{(n)}$ ,那么两个参数值对应的似然函数和”complete data”的似然函数的差满足

我们寻找更好参数值的目标就是要最大化 $L(\theta) - L(\theta^{(n)})$ ,也等价于最大化。我们来计算隐含变量在给定当前数据X和当前估计的参数值 $\theta^{(n)}$ 条件下的条件概率分布即 $p(H|X,\theta^{(n)})$ ，有

其中右边第三项是 $p(H|X,\theta^{(n)})$ 和 $p(H|X,\theta)$ 的相对熵，总为非负值。因此我们有

于是我们得到了潜在更好参数值 $\theta$ 的incomplete data似然函数的下界。这里我们尤其要注意右边后两项为常数，因为不包含 $\theta$ 。所以incomplete data似然函数的下界就是complete data似然函数的期望，也就是诸多EM算法讲义中出现的Q函数，表达式为

可以看出这个期望等于complete data似然函数乘以对应隐含变量条件概率再求和。对于我们要求解的问题，Q函数就是

这里多解释几句Q函数。单词相应的变量z为0时，单词为topic word,从多元分布 $\theta_F$ 中产生；当z为1时，单词为background word,从多元分布 $\theta$ 产生。同时我们也可以看到如何求Q函数即complete data似然函数的期望，也就是我们要最大化的那个期望(EM算法最大化期望指的就是这个期望)，我们要特别关注隐含变量在观察到数据X和前一轮估计出的参数值 $\theta^{(n)}$ 条件下取不同值的概率，而隐含变量不同的值对应complete data的不同的似然函数，我们要计算的所谓的期望就是指complete data的似然函数值在不同隐含变量取值情况下的期望值。

EM算法的一般步骤

通过上面部分的分析，我们知道，如果我们在下一轮迭代中可以找到一个更好的参数值 $\theta^{(n+1)}$ 使得

那么相应的也会有，因此EM算法的一般步骤如下

(1) 随机初始化参数值 $\theta^{(0)}$ ，也可以根据任何关于最佳参数取值范围的先验知识来初始化 $\theta^{(0)}$ 。

(2) 不断两步迭代寻找更优的参数值 $\theta^{(n+1)}$ ：

(a) E步骤（求期望）计算Q函数

(b)M步骤（最大化）通过最大化Q函数来寻找更优的参数值 $\theta^{(n+1)}$

(3) 当似然函数收敛时算法停止。

这里需要注意如何尽量保证EM算法可以找到全局最优解而不是局部最优解呢？第一种方法是尝试许多不同的参数初始值，然后从得到的很多估计出的参数值中选取最优的；第二种方法是通过一个更简单的模型比如只有唯一全局最大值的模型来决定复杂模型的初始值。

通过前面的分析可以知道，EM算法的优势在于complete data的似然函数 $L_c({\theta})$ 更容易最大化，因为已经假定了隐含变量的取值，当然要乘以隐含变量取该值的条件概率，所以最终变成了最大化期望值。由于隐含变量变成了已知量，Q函数比原始incomplete data的似然函数更容易求最大值。因此对于“缺失数据”的情况，我们通过引入隐含变量使得complete data的似然函数容易最大化。

在E步骤中，主要的计算难点在于计算隐含变量的条件概率 $p(H|X,\theta^{(n)})$ ，在PLSA中就是

在我们这个简单混合语言模型的例子中就是

我们假设z的取值只于当前那一个单词有关，计算很容易，但是在LDA中用这种方法计算隐含变量的条件概率和最大化Q函数就比较复杂，可以参见原始LDA论文的参数推导部分。我们也可以用更简单的Gibbs Sampling来估计参数，具体可以参见LDA及Gibbs Samping。

继续我们的问题，下面便是M步骤。使用拉格朗日乘数法来求Q函数的最大值，约束条件是

构造拉格朗日辅助函数

对自变量 $p(w|\theta_F)$ 求偏导数

令偏导数为0解出来唯一的极值点

容易知道这里唯一的极值点就是最值点了。注意这里Zhai老师变换了一下变量表示，把对文档里面词的遍历转化成了对词典里面的term的遍历，因为z的取值至于对应的那一个单词有关，与上下文无关。因此E步骤求隐含变量的条件概率公式也相应变成了

最后我们就得到了简单混合Unigram语言模型的EM算法更新公式

即E步骤求隐含变量条件概率和M步骤最大化期望估计参数的公式

整个计算过程我们可以看到，我们不需要明确求出Q函数的表达式。取而代之的是我们计算隐含变量的条件概率，然后通过最大化Q函数来得到新的参数估计值。

因此EM算法两步迭代的过程实质是在寻找更好的待估计参数的值使得原始数据即incomplete data似然函数的下界不断提升，而这个“下界“就是引入隐含变量之后的complete data似然函数的期望，也就是诸多EM算法讲义中出现的Q函数，通过最大化Q函数来寻找更优的参数值。同时，上一轮估计出的参数值会在下一轮E步骤中当成已知条件计算隐含变量的条件概率，而这个条件概率又是最大化Q函数求新的参数值是所必需的。

【EM算法Notes】

PLSA模型的缺点

plsa过拟合现象

PLSA有时会出现过拟合的现象。所谓过拟合（Overfit），是这样一种现象：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。

原因

出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

解决方法

要避免过拟合的问题，PLSA使用了一种广泛应用的最大似然估计的方法，期望最大化。PLSA中训练参数的值会随着文档的数目线性递增。PLSA可以生成其所在数据集的的文档的模型，但却不能生成新文档的模型。通过修改EM（期望最大化）的算法来避免这个问题，我么把这个算法称为强化的期望最大化算法（tempered EM）。强化的期望最大化算法中引入了控制参数beta。Beta值起始是1，紧着逐渐减少。引入beta的目的就是为了避免过拟合的问题，在beta中，过拟合和不充分拟合的状态被定义。具体的算法是：让beta的初始值为1，然后根据待训练数据来测试模型，如果成功，则使用该beta，如果不成功，则收敛。收敛的意思就是使得beta = n*beta， n<1。

from:http://blog.csdn.net/pipisorry/article/details/42560877

ref:TopicModel - EM算法

wiki - Probabilistic latent semantic analysis

关于PLSA

Flutter (Retrofit + Dio) - 3 - Retrofit方式使用dio 梨花炖海棠 flutter flutter
建议先将Flutter官方文档过一遍，本系列教程FlutterSDK>=3.10.0考虑篇幅长度，这里将分成几片文章创建实体类封装dioRetrofit方式使用dio一、创建基础请求APIlib/api/douyin.dartimport'package:dio/dio.dart';import'package:lhdht_flutter_app/model/request/douyin_user
Domain 层完全指南（面向 iOS 开发者）依旧风轻 App Architecture SQI iOS Domain Entity
目录为什么需要Domain层清晰的三层架构核心概念：Entity/ValueObject/UseCase/RepositorySwift代码实战测试策略在旧项目中落地的步骤结语1为什么需要Domain层在传统MVC/MVVM中，我们往往把业务规则写进ViewController或ViewModel。问题随规模放大而爆发：痛点具体表现可测试性差单元测试必须启动UIKit，跑真机或模拟器业务难复用同样
vue的侦听器及怎么侦听数组--笔记小番茄炒鸡蛋 vue.js javascript 前端
作用侦听属性响应数据的变化，当数据发生改变的时候会立即执行对应的函数letvm=newVue({el:"#test",data:{entry:""},watch:{entry(){console.log("侦听到了");}}})这里我同过侦听器和v-model指令一起用可以更直观的体现他的作用（这也是常用搭配）。原理：当input输入内容后，因为v-model指令的绑定，此时entry属性值会随之
干货！大模型时代一定要收藏的 20 个LLM 中文数据集 OpenBayes 资源上新人工智能语言模型数据库机器学习
自ChatGPT重磅推出以来，大语言模型(largelanguageModel,LLM)以其卓越的学习能力在各个领域引起轰动。大模型的训练和调优离不开优质庞大的数据支撑，精心构建的数据集不仅为大模型提供了充分的燃料，还为大模型在垂直领域的应用和性能提升提供了可能。本文整理了一些适用于大模型训练调优的热门中文公开数据集（按照首字母A-Z顺序排列），以供大家了解和使用。温馨提示：本文列举的所有数据集，
用 C++ 获取显示器信息：深入 WMI 与 COM 接口
在Windows系统中，获取显示器信息（如制造商、序列号和产品代码）是一项常见任务。本文将展示如何使用C++通过WindowsManagementInstrumentation(WMI)和ComponentObjectModel(COM)接口实现这一功能。我们将以WmiMonitorID类为例，逐步构建一个健壮的程序，并分享实现过程中的关键注意事项。背景显示器信息通常存储在硬件的EDID(Exte
燕山大学软件用户界面设计考题能运行就算成功经验分享
2024年考题，考前完全不知道考什么，趁着现在还记得，造福下后辈。全部是简答。1.描述下实用性和它的三个维度2.写出五个功能可见性的例子3.关键性模型Keystroke-LevelModel(KLM)字母的意思4.undo四个设计原则（笔记和翻译根本没有，看到时已经懵了）5.GUI三种设计方式6.瀑布模型为什么不适合ui设计后面是大题，跟写实验报告差不多，这次是个预定家政服务的题，写信息点描述中心
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
day38 心落薄荷糖 Python训练营 python
importtorchimporttorch.nnasnnimporttorch.optimasoptimfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportMinMaxScalerimporttimeimportmatplotlib.pyplotaspltfromtqdmimporttqd
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
LLaMA Factory 微调后，迁移模型激进小猪1002 llama llamafactory 人工智能 python
方法1：使用HuggingFaceHub（最推荐）fromtransformersimportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub("your-username/your-model-name")tokenizer.push_to_hub("your-username/your-model-name")
2025 VUE常见面试题 hmildj vue.js 面试前端
前言总结一些VUE面试的基础知识，共同学习1.什么是Vue？答案：Vue.js（通常简称为Vue）是一个用于构建用户界面的‌渐进式JavaScript框架，Vue3是Vue.js框架的最新版本，它引入了许多改进和优化，包括性能提升、更好的类型支持、组合API等。2.MVVM模式是什么？Vue如何体现这一模式？‌答案：MVVM将视图（View）与数据（Model）通过ViewModel层解耦，Vue
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密 IT古董技术杂谈安全 MCP MCP-Proxy
在构建多模型、多协议、可控可信的大模型接入平台时，MCP-Proxy扮演着关键中枢。它不仅要支持多个LLM接入，还要保障对后端MCPServer的安全访问、请求审计、能力切换与资源隔离。什么是MCP/MCP-Proxy？MCP（ModelCapabilityProtocol）是新一代模型能力调用协议，类似于OpenAI的API，但可支持：多厂商大模型（OpenAI、DeepSeek、Yi、Chat
Spring AI快速入门学java的cc spring 大数据 java
一、引入依赖org.springframework.aispring-ai-starter-model-openaiorg.springframework.aispring-ai-bom${spring-ai.version}pomimport二、配置模型spring：ai:openai:base-url:https://dashscope.aliyuncs.com/compatible-mode
element 日期选择图标_element-ui日期组件DatePicker设置日期选择范围Picker Options 认知能力训练 element 日期选择图标
element-UI提供了DatePicker日期选择器组件,可以让我们很方便的获取到日期,默认的选择是全部的日期都可以选择的,但是很多场景中我们要对日期选择范围做限定,比如出行日期就不能选过去的日期,订票时间要限制日期范围官网提供了picker-options参数可以设置日期选择范围,具体操作看代码//页面引入组件,加上picker-options这个参数v-model="exCheckDate
相机-IMU联合标定：IMU更新频率吃水果不削皮视觉组合导航 ROS VIO kalibr
文章目录简介⚠️IMU频率参数错误设置的影响❌相机-IMU联合标定失败：Optimizationfailed!确定IMU更新频率直接通过rostopichz检查实际频率检查IMU驱动或数据手册从bag文件统计频率在这里插入图片描述修改`update_rate`的注意事项**最终建议****常见问题**简介IMU更新频率参数在Kalibr标定中直接影响标定精度和系统性能。高频率的IMU数据能提供更密
基于OpenCV-python的人脸识别系统 transuperb 完整代码 opencv python 人工智能
importsysimportosimporttkinterastkfromtkinter.ttkimportStyleimportnumpyasnpimportcv2fromPILimportImageTk,ImageDraw,ImageFontfrompanel.models.tabulatorimportthemefromModelimport*fromtkinterimportttk,fi
如何制作一份E-R图菜汪本汪数据库
ER模型，全称为实体联系模型、实体关系模型或实体联系模式图（ERD）（英语：Entity-relationshipmodel）由美籍华裔计算机科学家陈品山发明，是概念数据模型中高层描述所使用的数据模型或模式图。ER模型常用于信息系统设计中。比如，在概念结构设计阶段，ER模型用来描述信息需求和/或要存储在数据库中的信息类型，但是数据建模技术可以用来描述特定论域（感兴趣的区域）的任何本体（对使用的术语
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Python打卡：Day24 剑桥折刀s python打卡 python
importpandasaspdimportnumpyasnpimportreimportxgboostasxgbfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportclassification_report,confusion_matrix,accuracy_score,precision_score
Python打卡：day23 剑桥折刀s python打卡 python 开发语言
作业：整理下全部逻辑的先后顺序，看看能不能制作出适合所有机器学习的通用pipelinedefcreate_general_pipeline(model,ordinal_features=None,ordinal_categories=None,nominal_features=None,continuous_features=None):fromsklearn.pipelineimportPipe
CVPR 2024 3D方向总汇包含（3DGS、三维重建、深度补全、深度估计、全景定位、表面重建和特征匹配等）
1、3D方向Rapid3DModelGenerationwithIntuitive3DInputInstantaneousPerceptionofMovingObjectsin3DNEAT:Distilling3DWireframesfromNeuralAttractionFields⭐codeSculptingHolistic3DRepresentationinContrastiveLangua
【大模型学习 | LORA 原理及实现】九年义务漏网鲨鱼语言模型 python pytorch 自然语言处理
LORA:LOW-RANKADAPTATIONOFLARGELAN-GUAGEMODELSGithub库：GitHub-microsoft/LoRA:Codeforloralib,animplementationof“LoRA:Low-RankAdaptationofLargeLanguageModels”GPT-3：175B微调模型变得十分的贵。作者提出利用Low-RankAdaption来冻结
Vue 实现拖拉拽组件 vue-draggable-plus 清风细雨_林木木 Vue 其他 vue.js 前端 javascript
vue-draggable-plus是一个基于Sortable.js的Vue拖拽组件库，是vuedraggable的升级替代品，支持Vue2和Vue3，功能更强，类型更完善，维护更活跃。特点同时支持Vue2和Vue3完整类型支持（TypeScript）拖拽排序、嵌套列表、拖入拖出基于原生Sortable.js，功能丰富支持v-model双向绑定安装npminstallvue-draggable-p
配置不当的MCP服务器使AI代理系统面临入侵风险 FreeBuf- 服务器人工智能运维
风险概述：默认配置暴露命令执行漏洞数百台用于连接大语言模型（LLM）与第三方服务、数据源及工具的模型上下文协议（ModelContextProtocol，MCP）服务器存在默认配置缺陷，可能导致用户面临未授权的操作系统命令执行等风险。随着代理型AI（AgenticAI）的兴起，MCP服务器正迅速成为增强AI模型推理上下文的关键工具。但安全研究人员警告，大量公开共享的MCP服务器存在不安全配置，攻击
Prism框架实战：WPF企业级开发全解待香港下雪就不用敲代码了 wpf c#visual studio 开发语言
以下是一个完整的WPF项目示例，使用Prism框架实现依赖注入、导航、复合命令、模块化和聚合事件功能。项目结构清晰，包含核心功能实现：项目结构PrismDemoApp/├──PrismDemoApp(主项目)│├──Views/││├──ShellView.xaml││├──MainView.xaml││└──SettingsView.xaml│├──ViewModels/││├──ShellVi
VLLM：虚拟大型语言模型（Virtual Large Language Model）大霸王龙语言模型人工智能自然语言处理
VLLM：虚拟大型语言模型（VirtualLargeLanguageModel）VLLM指的是一种基于云计算的大型语言模型的虚拟实现。它通常是指那些由多个服务器组成的分布式计算环境中的复杂机器学习模型，这些模型能够处理和理解大量的文本数据。VLLM的核心是“大型语言模型”，这是一种通过深度神经网络训练的算法，能够在理解和生成人类语言方面表现出极高的能力。解释：虚拟：意味着这个模型不是在单个物理设备
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

主题模型TopicModel：PLSA模型及PLSA的EM推导

你可能感兴趣的:(主题模型Topic,Model,主题模型)