mantch

我是这样一步步理解--主题模型(Topic Model)、LDA(案例代码)

1. LDA模型是什么

LDA可以分为以下5个步骤：

一个函数：gamma函数。
四个分布：二项分布、多项分布、beta分布、Dirichlet分布。
一个概念和一个理念：共轭先验和贝叶斯框架。
两个模型：pLSA、LDA。
一个采样：Gibbs采样

关于LDA有两种含义，一种是线性判别分析（Linear Discriminant Analysis），一种是概率主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA），本文讲后者。

按照wiki上的介绍，LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，是一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

人类是怎么生成文档的呢？首先先列出几个主题，然后以一定的概率选择主题，以一定的概率选择这个主题包含的词汇，最终组合成一篇文章。如下图所示(其中不同颜色的词语分别对应上图中不同主题下的词)。

那么LDA就是跟这个反过来：根据给定的一篇文档，反推其主题分布。

在LDA模型中，一篇文档生成的方式如下：

从狄利克雷分布 $\alpha$ 中取样生成文档 i 的主题分布 $\theta_i$。
从主题的多项式分布 $\theta_i$ 中取样生成文档i第 j 个词的主题 $z_{i,j}$。
从狄利克雷分布 $\beta$ 中取样生成主题 $z_{i,j}$ 对应的词语分布 $\phi_{z_{i,j}}$。
从词语的多项式分布 $\phi_{z_{i,j}}$ 中采样最终生成词语 $w_{i,j}$。

其中，类似Beta分布是二项式分布的共轭先验概率分布，而狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布。此外，LDA的图模型结构如下图所示（类似贝叶斯网络结构）：

1.1 5个分布的理解

先解释一下以上出现的概念。

二项分布（Binomial distribution）

二项分布是从伯努利分布推进的。伯努利分布，又称两点分布或0-1分布，是一个离散型的随机分布，其中的随机变量只有两类取值，非正即负{+，-}。而二项分布即重复n次的伯努利试验，记为 $X\sim_{}b(n,p)$。简言之，只做一次实验，是伯努利分布，重复做了n次，是二项分布。
多项分布

是二项分布扩展到多维的情况。多项分布是指单次试验中的随机变量的取值不再是0-1的，而是有多种离散值可能（1,2,3...,k）。比如投掷6个面的骰子实验，N次实验结果服从K=6的多项分布。其中：

\[\sum_{i=1}^{k}p_i=1,p_i>0\]
共轭先验分布

在贝叶斯统计中，如果后验分布与先验分布属于同类，则先验分布与后验分布被称为共轭分布，而先验分布被称为似然函数的共轭先验。
Beta分布

二项分布的共轭先验分布。给定参数 $\alpha>0$ 和 $\beta>0$，取值范围为[0,1]的随机变量 x 的概率密度函数：

\[f(x;\alpha,\beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}\]

其中：

\[\frac{1}{B(\alpha,\beta)}=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}\]

\[\Gamma(z)=\int_{0}^{\infty}t^{z-1}e^{-t}dt\]

注：这便是所谓的gamma函数，下文会具体阐述。
狄利克雷分布

是beta分布在高维度上的推广。Dirichlet分布的的密度函数形式跟beta分布的密度函数如出一辙：

\[f(x_1,x_2,...,x_k;\alpha_1,\alpha_2,...,\alpha_k)=\frac{1}{B(\alpha)}\prod_{i=1}^{k}x_i^{\alpha^i-1}\]

其中

\[B(\alpha)=\frac{\prod_{i=1}^{k}\Gamma(\alpha^i)}{\Gamma(\sum_{i=1}^{k}\alpha^i)},\sum_{}x_i=1\]

至此，我们可以看到二项分布和多项分布很相似，Beta分布和Dirichlet 分布很相似。

如果想要深究其原理可以参考：通俗理解LDA主题模型，也可以先往下走，最后在回过头来看详细的公式，就更能明白了。

总之，可以得到以下几点信息。

beta分布是二项式分布的共轭先验概率分布：对于非负实数 $\alpha$ 和 $\beta$ ，我们有如下关系：

\[Beta(p|\alpha,\beta)+Count(m_1,m_2)=Beta(p|\alpha+m_1,\beta+m_2)\]

其中 $(m_1,m_2)$ 对应的是二项分布 $B(m_1+m_2,p)$ 的记数。针对于这种观测到的数据符合二项分布，参数的先验分布和后验分布都是Beta分布的情况，就是Beta-Binomial 共轭。”
狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布，一般表达式如下：

\[Dir(\vec{p}|\vec\alpha)+MultCount(\vec{m})=Dir(p|\vec{\alpha}+\vec{m})\]

针对于这种观测到的数据符合多项分布，参数的先验分布和后验分布都是Dirichlet 分布的情况，就是 Dirichlet-Multinomial 共轭。 ”
贝叶斯派思考问题的固定模式：

先验分布 $\pi(\theta)$+ 样本信息 $X$ = 后验分布 $\pi(\theta|x)$。

1.2 3个基础模型的理解

在讲LDA模型之前，再循序渐进理解基础模型：Unigram model、mixture of unigrams model，以及跟LDA最为接近的pLSA模型。为了方便描述，首先定义一些变量：

$w$ 表示词，$V$ 表示所有单词的个数（固定值）。
$z$ 表示主题，$k$ 是主题的个数（预先给定，固定值）。
$D=(W_1,...,W_M)$ 表示语料库，其中的M是语料库中的文档数（固定值）。
$W=(w_1,w_2,...,w_N)$ 表示文档，其中的N表示一个文档中的词数（随机变量）。

Unigram model

对于文档$W=(w_1,w_2,...,w_N)$，用 $p(w_n)$ 表示词 $w_n$ 的先验概率，生成文档w的概率为：

\[p(W)=\prod_{n=1}^{N}p(w_n)\]
Mixture of unigrams model

该模型的生成过程是：给某个文档先选择一个主题z,再根据该主题生成文档，该文档中的所有词都来自一个主题。假设主题有 $z_1,...,z_n$，生成文档w的概率为：

\[p(W)=p(z_1)\prod_{n=1}^{N}p(w_n|z_1)+...+p(z_k)\prod_{n=1}^{N}p(w_n|z_k)=\sum_{z}p(z)\prod_{n=1}^{N}p(w_n|z)\]
PLSA模型

理解了pLSA模型后，到LDA模型也就一步之遥——给pLSA加上贝叶斯框架，便是LDA。

在上面的Mixture of unigrams model中，我们假定一篇文档只有一个主题生成，可实际中，一篇文章往往有多个主题，只是这多个主题各自在文档中出现的概率大小不一样。比如介绍一个国家的文档中，往往会分别从教育、经济、交通等多个主题进行介绍。那么在pLSA中，文档是怎样被生成的呢？

假定你一共有K个可选的主题，有V个可选的词，咱们来玩一个扔骰子的游戏。

一、假设你每写一篇文档会制作一颗K面的“文档-主题”骰子（扔此骰子能得到K个主题中的任意一个），和K个V面的“主题-词项” 骰子（每个骰子对应一个主题，K个骰子对应之前的K个主题，且骰子的每一面对应要选择的词项，V个面对应着V个可选的词）。

比如可令K=3，即制作1个含有3个主题的“文档-主题”骰子，这3个主题可以是：教育、经济、交通。然后令V = 3，制作3个有着3面的“主题-词项”骰子，其中，教育主题骰子的3个面上的词可以是：大学、老师、课程，经济主题骰子的3个面上的词可以是：市场、企业、金融，交通主题骰子的3个面上的词可以是：高铁、汽车、飞机。

二、每写一个词，先扔该“文档-主题”骰子选择主题，得到主题的结果后，使用和主题结果对应的那颗“主题-词项”骰子，扔该骰子选择要写的词。

先扔“文档-主题”的骰子，假设（以一定的概率）得到的主题是教育，所以下一步便是扔教育主题筛子，（以一定的概率）得到教育主题筛子对应的某个词：大学。

上面这个投骰子产生词的过程简化下便是：“先以一定的概率选取主题，再以一定的概率选取词”。

三、最后，你不停的重复扔“文档-主题”骰子和”主题-词项“骰子，重复N次（产生N个词），完成一篇文档，重复这产生一篇文档的方法M次，则完成M篇文档。

上述过程抽象出来即是PLSA的文档生成模型。在这个过程中，我们并未关注词和词之间的出现顺序，所以pLSA是一种词袋方法。生成文档的整个过程便是选定文档生成主题，确定主题生成词。

反过来，既然文档已经产生，那么如何根据已经产生好的文档反推其主题呢？这个利用看到的文档推断其隐藏的主题（分布）的过程（其实也就是产生文档的逆过程），便是主题建模的目的：自动地发现文档集中的主题（分布）。

文档d和词w是我们得到的样本，可观测得到，所以对于任意一篇文档，其 $P(w_j|d_i)$ 是已知的。从而可以根据大量已知的文档-词项信息 $P(w_j|d_i)$，训练出文档-主题 $P(z_k|d_i)$ 和主题-词项 $P(w_j|z_k)$，如下公式所示：

\[P(w_j|d_i)=\sum_{k=1}^{K}P(w_j|z_k)P(z_k|d_i)\]

故得到文档中每个词的生成概率为：

\[P(d_i,w_j)=P(d_i)P(w_j|d_i)=P(d_i)\sum_{k=1}^{K}P(w_j|z_k)P(z_k|d_i)\]

由于 $P(d_i)$ 可事先计算求出，而 $P(w_j|z_k)^{}$ 和 $P(z_k|d_i)$ 未知，所以 $\theta=(P(w_j|z_k),P(z_k|d_i))$ 就是我们要估计的参数（值），通俗点说，就是要最大化这个θ。

用什么方法进行估计呢，常用的参数估计方法有极大似然估计MLE、最大后验证估计MAP、贝叶斯估计等等。因为该待估计的参数中含有隐变量z，所以我们可以考虑EM算法。详细的EM算法可以参考之前写过的 EM算法章节。

1.3 LDA模型

事实上，理解了pLSA模型，也就差不多快理解了LDA模型，因为LDA就是在pLSA的基础上加层贝叶斯框架，即LDA就是pLSA的贝叶斯版本（正因为LDA被贝叶斯化了，所以才需要考虑历史先验知识，才加的两个先验参数）。

下面，咱们对比下本文开头所述的LDA模型中一篇文档生成的方式是怎样的：

按照先验概率 $P(d_i)$ 选择一篇文档 $d_i$。
从狄利克雷分布（即Dirichlet分布）$\alpha$ 中取样生成文档 $d_i$ 的主题分布 $\theta_i$，换言之，主题分布 $\theta_i$ 由超参数为 $\alpha$ 的Dirichlet分布生成。
从主题的多项式分布 $\theta_i$ 中取样生成文档 $d_i$ 第 j 个词的主题 $z_{i,j}$。
从狄利克雷分布（即Dirichlet分布）$\beta$ 中取样生成主题 $z_{i,j}$ 对应的词语分布 $\phi_{z_{i,j}}$，换言之，词语分布 $\phi_{z_{i,j}}$ 由参数为 $\beta$ 的Dirichlet分布生成。
从词语的多项式分布 $\phi_{z_{i,j}}$ 中采样最终生成词语 $w_{i,j}$。

LDA中，选主题和选词依然都是两个随机的过程，依然可能是先从主题分布{教育：0.5，经济：0.3，交通：0.2}中抽取出主题：教育，然后再从该主题对应的词分布{大学：0.5，老师：0.3，课程：0.2}中抽取出词：大学。

那PLSA跟LDA的区别在于什么地方呢？区别就在于：

PLSA中，主题分布和词分布是唯一确定的，能明确的指出主题分布可能就是{教育：0.5，经济：0.3，交通：0.2}，词分布可能就是{大学：0.5，老师：0.3，课程：0.2}。
但在LDA中，主题分布和词分布不再唯一确定不变，即无法确切给出。例如主题分布可能是{教育：0.5，经济：0.3，交通：0.2}，也可能是{教育：0.6，经济：0.2，交通：0.2}，到底是哪个我们不再确定（即不知道），因为它是随机的可变化的。但再怎么变化，也依然服从一定的分布，即主题分布跟词分布由Dirichlet先验随机确定。正因为LDA是PLSA的贝叶斯版本，所以主题分布跟词分布本身由先验知识随机给定。

换言之，LDA在pLSA的基础上给这两参数 $(P(z_k|d_i)、P(w_j|z_k))$ 加了两个先验分布的参数（贝叶斯化）：一个主题分布的先验分布Dirichlet分布 $\alpha$，和一个词语分布的先验分布Dirichlet分布 $\beta$。

综上，LDA真的只是pLSA的贝叶斯版本，文档生成后，两者都要根据文档去推断其主题分布和词语分布（即两者本质都是为了估计给定文档生成主题，给定主题生成词语的概率），只是用的参数推断方法不同，在pLSA中用极大似然估计的思想去推断两未知的固定参数，而LDA则把这两参数弄成随机变量，且加入dirichlet先验。

所以，pLSA跟LDA的本质区别就在于它们去估计未知参数所采用的思想不同，前者用的是频率派思想，后者用的是贝叶斯派思想。

LDA参数估计：Gibbs采样，详见文末的参考文献。

2. 怎么确定LDA的topic个数？

基于经验主观判断、不断调试、操作性强、最为常用。
基于困惑度（主要是比较两个模型之间的好坏）。
使用Log-边际似然函数的方法，这种方法也挺常用的。
非参数方法：Teh提出的基于狄利克雷过程的HDP法。
基于主题之间的相似度：计算主题向量之间的余弦距离，KL距离等。

3. 如何用主题模型解决推荐系统中的冷启动问题？

推荐系统中的冷启动问题是指在没有大量用户数据的情况下如何给用户进行个性化推荐，目的是最优化点击率、转化率或用户体验（用户停留时间、留存率等）。冷启动问题一般分为用户冷启动、物品冷启动和系统冷启动三大类。

用户冷启动是指对一个之前没有行为或行为极少的新用户进行推荐；
物品冷启动是指为一个新上市的商品或电影（这时没有与之相关的评分或用户行为数据）寻找到具有潜在兴趣的用户；
系统冷启动是指如何为一个新开发的网站设计个性化推荐系统。

解决冷启动问题的方法一般是基于内容的推荐。以Hulu的场景为例，对于用户冷启动来说，我们希望根据用户的注册信息（如：年龄、性别、爱好等）、搜索关键词或者合法站外得到的其他信息（例如用户使用Facebook账号登录，并得到授权，可以得到Facebook中的朋友关系和评论内容）来推测用户的兴趣主题。得到用户的兴趣主题之后，我们就可以找到与该用户兴趣主题相同的其他用户，通过他们的历史行为来预测用户感兴趣的电影是什么。

同样地，对于物品冷启动问题，我们也可以根据电影的导演、演员、类别、关键词等信息推测该电影所属于的主题，然后基于主题向量找到相似的电影，并将新电影推荐给以往喜欢看这些相似电影的用户。可以使用主题模型（pLSA、LDA等）得到用户和电影的主题。

以用户为例，我们将每个用户看作主题模型中的一篇文档，用户对应的特征作为文档中的单词，这样每个用户可以表示成一袋子特征的形式。通过主题模型学习之后，经常共同出现的特征将会对应同一个主题，同时每个用户也会相应地得到一个主题分布。每个电影的主题分布也可以用类似的方法得到。

那么如何解决系统冷启动问题呢？首先可以得到每个用户和电影对应的主题向量，除此之外，还需要知道用户主题和电影主题之间的偏好程度，也就是哪些主题的用户可能喜欢哪些主题的电影。当系统中没有任何数据时，我们需要一些先验知识来指定，并且由于主题的数目通常比较小，随着系统的上线，收集到少量的数据之后我们就可以对主题之间的偏好程度得到一个比较准确的估计。

4. 参考文献

通俗理解LDA主题模型

5. 代码实现

LDA模型应用：一眼看穿希拉里的邮件

【机器学习通俗易懂系列文章】

作者：@mantchs

GitHub：https://github.com/NLP-LOVE/ML-NLP

欢迎大家加入讨论！共同完善此项目！群号：【541954936】

JMH (Java Microbenchmark Harness) 阙芸 python 测试工具开发语言
JMH是Java的微基准测试工具，由OpenJDK团队开发，专门用于编写、运行和分析Java代码的微基准测试（microbenchmark）。为什么需要JMH普通的基准测试方法（如多次循环调用方法并计时）存在很多问题：JVM的JIT编译优化（方法内联、死代码消除等）预热效应（JVM需要"热身"才能达到最佳性能）垃圾回收的干扰操作系统调度的影响JMH解决了这些问题，提供了准确的基准测试环境。基本使用
MySQL 连接指定端口后，为什么实际仍是 3306？ XMYX-0 mysql 数据库
文章目录MySQL连接指定端口后，为什么实际仍是3306？问题现象复现原因分析没有指定-h，默认走的是本地UnixSocket多实例环境中未显式指定目标地址正确的连接方法方法一：添加-h127.0.0.1方法二：添加--protocol=TCP验证是否连接成功附加说明总结✅建议MySQL连接指定端口后，为什么实际仍是3306？在日常运维或开发过程中，有时我们在使用mysql命令行工具连接MySQL
Linux内核启动：深入理解Initramfs与Initrd机制 CClaris linux 服务器嵌入式嵌入式操作系统操作系统
在Linux系统启动过程中，内核需要访问根文件系统来继续启动过程。然而，根文件系统可能位于内核无法直接访问的存储设备上，这就产生了一个"鸡生蛋，蛋生鸡"的问题：内核需要驱动程序来访问存储设备，而驱动程序又存储在这些设备上。为了解决这个问题，Linux引入了initrd和initramfs机制。本文将深入探讨这两种机制的工作原理、区别以及实际应用。问题的由来早期Linux系统的局限性在Linux系统
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
NRF52810-CAAA/QFAA/QCAA低功耗蓝牙5.0支持2.4G私有协议是NRF52832的低成本方案 Kandiy18025398187 物联网 iot
NRF52810简介nRF52810系统级芯片（SoC）是nRF52系列的基准成员，是NRF52832的低成本方案。它满足了将高级低功耗蓝牙功能和协议并发性引入应用的挑战，其价位使得向应用添加低功耗蓝牙连接极具吸引力。它是不太复杂的应用的理想选择，也是大型应用中的低功耗蓝牙连接处理器的理想选择。nRF52810支持低功耗蓝牙协议，包括2Mbps的高速传输特性。它还支持ANT和2.4GHz私有协议。
131. 分割回文串
题目：给你一个字符串s，请你将s分割成一些子串，使每个子串都是回文串。返回s所有可能的分割方案。示例：输入：s=“aab”输出：[[“a”,“a”,“b”],[“aa”,“b”]]解题思路：这道题还是通过回溯的方法暴力枚举所有可能的分割情况。当分割起点=字符串s的长度时，就是收获结果的时候。对于每层递归，我们去遍历所有可能的分割点，然后判断起始点到分割点的子串是否是回文串，如果是则可以将子串加入p
Go中interface接口的设计理念 Code季风 golang 开发语言学习 rpc
Go语言中的接口（interface）是一种非常强大的抽象机制，它允许开发者定义行为的集合，而不必关心这些行为是如何具体实现的。接口在Go中扮演着核心角色，尤其是在实现多态性和代码解耦方面。以下是对Go中接口设计理念的深入讲解：接口的基本概念在Go中，接口是一组方法签名的集合。一个类型如果实现了某个接口中的所有方法，则称该类型实现了这个接口。值得注意的是，Go中的接口是隐式实现的，这意味着你不需要
钉钉小程序摸索二：钉钉小程序开发过程中错误解决过程
钉钉小程序开过程中作为小白，很容易遇上各种问题，今天我就以自己开发过程的遇到的问题总结下解决过程或者思路，有小白的同学可以做下参考，发布文章不易，请点赞一下鼓励下，谢谢。目录：TypeError:my.requestisnotafunctionatObject.onSubmit1、钉钉开发过程中接口请求返回TypeError:my.requestisnotafunctionatObject.onS
使用CSS @layer控制样式优先级的新方式海派程序猿 css 前端
CSS@layer：拯救你的样式优先级，告别“!important”的焦虑各位前端同僚们，你们有没有经历过这样的噩梦？深夜，正当你准备结束一天的工作，舒舒服服地躺在床上刷手机时，测试突然甩来一个bug：一个看起来简单的样式问题，却怎么改都改不过来！你瞪大了眼睛，一行一行地检查CSS，发现优先级简直乱成了一锅粥。仿佛无数个小恶魔在你代码里跳舞，疯狂地嘲笑你的努力。最后，你无奈地祭出了“!import
从台式电脑硬件架构看前后端分离开发模式程序猿全栈の董电脑硬件架构状态模式
在软件开发领域，前后端分离早已成为主流架构设计理念。它将系统的业务逻辑处理与用户界面展示解耦，提升开发效率与系统可维护性。有趣的是，我们日常生活中常见的台式电脑硬件架构，竟与这一理念有着异曲同工之妙。今天，就让我们从台式电脑的硬件组成出发，深入探讨其与前后端分离开发模式的内在联系。文章目录一、台式电脑硬件架构与前后端的类比1.1主机：后端的硬件化身1.2显示屏：前端的硬件呈现二、二者分离模式的共同
Nagios监控系统插件套装：1.4.13版本深入解析 Kiki-2189
本文还有配套的精品资源，点击获取简介：Nagios是一款开源系统监控工具，用于实时监控网络服务、系统状态和IT基础设施，确保IT环境的稳定运行。本文详细解析了"Nagios-plugins-1.4.13.tar.gz"这个插件包，涵盖了Nagios核心功能、插件工作原理、安装配置、常见插件、自定义插件制作、故障报警与通知、性能数据记录以及扩展集成等方面。通过解压、编译安装和配置插件包中的内容，用户
Linux离线搭建Jenkins 为你奋斗！开发环境软件安装 servlet 测试工具经验分享笔记
Linux离线搭建Jenkins(centos7)Jenkins简介:Jenkins只是一个平台，真正运作的都是插件。这就是jenkins流行的原因，因为jenkins什么插件都有，Hudson是Jenkins的前身，是基于Java开发的一种持续集成工具，用于监控程序重复的工作，Hudson后来被收购，成为商业版。后来创始人又写了一个jenkins,jenkins在功能上远远超过hudson.下载
前端 E2E 测试实践：打造稳定 Web 应用的利器！朱公子的Note 编程语言前端端到端E2E测试
在现代Web开发中，端到端（E2E）测试就像为应用程序配备了一面“照妖镜”，它模拟真实用户的操作流程，从用户点击到获得反馈的每一步都进行验证。想象一下，你刚刚完成了一个完美的登录功能，结果用户反馈“点了登录按钮没有反应”——这种“我以为OK其实不行”的问题，正是E2E测试要解决的。E2E测试并不止于前端界面，它涵盖了前端、后端及数据库等所有环节，确保每个节点都能正常工作。历史经验也提醒我们其重要性
taro开发钉钉小程序，打包后真机测试tabbar丢失解决方案，以及在小程序上使用路由守卫 Miong学不会前端小程序 taro 钉钉前端
吐槽一下，最近公司让我搞钉钉小程序，因为公司用的是taro框架，本来这个框架的社区人就比较少，taro开发钉钉小程序的人更少，以致于遇到的bug和坑在网上都找不到解决方案，挺难受的。今天搞定taro编译钉钉小程序真机测试时底部tabbar丢失问题，分享一下解决方案。在taro编译成小程序的时候，在开发工具的模拟器里面，通过配置app.config.ts文件配置tabbar，是可以正常显示的,配置如
Python 常用正则表达式大全朱公子的Note python 爬虫正则表达式
你是否在写Python爬虫时，总是卡在“正则提取”这一步？明明页面源码已经拿到，却怎么也匹配不到目标数据……不是提取失败，就是提取不全，搞得调试半天还抓不到核心字段？别急！今天我们就来一次**“正则一网打尽”**，专为爬虫而生的表达式宝典，让你写起爬虫来如虎添翼！在当下数据驱动时代，网络数据是企业的“金矿”，而Python爬虫则是挖掘这金矿的“利器”！从电商价格到社交媒体评论，爬虫技术让数据采集变
微信小程序实现导航守卫麦兜的明天前端小程序
小程序中是不支持路由拦截的，需要开发者自行封装路由拦截的功能，实践有许多的实现思路，下面我采用的是封装组件的方式实现。比方说一个小程序项目只有一两个页面是不需要登录就可以访问的，其他页面都是需要登录之后才能访问的，那我就用封装一些逻辑来检测用户是否是登录状态，如果不是则重定向到登录页，等用户完成登录后再跳转到用户本来要访问的页面。主要实现原理：通过本地存储的token来判断用户的登录状态，在小程序
《高并发系统性能优化三板斧：缓存 + 异步 + 限流》猕员桃 10篇关于分布式和高并发性能优化缓存
高并发系统性能优化三板斧：缓存+异步+限流引言在互联网应用的高并发场景下，系统性能面临巨大挑战。以某电商平台会员活动为例，活动期间瞬时QPS可达10万+，若未进行有效优化，服务器将迅速崩溃。本文从缓存、异步、限流三个核心维度，结合实际案例详细解析高并发系统的性能优化策略，并分享全链路压测与问题定位的实战经验。一、缓存策略分层：从本地到分布式的立体防护1.1本地缓存选型与实战（Caffeine）本地
《Redis高并发优化策略与规范清单：从开发到运维的全流程指南》猕员桃 redis 运维数据库
Redis高并发优化策略与规范清单：从开发到运维的全流程指南在互联网应用的后端架构中，Redis凭借其高性能、高并发的特性，成为缓存和数据存储的首选方案。无论是电商抢购、社交平台的点赞计数，还是在线旅游平台的实时数据查询，Redis都在支撑着海量请求的快速处理。然而，随着业务规模的扩大和流量的激增，Redis在高并发场景下也面临诸多挑战，如性能瓶颈、内存溢出、缓存雪崩等。为了确保Redis在高并发
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
学校老师课堂点名管理系统带TkinterUI界面深度学习乐园 oracle 数据库
完整源码项目包获取→点击文章末尾名片！基于PythonTkinter的学生管理系统，有最基本的增删改查功能，还有随机点名、顺序点名功能##1、研究现状综述目前，在学生信息管理领域，各大高校面临的难题在于对学生信息管理的效率过低，传统的人工管理造成了资金和劳动力的浪费。因此，大部分学者研究的是针对高校的学生信息或成绩管理系统，而用python语言的也很少，其中大多用的是PyQt5模块。而且，针对低年
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
钉钉小程序开发的技术选型脑袋大大的钉钉生态创业者专栏钉钉小程序
作为一名专注于前端技术发展的技术博主，今天我将分享一下在进行钉钉小程序开发时关于技术选型的一些思考和经验。本文旨在探讨uni-app、Taro等跨平台框架与原生开发框架之间的优缺点，并最终推荐一个我认为最适合当前需求的技术栈组合。着急想知道答案的可以直接滑到最后看小编觉得好的解决方案吧！多端开发框架vs原生开发框架uni-appuni-app是一个基于Vue.js的跨平台开发框架，它允许开发者通过
Zellij 详细教程：一个比 tmux 更友好、强大的终端复用工具 vortex5 工具命令 zellij tmux linux
在终端环境中，终端复用器（TerminalMultiplexer）是一种不可或缺的工具。它能够将单一的终端会话分割为多个独立的工作区域，不仅实现“一心多用”，还便于会话管理，确保任务不会因误关闭终端窗口或SSH连接中断而丢失。这种特性对于开发者、系统管理员以及命令行爱好者来说尤为重要。提到终端复用器，许多人首先想到的是经典的tmux，其名称正是“terminalmultiplexer”的缩写。凭借
《去哪儿网Redis高并发实战：从问题定位到架构升级》猕员桃 redis 架构数据库
去哪儿网Redis高并发实战：从问题定位到架构升级在互联网行业竞争日益激烈的当下，高并发场景下的系统性能优化一直是技术团队面临的重要挑战。对于去哪儿网这类在线旅游平台来说，节假日期间的流量高峰更是对系统架构的严峻考验。本文将深入剖析去哪儿网在五一假期期间，针对Redis高并发问题的实战解决方案，从问题定位、优化策略到架构升级，全方位展现整个优化过程。一、案例背景：五一假期流量峰值挑战1.1业务场景
vue3.5中useTemplateRef获取DOM元素 whhhhhhhhhw vue.js javascript 前端
前言：vue3.5推出了一种新的获取DOM元素的API（useTemplateRef），它与vue3.5之前获取DOM元素有什么不同呢？今天我们来学习一下。1.vue3.5之前如何获取DOM元素在vue3.5之前，我们要给需要获取DOM元素上面添加一个ref，然后给这个ref一个名字，在逻辑代码中创建一个变量，变量名需要和DOM元素上ref的名称相同。代码如下：import{ref,onMount
Requests源码分析：底层逻辑哆啦A梦的口袋呀源码分析 python http
底层逻辑创建Session会话实例session创建PoolManager连接池实例到session.poolmanager（底层是urllib3）创建Request请求实例reqsession.prepare_request()准备请求参数合并cookies为CookieJar对象：创建干净的CookieJar>>合并会话级cookies(self.cookies)>>合并请求级cookies生
el-table合并行+数据按照相同名称排序+相同名称内的数据在排序 Web·强 elementui 遇到的问题前端 java javascript
项目场景：项目需求：后端给我返回的数据：原因分析：后端数据所有的内容排列是无顺序的相同名称的不一定靠在一起图片只是巧合，如果按照后端返回的格式直接赋给表格的tabledata那么顺序就不是我们想要的，所以我们首先要把数据处理成我们想要的数据格式。①根据需求首先把数据里的相同名称进行排序然后在将相同名称里的版本从高到低排序②将名称相同的合并成一行并将序号也进行合并解决方案：需求①：this.tabl
解决vue移动端哈希模式页面返回滚动条置顶问题【03】 vue笔记 vue.js javascript
问题：如a页面为列表，点击列表进入b页面，再返回a页面，a页面的滚动条置顶了解决思路：使用keep-alive缓存页面，在路由跳转时存储滚动条高度，在页面显示是设置滚动条高度全局js文件GFN.jsexportdefault{/***储存列表滚动条高度*@paramt*/saveScroller:(t)=>{t.scrollY=t.$refs.v_list.scroller.scrollTop},
Windows Server 2019 安装 Docker 完整指南 z日火 docker windows docker 容器
博主本人使用的是离线安装1.安装前准备系统要求操作系统：WindowsServer2019（或2016/2022）权限：管理员权限的PowerShell网络：可访问互联网（或离线安装包）启用容器功能Install-WindowsFeature-NameContainers如果提示需要重启，但Restart-Computer-Force失败，请手动重启服务器。2.安装Docker方法1：在线安装（推
校园志愿者系统前端代码实现及技术解析创新工场
本文还有配套的精品资源，点击获取简介：本项目集中展示了Web开发中的关键技术和框架，包含PHP、Vue.js、ElementUI和Laravel在校园志愿者系统前台构建中的应用。首先，PHP用于后端开发，处理业务逻辑并与数据库交互。接着，Vue.js作为前端框架，实现交云动界面和用户交互。ElementUI提供企业级UI组件，加速开发流程，提高界面美观度。Laravel框架则用于搭建后端架构，处理
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D