ljtyxl

主题模型LDA理解与应用

本文主要用于理解主题模型LDA（Latent Dirichlet Allocation）其背后的数学原理及其推导过程。本菇力求用简单的推理来论证LDA背后复杂的数学知识，苦于自身数学基础不够，因此文中还是大量引用了各方大神的数学推导细节，既是为了方便自己以后回顾，也方便读者追本溯源，当然喜欢直接看应用的读者可直接翻到第二章~

基本目录如下：

LDA的原理
1.1 先导数学知识准备
1.2 文本模型 - Unigram Model
1.3 主题模型 - PLSA Model
1.4 主题模型 - LDA Model
LDA的应用与扩展
2.1 LDA的Python实现
2.2 LDA模型中的主题个数

------------------第一菇 - LDA的原理------------------

1.1 先导数学知识准备

LDA之所以很难懂，跟其涉及大量的数学统计知识有关，因此，为了更好的理解LDA，还是先铺垫一些数学知识。本段力求少摆公式，用更通俗的话来阐述其背后的数学思想~

1.1.1 Gamma函数

认真学过高数的应该都对这个函数有印象，其基本公式如下：

再贴一张Gamma函数图，方便大家对其有一个概览性的认识：

gamma函数

该函数有一个很好的递归性质（利用分步积分法可证）如下：

当然该函数还有更重要的一点，即其可以表述为阶乘在实数集上的延拓：

（PS.至于为何不定义一个函数满足，大家可以移步LDA数学八卦第一章，看完还蛮有趣的，顺便感叹一下伟大数学家们对完美数学公式的追求~）

1.1.2 二项分布

高中学概率论的时候，还记得抛硬币的例子么？每一次抛硬币都会有俩个结果，正面OR背面，那么抛一次硬币就满足伯努利分布（又叫0-1分布），是一个离散型的随机分布。二项分布无非就是重复N次的伯努利实验，其概率密度函数可以表示为：

其中

看到C(n,k)大部分人应该都能想起这个在高中就学过的式子的意思，最简单的排列组合，从n个事件中挑出k个事件的组合方式，因此上面的式子应该不难理解了。

1.1.3 多项分布

高中学习概率论的时候，我们除了仍硬币还仍什么？还会仍骰子哈哈~但这个时候仍一次骰子就不满足伯努利分布了，因为仍一次骰子会有6或更多种结果。因此，多项分布就是二项分布扩展到高维的情况，其概率密度函数可以表示为：

想细究该公式怎么来的，可以先移步这篇博文多项式分布的理解概率公式的理解，本质思想跟二项分布几乎没差，只不过涉及到了一些多项式定理。

1.1.4 Beta分布

通俗理解，当我们不知道一个概率是什么，但又有一些合理的猜测时，Beta分布能很好的作为一个表示概率的概率分布。举个例子，我们要统计预测一下窝火琦琦新赛季的三分投篮命中率，假如琦琦上赛季投了一个三分，命中一个，则按照我们熟悉的思路，我们可以预测琦琦新赛季命中率100%（想想美滋滋）！但仔细一想不对啊，就算是顶级的三分手（比如汤神）也就40%超一点，难道我大琦琦比汤神还牛了？显然这里大家的思考就会出现分歧，于是就引申出了一个统计学知识点，或者说是俩个学派 - 频率学派和贝叶斯学派！这俩个学派的思路差异体现在：

频率学派：他们把需要推断的参数（本例就是琦琦的三分命中率）看做是固定的未知常数，即虽然这个概率是未知的，但却是确定的一个值，同时，样本是随机的，因此频率学派重点研究样本空间，大部分的概率计算都是针对样本的分布！
贝叶斯学派：他们与频率学派认知刚好相反，他们认为参数都不是固定值，而是服从一个概率分布，样本却是固定的，因此他们重点研究的是参数的分布。

因此，回到琦琦的例子上来，用传统频率学派的观点，那琦琦的命中率确实就是100%，而用贝叶斯学派的观点，首先琦琦的命中率有一个先验分布，而根据样本信息，我们可以对其进行更新，得到后验分布。而数学家们为二项分布选取的先验分布就是Beta分布！

Beta分布在概率论中指一组分布在区间的连续概率分布，其中参数为, ，概率密度函数为：

其中，

至于代表的物理意义，可以简单理解这俩一起控制着Beta分布的形状，贴一张图方便理解：

不同取值的Beta分布.png

当然如果这个时候新赛季已经开打，那我们又会多得到一点信息，比如琦琦在揭幕战怒投5三分，并且命中2个，错失3个，那这个时候，揭幕战中投出的5个三分，肯定能为我所用（样本信息为二项分布），用于更新我对琦琦一开始命中率预测的分布。而这个时候就要用到Beta分布另一个重要的性质了，即Beta-Binomial共轭，对琦琦的预测分布可更新为。

先讲明，“共轭分布” 援引wiki的定义即为：在贝叶斯统计中，如果后验分布与先验分布属于同类，则先验分布与后验分布被称为共轭分布，而先验分布被称为似然函数的共轭先验【1】。参照定义，Beta-Binomial 共轭意味着，如果我们为二项分布的参数p选取的先验分布是Beta分布，那么以p为参数的二项分布用贝叶斯估计得到的后验分布仍然服从Beta分布，那么Beta分布就是二项分布的共轭先验分布，用数学公式表述就是：

这种形式不变的好处是，我们能够在先验分布中赋予参数很明确的物理意义，这个物理意义可以延续到后续分布中进行解释，同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释【2】。另外再多说一点，关于Beta分布的期望可推导表示为：

不知大家能否一眼看出这俩个参数的物理意义，实际上就是琦琦三分投篮时候，命中与未命中的次数！（居然与频率学派对P值的估计统一起来了~妙！）

1.1.5 Dirichlet分布

终于涉及到本文的主角，Dirichlet分布了~灵光的读者研究到这应该大致能猜到该分布是干嘛的了。类比于多项分布是二项分布的推广，Dirichlet分布也确实是Beta分布的推广，其概率密度函数为：

其中

且类比于Beta分布，Dirichlet也是多项分布的共轭先验分布：

相对应于Beta的期望，Dirichlet分布的期望也可以如下：（其物理意义也就是每个参数的估计值是其对应事件的先验的参数（也叫伪计数）和数据中的计数的和在整体计数中的比例）：

对以上俩个分布的推导过程感兴趣的可以移步LDA数学八卦。

1.2 文本模型 - Unigram Model

假设一篇文档由若干个词语构成，可以不考虑顺序，就你像看这句话的时候也没现发他序顺乱了~因此我们不妨就把一篇文章看作是一些词的集合。那么最简单的文本生成模型就是，确定文本的长度为N，然后选出N个词来。选词的过程与我们仍骰子一模一样，无非就是这个骰子的面比较多，但其仍然服从多项分布。这个简单的文本生成模型就叫做Unigram Model。当然少不了贝叶斯估计，每一个面朝上的概率也会有一个先验分布为Dirichlet分布，表示为，而我们也可以根据样本信息来估计后验分布，其概率图模型可以表示为：

Unigram Model 概率图模型

该记图方式为plate notation，有兴趣的可以了解一下。此时该文本的生成概率就等于：

我们推导可以计算得到：

1.3 主题模型 - PLSA Model

上面讲的文本生成模型足够简单，但是对文本的表达能力还是不够，且不太符合我们日常的写作习惯！试想，我们写一篇文章的时候，肯定都会事先拟定一个主题，然后再从这个主题中去寻找相应的词汇，因此这么来看，只扔一个有N面的骰子似乎还不够，我们似乎应该提前再准备m个不同类型的骰子，作为我们的主题，然后确定了主题以后，再选中那个骰子，来决定词汇。由此，便引申出了我们的主题模型！别急，还没轮到LDA登场，我们先介绍一个简单的PLSA模型！

简单来说PLSA是用一个生成模型（生成模型与判别式模型的区别大家还是要懂的）来建模文章的生成过程！它有几个前提假设【3】如下：

一篇文章可以由多个主题构成
每一个主题由一组词的概率分布来表示
一篇文章中的每一个具体的词都来自于一个固定的主题

其概率图模型【4】可以表示为：

PLSA Model 概率图模型

用自己的话翻译一下上述过程就是：

按照概率选中一篇文档
从主题分布中按照概率选中一个主题
从词分布中按照概率选中一个词

则整个语料库中的文本生成概率可以用似然函数表示为：

其中表示单词在文档中出现的次数。

其对数似然函数可以写成：

其中主题分布和定义在主题上的词分布就是待估计的参数，一般会用EM算法（值得另开一篇来单独讲的机器学习基础算法）来求解。有兴趣考究推导细节的读者请移步July老师的博客

1.3 主题模型 - LDA Model

坚持看到这里的读者，其实内心应该对LDA也有了自己的猜想，看看PLSA漏了什么？没错，就是一个贝叶斯框架！如果我们给主题分布加一个Dirichlet分布，再给主题上的词分布再加一个Dirichlet分布，那就是LDA！因此实际上LDA就是PLSA的贝叶斯版本。我们直接来看模型图【4】：

LDA Model 概率图模型

用自己的话翻译一下上述过程就是：

按照概率选中一篇文档
从Dirichlet分布中抽样生成文档的主题分布
从主题分布中抽取文档第j个词的主题
从Dirichlet分布中抽样生成主题对应的词分布
从词分布中抽样生成词

为了方便求解，我们通常会将上述过程顺序交换一下，即我们先生成完全部的主题，再由这些主题去生成完每一个词。这样，第一，二个过程的推导就可以用到Unigram Model的结论，即我们整个语料库下所有词的主题编号的生成概率为：

对于词的生成过程（主题编号的选择并不会改变K个主题下的词分布），即可表示为：

因此，LDA模型的语料库的生成概率可以表述为：

至此，整个LDA模型的文档生成过程介绍完了，而实际我们运用求解的时候，我们的任务也就是去估计隐含变量主题分布和词分布的值了。实际求解的时候，一般会采用Gibbis Sampleing （又是可以单独写一篇的MCMC采样的其中一种，详情可见我的另一篇文章）。这里简单介绍一下，就是首先随机给定每个单词的主题，然后在其他变量保持不变的情况下，根据转移概率抽样生成每个单词的新主题，反复迭代以后，收敛后的结果就是主题分布和词分布的期望。

写到这里，基本上整个LDA模型算是从最简单的二项分布到Dirichlet分布梳理明白了，对于不追求数学细节的读者来说，至少可以在实际运用中不像无头苍蝇一样当个“调包侠”，当然这些都还只是个入门基础，研究人员对LDA做了非常多的扩展应用（这里推荐一篇文章是专门讲当初三位大佬LDA论文的，看完也是收获颇多，推荐一波），而我们只有打好了扎实的基础，才能在实际应用中面对各种不同的变化得心应手！接下来，我就举几个实际的实战案例，让大家体验一把其实际的应用。

------------------第二菇 - LDA的应用与扩展------------------

2.1 LDA的Python实现

在实际的运用中，LDA可以直接从gensim调，主要的一些参数有如下几个：

corpus：语料数据，需要包含单词id与词频
num_topics：我们需要生成的主题个数（重点调节）
id2word：是一种id到单词的映射（gensim也有包生成）
passes：遍历文本的次数，遍历越多越准备
alpha：主题分布的先验
eta：词分布的先验

接下来，我们实战一把，直接用其官方的示例

from gensim.test.utils import common_texts
from gensim.corpora.dictionary import Dictionary

# Create a corpus from a list of texts
common_dictionary = Dictionary(common_texts)
common_corpus = [common_dictionary.doc2bow(text) for text in common_texts]

# Train the model on the corpus.
lda = LdaModel(common_corpus, num_topics=10)

一步步拆解来看，首先common_texts是list形式，里面的每一个元素都可以认为是一篇文档也是list结构：

>>> print type(common_texts)

>>> common_texts[0]
['human', 'interface', 'computer']

第二步，doc2bow这个方法用于将文本转化为词袋形式，看一个官方的示例大家应该就能明白了，

>>> from gensim.corpora import Dictionary
>>> dct = Dictionary(["máma mele maso".split(), "ema má máma".split()])
>>> dct.doc2bow(["this", "is", "máma"])
[(2, 1)]
>>> dct.doc2bow(["this", "is", "máma"], return_missing=True)
([(2, 1)], {u'this': 1, u'is': 1})

初始化的时候对每一个词都会生成一个id，新的文本进去的时候，返回该文本每一个词的id，和对应的频数，对于那些不存在原词典的，可以控制是否返回。此时生成的corpus就相当于是LDA训练模型的输入了，让我们检查一下：

>>>common_corpus[0]
[(0, 1), (1, 1), (2, 1)]
# human单词的id为0，且在第一个文档中只出现了一次

最后一步，我们只需调用LDA模型即可，这里指定了10个主题。

from gensim.models import LdaModel
lda = LdaModel(common_corpus, num_topics=10)

让我们检查一下结果（还有很多种方法大家可以看文档），比如我们想看第一个主题由哪些单词构成：

>>>lda.print_topic(1, topn=2)
'0.500*"9" + 0.045*"10"

可以看出第一个模型的词分布，9号10号占比较大（这里topn控制了输出的单词个数，对应的单词可以通过之前生成dict找出）
我们还可以对刚才生成的lda模型用新语料去进行更新，

# 能更新全部参数
lda.update(other_corpus)
#还能单独更新主题分布， 输入为之前的参数，其中rho指学习率
lda.update_alpha(gammat, rho)
#还能单独更新词分布
lda.update_eta(lambdat, rho)

大家可以根据自己的实际业务需求，来具体查验所需函数，这里就不一一展开了，官方文档上也写的比较细，总的来说，感谢大神们把轮子都造好了，我们只要会用即可，最好还能参透一点其背后的原理。

2.2 LDA模型中的主题个数

这里扩展开来谈一点，我们如何确定LDA模型中的主题个数，因为这也是我们调参的重点，该参数选取的恰当，那我们模型的效果往往会变好。首先还是熟悉的套路，交叉验证，28，37分看数据量，而我们的评估指标，我翻了一圈，大家都是用的困惑度（perplexity），其定义为：

其中为文档的总数，为文档中单词所组成的词袋向量，为模型所预测的文档的生成概率，为文档中单词的总数。简单理解一下就是，对于一篇文章，我们的模型有多不确定它是属于哪一个主题的。很自然，主题越多，肯定困惑度越小，但是不要忘了，计算性能也扛不住啊，因此，一般也是会在合理的主题范围内去挑选一个最佳的主题个数，比如画topic_number-perplexity曲线（跟K-means）去找最佳的K一样的理念吧。还有其他大佬，融入了分层狄利克雷过程（HDP），构成一种非参数主题模型，好处就是不需要预先指定个数，模型可以随着文档的变化而自动的对主题个数进行调整（复杂程度有点高，本菇还未深入涉足这一块）。这里还要再提醒一点，也是看知乎上小伙伴上提醒的，千万不要用gensim中的log_perplexity()计算的perplexity指标来比较topic数量的好坏！因为这个函数没有对主题数目做归一化，因此不同的topic数目不能直接比较！【5】（然后发现一票人最后说，都是自己拍的一个主题个数哈哈哈）

至此运用这一块也算是简单的，大家还是需要根据自己的业务再做调整～毕竟也是一门实验学科，大家多做实验，多试验试验自然经验就有了。

简单总结一下本文，先是介绍了一些LDA背后的统计分布，重点有Beta分布，及Beta-Binomial 共轭，然后引出了Dirichlet分布，最后引出了LDA模型，虽然省略了一些数学推导细节，但基本不影响读者理解。最后还附上了一些Python的实战应用，并重点讨论了一下如何选取合适的主题数目。希望大家读完本文后对机器学习主题模型这一块有全新的认识。有说的不对的地方也请大家指出，多多交流，大家一起进步～?

参考文献：
【1】https://zh.wikipedia.org/wiki/%E5%85%B1%E8%BD%AD%E5%85%88%E9%AA%8C
【2】https://zhuanlan.zhihu.com/p/31470216
【3】http://aroslin.com/2017/11/07/LDA-From-Zero/
【4】https://clyyuanzi.gitbooks.io/julymlnotes/content/lda.html
【5】https://www.zhihu.com/question/32286630

原文：https://www.jianshu.com/p/74ec7d5f6821

135、怎么确定LDA的topic个数？

pLSA建模与求参

pLSA
LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。尽管基于SVD的LSA取得了一定的成功，但是其缺乏严谨的数理统计基础，而且SVD分解非常耗时。Hofmann在SIGIR'99上提出了基于概率统计的PLSA模型，并且用EM算法学习模型参数。PLSA的概率图模型如下

image.png

pLSA是一种词袋方法:

image.png
几个定义：

image.png
pLSA建模目标：根据文档反推其主题分布

image.png

图中被涂色的d、w表示可观测变量，未被涂色的z表示未知的隐变量，N表示一篇文档中总共N个单词，M表示M篇文档。
已知：

image.png

问题：

image.png
pLSA求参数：EM算法
基本思想是：

image.png

image.png

关键：找到?(?)的一个下界，然后maxmize这个下界，逼近求解的似然函数?(?)。

image.png
pLSA求参数：两未知参数矩阵化

image.png
pLSA求参数：两未知参数

image.png
pLSA求参数：E-step

image.png

假定参数已知，计算此时引变量的后验概率。
pLSA求参数：M-step

image.png

带入隐变量的后验概率，最大化样本分布的对数似然函数，求解相应的参数。

原文：https://www.jianshu.com/p/5de4d11bb045

【华为OD机试真题 Python语言】135、采样过滤 | 机试真题+思路参考+代码解析 KFickle 华为od python 华为华为OD机试真题采样过滤
文章目录一、题目题目描述输入输出样例1二、思路参考三、代码参考作者：鲨鱼狼臧个人博客首页：鲨鱼狼臧专栏介绍：2024华为OD机试真题，使用Python进行解答，专栏每篇文章都包括真题，思路参考，代码分析，思路参考超过百字，欢迎大家订阅学习一、题目题目描述在做物理实验时，为了计算物体移动的速率，通过相机等工具周期性的采样物体移动距离。由于工具故障，采样数据存在误差甚至相误的情况。需要通过一个算法过滤
Vue3 + WebSocket 穆罕周 websocket 网络协议网络
Vue3与WebSocket结合能够很好地满足实时通讯的需求。通过合理设计和管理WebSocket连接的生命周期，以及实现必要的重连逻辑和心跳检测机制，可以构建出响应迅速且稳定的实时应用。WebSocketWebSocket允许服务端主动向客户端发送数据，无需客户端发起请求，从而实现了低延迟、高效率的数据交换。它通过HTTP升级协议握手来建立持久性的连接，并使用帧（frame）的形式传输数据。Vu
足不出户在家就能赚钱的六个线上兼职平台分享给大家，电脑手机可操作氧惠佣金真的高
今天给大家分享六个正规靠谱的线上兼职副业平台，现在线上兼职已经成为越来越多人赚钱的新选择。这些平台可以提供了许多不同种类的工作，包括调查、写作、设计、数据输入等等。这些工作都可以在家中完成，同时，平台也为那些想要自由工作和拥有灵活工作时间的人提供了机会。毕竟，任何人都可以选择自己想要的工作，而不是被迫接受固定的工作时间和地点。有的平台也有助于提高人们的技能和专业知识。通过平台的研究学习，人们可以学
新一轮黑产打击：上亿简历大数据公司被警方一锅端大数据的时代
近日，中国的简历大数据公司、曾获李开复旗下创新工场投资的“巧达科技”被警方一锅端，所有员工都被带走。随后，有部分员工被陆续放出。据悉，该公司被查可能缘起在没有获得授权下抓取用户简历。该公司此前曾获得天使轮、A轮和B轮融资，资方包括李开复的创新工场、中信产业基金等。有迹象显示，监管部门正在掀起对大数据灰产和黑产的新一轮打击。传公司被警方一锅端，网站已无法打开。3月23日，有网友在工商信息查询网站“天
修养的最高境界悦读者印刷帝
人的最高修养境界是什么呢？孔子在《论语》里的四句话，“志于道，据于德，依于仁，游于艺”。什么意思？志于道，就是生命有目标；据于德，就是做事有依据有底线有操守；依于仁，就是能理顺待人的态度；游于艺，就是还能靠艺术以及各种精神生活，追求内心的丰盈。合起来就是，一个人有目标、会做事、善待人、有趣味，这才是修养的最高境界。
【源码交付】一站式自助数据分析解决方案（jvs-bi）愤怒的小青春 java
简历咨询听说Java简历上写外卖，头条，商城项目没用，到底真的假的。不写这些还能写什么#简历中的项目经历要美团实习体验～❤️入职流程和体验入职先领工牌，电脑（可提前在网上申请入职电脑版本，技术岗应该是mac）还可以申请显24offer帮选个人情况:本硕末流211科班光大银行总行科技研发中心入职:总包24w最高:涨幅两三年普调一级，涨一级简历咨询听说项目写外卖，头条，商城项目没用。有一说一，真的没有
数据分析全攻略：从基础概念到实战应用的完整指南 SickeyLee 产品经理人工智能大数据信息可视化
数据分析全攻略：从基础概念到实战应用的完整指南数据分析已成为现代商业决策的核心驱动力，但很多人在面对数据时，常常陷入“不知道看什么、怎么分析、如何应用”的困境。本文将系统梳理数据分析的核心知识，从数据的本质到分析流程，从方法工具到实战指标，帮你搭建一套完整的数据分析思维框架，让数据真正为业务服务。一、数据是什么？不止于数字的“信息载体”提到数据，很多人会首先想到数字，但实际上数据的范畴远更广阔。数
数据呈现进阶：漏斗图与雷达图的实战指南 SickeyLee 信息可视化 python 数据分析
数据可视化的魅力在于，不同的图表能解锁不同的业务洞察。当你需要分析用户转化路径，或对比多维度性能差异时，基础的柱状图、折线图往往力不从心。本文将聚焦两种进阶图表——漏斗图和雷达图，详解它们的适用场景、分析逻辑和实战案例，帮你掌握“用图表解决复杂问题”的技能。一、漏斗图：追踪转化路径，定位流失“重灾区”漏斗图以“上宽下窄”的形状，直观展示了用户在固定流程中的转化与流失情况。它就像业务流程的“X光片”
10、区块链技术及其应用吃瓜不吐籽595 解密《质量4.0与数字化转型》区块链比特币去中心化
区块链技术及其应用1.区块链简介区块链技术作为一种分布式账本，近年来受到了广泛关注。它不仅仅是一种技术革新，更是一种思维模式的转变。区块链的核心在于其去中心化、不可篡改和透明的特性，使得它在多个领域都有广泛的应用前景。区块链的基本概念区块链本质上是一个共享的、不可变的数字账本，记录了所有参与者之间的交易。每个区块包含了一系列交易记录，并通过加密算法与前一个区块相连，形成一条链。这种结构确保了数据的
【缺陷检测】基于计算机视觉实现电路板智能检测系统附Matlab代码 matlab科研助手计算机视觉 matlab 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍随着信息技术的飞速发展和电子产品的日益普及，印刷电路板（PCB）作为电子产品的核心组件，其质量直接关系到整个系统的性能和可靠性。传统的电路板检测主要依赖人工目检，存在效率低下
Python Pandas 实践学习笔记（1）
PythonPandas教程Pandas是一个开源的、BSD许可证的Python库，为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。Python与Pandas在学术和商业领域都被广泛应用，包括金融、经济、统计学、分析等领域。在本教程中，我们将学习PythonPandas的各种特性以及如何在实践中使用它们。教程对象本教程适用于那些想要学习Pandas基础知识和各种函数的人。对于从
iOS开发者模式自带弱网测试工具 ejkhjd 随手弱网
弱网测试的思路弱网功能测试：2G/3G/4G、高延时、高丢包无网状态测试：断网功能测试、本地数据存储用户体验关注：响应时间、页面呈现、超时文案、超时重连、安全及大流量风险网络切换测试：WIFI→4G/3G/2G→网多状态切换iOS手机的开发者自带了弱网模拟工具，打开网络链接调节器（NETWORKLINKCONDITIONER）。1、准备环境，设置中调出：开发者选项（如果没有，需要真机联xcode）
防止应用调试分析IP被扫描加固实战教程咕噜企业签名分发-大圣 tcp/ip 网络协议网络
防止应用调试分析IP被扫描加固实战教程主要包括以下几个方面的措施：一、应用层面的加固措施1.确保通信加密：使用HTTPS协议进行所有网络通信，加密传输的数据，防止中间人攻击（MITM）。在Android应用中，可以通过NetworkSecurityConfiguration强制使用HTTPS。创建network_security_config.xml文件，并在AndroidManifest.xml
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
首席数据官CDO：企业数据资产的“首席架构师
一、CDO岗位的重要性解读：从数据爆炸到企业战略核心总的来说，CDO的诞生是技术、商业与监管三重驱动的结果。技术方面：21世纪初，随着互联网、移动设备和物联网（IoT）的普及，企业数据呈现爆炸式增长。传统IT部门难以兼顾基础设施运维与数据价值挖掘，企业开始意识到需要专职角色统筹数据管理，确保数据从“成本负担”变为“战略资产”。商业方面：2010年代，企业加速数字化转型，但数据孤岛、低质量数据等问题
JAVA反序列化深入学习（三）：CommonsCollections1 Neolock 漏洞原理 JAVA反序列化 java 网络安全反序列化
ApacheCommonsCollections是一个扩展了Java标准库里的Collection结构的第三方基础库，它提供了很多强有力的数据结构类型并实现了各种集合工具类。作为Apache开源项目的重要组件，被广泛运用于各种Java应用的开发。目录JAVA环境依赖版本检查依赖配置资源下载前置知识AbstractMapDecoratorTransformedMapdecoratetransform
数据可视化——折线图殇城碎梦. python基础学习 python
#导入所需要的包importmatplotlib.pyplotasplt#设置图表样式plt.style.use('seaborn-v0_8')#增强中文字体配置-添加更多系统字体确保兼容性#增强中文字体配置-优先Windows系统常用字体plt.rcParams["font.family"]=["sans-serif"]plt.rcParams["font.sans-serif"]=["SimH
C++之constexpr和常量表达式掘根 c++开发语言
常量表达式常量表达式(constexpression)是指值不会改变并且在编译过程就能得到计算结果的表达式。显然，字面值属于常量表达式，用常量表达式初始化的const对象也是常量表达式。后面将会提到，C++语言中有几种情况下是要用到常量表达式的。一个对象(或表达式)是不是常量表达式由它的数据类型和初始值共同决定，例如：constintmax_files=20;//max_files是常量表达式co
网络大提速，RDMA，IB，iWrap 数据存储张存储技术从入门到精通 php 服务器开发语言
本章第一节介绍的存储设备方面的创新解决了CPU访问存储设备的性能问题。但在实际的业务当中，数据的传输除了在节点内部的CPU与存储设备间外，节点之间也存在数据传输的需求。本节我们就介绍在网络传输方面是如何提速的。在介绍新的网络技术之前，我们看看传统网络是如何传输数据的，比如我们常见的以太网。当节点0向节点1发送数据时，其整个数据处理的流程如下图所示，可以看到其过程还是比较复杂的。在节点0，应用程序首
数据呈现高阶技巧：散点图与桑基图的独特价值
在数据可视化的工具箱中，有些图表看似小众，却能解决特定场景的分析难题。当你需要探索两个变量的关联，或追踪复杂的流量路径时，散点图和桑基图会成为强大的武器。本文将深入解析这两种图表的适用场景、分析逻辑和实战案例，帮你突破传统图表的局限，挖掘更深入的业务洞察。一、散点图：探索变量关系，发现群体特征散点图的核心价值在于展示大样本中两个变量的分布关系。它不像柱状图那样聚焦分类对比，也不像折线图那样追踪时间
实时数据可视化的“心跳”设计：毫秒级延迟下的动态图表抗闪烁优化方案大美工控设计师信息可视化数据分析数据挖掘
内容摘要在实时数据可视化中，动态图表的抗闪烁优化是一个关键问题。毫秒级的数据更新频率虽然能提供极高的实时性，但也容易导致图表闪烁，严重影响用户体验。这种闪烁不仅让人眼花缭乱，还可能掩盖重要的数据变化。那么，如何在保持毫秒级更新的同时，有效减少图表闪烁呢？本文将深入探讨动态图表抗闪烁的优化方案，从技术原理到实际应用，为你揭示如何打造平滑、流畅的实时数据可视化效果。第一章：实时数据可视化的“心跳”现象
《亿级流量系统架构设计与实战》通用高并发架构设计读场景 Momentary_SixthSense 系统架构 mysql redis 架构
高并发架构设计的要点场景分类读多写少、写多读少，读多写多高并发读场景方案1：数据库读/写分离数据库承受的高并发请求压力，主要来自读请求。我们可以把数据库按照读/写请求分成专门负责处理写请求的数据库（写库）和专门负责处理读请求的数据库（读库），让所有的写请求都落到写库，写库将写请求处理后的最新数据同步到读库，所有的读请求都从读库中读取数据。这就是数据库读/写分离的思路。数据库读/写分离使大量的读请求
贵州微商行业协会，今日成立我是磊少
图片发自App文/磊少2018年6.19是全国所有微商引以为傲的一天，因为这一天，微商立法了。且被纳入电子商务经营者范围。而我想说的是，今天（2018.8月28）是所有贵州微商最扬眉吐气的一天。因为今天，贵州省微商行业协会成立了。伴随着移动互联网的蓬勃发展，大数据的日新月异，尤其是贵州贵阳作为全球大数据研究中心，吸引了众多国际顶尖的互联网技术与核心人才，更是为贵州互联网的发展插上了理想的翅膀，飞翔
Codis的槽位迁移与ConcurrentHashMap扩容的相似之处 Momentary_SixthSense redis java tcp/ip 网络 mysql android 网络协议
Codis的槽位迁移过程与ConcurrentHashMap(CHM)的扩容在核心思想上非常相似，都采用了“渐进式数据迁移”和“请求转发”的机制来保证平滑性和高可用性。它们都避免了传统的一次性全量迁移导致的长时间服务中断。相似之处:分片/分段：Codis:数据被分配到固定的1024个Slot中。迁移的单位是Slot。CHM:数据被分配到多个Segment/Bucket中(Java8之前是Segme
《亿级流量系统架构设计与实战》MySQL高可用架构 Momentary_SixthSense 系统架构 mysql 架构
主从模式一台MySQL服务器作为Master（主节点）,若干MySQL服务器作为Slave（从节点）。在正常情况下，只有Master处理写数据请求，同时Master与Slave通过主从复制技术保持数据一致。当Master发生故障宕机时，某个Slave会被提升为Master继续对外提供服务。主从复制技术：当Master数据发生变更(包括新增、删除、修改等操作)时，Master将数据的变更日志写入二进
MySQL索引总结
索引什么是索引?索引是一种可以快速查询数据的，有序的数据结构索引的优点提升查询效率，减少IO次数在连表查询时，如果被驱动表的连接字段上建了索引，可以加快表连接的速度假设student表是驱动表，score表是被驱动表。查询过程大致是这样的：首先从student表中取出一条记录，然后拿着这条记录中的student_id去score表中查找匹配的记录。如果score表的student_id字段上有索引
rust实现的快捷补全到剪贴板的实用工具余很多之很多 yu的工具 rust 开发语言后端
最近在兼职项目中老是遇到这样的场景：在云服务器之间通过scp命令传输文件，密码太长记不住(客户服务器不方便ssh-copy-id)在服务器上使用mysql命令登录修改数据，数据库密码太长记不住（客户设置的密码，直接改掉哈？）自己电脑使用geminicli需要代理，代理命令太长记不住（简单的放入脚本中不能生效）之前的做法都是记录到本地记事本，然后打开记事本找到对应的密码再复制到剪贴板，但是这样太麻烦
开通腾讯位置复位 xkxnq 小程序
使用wx.chooseLocation能够让用户选择地理位置，但是它返回的数据并没有包含省市区等编码数据，新增收货地址是需要传递省市区编码数据，因此，可以使用腾讯位置服务，将返回的经度、纬度进行地址解析，转换成详细的地址importQQMapWXfrom"../../libs/qqmap-wx-jssdk.js"Page({data:{provinceName:'',//省provinceCode
小程序常用api xkxnq 小程序
1.wx.request-发起网络请求用于向服务器发送HTTP请求，获取数据或提交表单。//示例：GET请求获取数据wx.request({url:'https://api.example.com/data',//替换为实际API地址method:'GET',success:(res)=>{console.log('请求成功',res.data);},fail:(err)=>{console.er
【python+SQLAlchemy】 ryanling河 python 数据库 sql
需要先安装pymysql模块，以便能够在SQLAlchemy中使用MySQL数据库。使用以下命令进行安装：pipinstallSQLAlchemypipinstallpymysql目前SQLAlchemy版本是2.0.0以上了以下是基本写法以便快速学习fromsqlalchemyimportcreate_engine,Column,Integer,Stringfromsqlalchemy.ormi
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

主题模型LDA理解与应用

pLSA建模与求参

你可能感兴趣的:(数据挖据,NLP)