u013524655

概率语言模型及其变形系列-LDA及Gibbs Sampling

转载自：http://blog.csdn.net/yangliuy/article/details/8302599

本系列博文介绍常见概率语言模型及其变形模型，主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下

第一篇：PLSA及EM算法

第二篇：LDA及Gibbs Samping

第三篇：LDA变形模型-Twitter LDA，TimeUserLDA，ATM，Labeled-LDA，MaxEnt-LDA等

第四篇：基于变形LDA的paper分类总结

第五篇：LDA Gibbs Sampling的JAVA实现

第二篇 LDA及Gibbs Sampling

[本文PDF版本下载地址 LDA及Gibbs Sampling-yangliuy]

1 LDA概要

LDA是由Blei,Ng, Jordan 2002年发表于JMLR的概率语言模型，应用到文本建模范畴，就是对文本进行“隐性语义分析”（LSA），目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构，这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模，这使得搜索引擎系统得到的搜索结果与用户的query在语义层次上match，而不是仅仅只是在词汇层次上出现交集。

2 概率基础

2.1 随机生成过程及共轭分布

要理解LDA首先要理解随机生成过程。用随机生成过程的观点来看，文本是一系列服从一定概率分布的词项的样本集合。最常用的分布就是Multinomial分布，即多项分布，这个分布是二项分布拓展到K维的情况，比如投掷骰子实验，N次实验结果服从K=6的多项分布。相应的，二项分布的先验Beta分布也拓展到K维，称为Dirichlet分布。在概率语言模型中，通常为Multinomial分布选取的先验分布是Dirichlet分布，因为它们是共轭分布，可以带来计算上的方便性。什么是共轭分布呢？在文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计一文中我们可以看到，当我们为二项分布的参数p选取的先验分布是Beta分布时，以p为参数的二项分布用贝叶斯估计得到的后验概率仍然服从Beta分布，由此我们说二项分布和Beta分布是共轭分布。这就是共轭分布要满足的性质。在LDA中，每个文档中词的Topic分布服从Multinomial分布，其先验选取共轭先验即Dirichlet分布；每个Topic下词的分布服从Multinomial分布，其先验也同样选取共轭先验即Dirichlet分布。

2.2 Multinomial分布和 Dirichlet分布

上面从二项分布和Beta分布出发引出了Multinomial分布和Dirichlet分布。这两个分布在概率语言模型中很常用，让我们深入理解这两个分布。Multinomial分布的分布律如下

多项分布来自N次独立重复实验，每次实验结果可能有K种，式子中 $\vec{n}$ 为实验结果向量，N为实验次数， $\vec{p}$ 为出现每种实验结果的概率组成的向量，这个公式给出了出现所有实验结果的概率计算方法。当K=2时就是二项分布，K=6时就是投掷骰子实验。很好理解，前面的系数其实是枚举实验结果的不同出现顺序，即

$\frac{N!}{\prod_{i=1}^K n^{(k)}!}$

后面表示第K种实验结果出现了 $n^{(k)}$ 次，所以是概率的相应次幂再求乘积。但是如果我们不考虑文本中词出现的顺序性，这个系数就是1。本文后面的部分可以看出这一点。显然有 $\vec{p}$ 各维之和为1，所有 $n^{(k)}$ 之和为N。

Dirichlet分布可以看做是“分布之上的分布”，从Dirichlet分布上Draw出来的每个样本就是多项分布的参数向量 $\vec{p}$ 。其分布律为

$\vec{\alpha}$ 为Dirichlet分布的参数，在概率语言模型中通常会根据经验给定，由于是参数向量 $\vec{p}$ 服从分布的参数，因此称为“hyperparamer”。 $\Delta(\vec{\alpha})$ 是Dirichlet delta函数，可以看做是Beta函数拓展到K维的情况，但是在有的文献中也直接写成 $B(\vec{\alpha})$ 。根据Dirichlet分布在 $\vec{p}$ 上的积分为1（概率的基本性质），我们可以得到一个重要的公式

$\int_{\vec{p}}\prod_{k=1}^Kp_k^{\alpha_k - 1}d\vec{p} = \Delta(\vec{\alpha})$

这个公式在后面LDA的参数Inference中经常使用。下图给出了一个Dirichlet分布的实例

在许多应用场合，我们使用对称Dirichlet分布，其参数是两个标量：维数K和参数向量各维均值 $\alpha = \frac{\sum\alpha_k}{K}$ . 其分布律如下

关于Dirichlet分布，维基百科上有一张很有意思的图如下

这个图将Dirichlet分布的概率密度函数取对数

并且使用对称Dirichlet分布，取K=3，也就是有两个独立参数，分别对应图中的两个坐标轴，第三个参数始终满足且，图中反映的是从0.3变化到2.0的概率对数值的变化情况。

3 unigram model

我们先介绍比较简单的unigram model。其概率图模型图示如下

关于概率图模型尤其是贝叶斯网络的介绍可以参见 Stanford概率图模型（Probabilistic Graphical Model）— 第一讲贝叶斯网络基础一文。简单的说，贝叶斯网络是一个有向无环图，图中的结点是随机变量，图中的有向边代表了随机变量的条件依赖关系。unigram model假设文本中的词服从Multinomial分布，而Multinomial分布的先验分布为Dirichlet分布。图中双线圆圈表示我们在文本中观察到的第n个词， $n\in [1,N]$ 表示文本中一共有N个词。加上方框表示重复，就是说一共有N个这样的随机变量。 $\vec{p}$ 和 $\vec{\alpha}$ 是隐含未知变量，分别是词服从的Multinomial分布的参数和该Multinomial分布的先验Dirichlet分布的参数。一般 $\vec{\alpha}$ 由经验事先给定， $\vec{p}$ 由观察到的文本中出现的词学习得到，表示文本中出现每个词的概率。

4 LDA

理解了unigram model之后，我们来看LDA。我们可以假想有一位大作家，比如莫言，他现在要写m篇文章，一共涉及了K个Topic，每个Topic下的词分布为一个从参数为 $\vec{\beta}$ 的Dirichlet先验分布中sample出来的Multinomial分布（注意词典由term构成，每篇文章由word构成，前者不能重复，后者可以重复）。对于每篇文章，他首先会从一个泊松分布中sample一个值作为文章长度，再从一个参数为 $\vec{\alpha}$ 的Dirichlet先验分布中sample出一个Multinomial分布作为该文章里面出现每个Topic下词的概率；当他想写某篇文章中的第n个词的时候，首先从该文章中出现每个Topic的Multinomial分布中sample一个Topic，然后再在这个Topic对应的词的Multinomial分布中sample一个词作为他要写的词。不断重复这个随机生成过程，直到他把m篇文章全部写完。这就是LDA的一个形象通俗的解释。用数学的语言描述就是如下过程

转化成概率图模型表示就是

图中K为主题个数，M为文档总数，是第m个文档的单词总数。 $\vec{\beta}$ 是每个Topic下词的多项分布的Dirichlet先验参数， $\vec{\alpha}$ 是每个文档下Topic的多项分布的Dirichlet先验参数。 $z_{m,n}$ 是第m个文档中第n个词的主题， $w_{m,n}$ 是m个文档中的第n个词。剩下来的两个隐含变量 $\vec{\theta}_m$ 和 $\vec{\phi}_k$ 分别表示第m个文档下的Topic分布和第k个Topic下词的分布，前者是k维(k为Topic总数)向量，后者是v维向量（v为词典中term总数）。

给定一个文档集合， $w_{m,n}$ 是可以观察到的已知变量， $\vec{\alpha}$ 和 $\vec{\beta}$ 是根据经验给定的先验参数，其他的变量 $z_{m,n}$ ， $\vec{\theta}_m$ 和 $\vec{\phi}_k$ 都是未知的隐含变量，也是我们需要根据观察到的变量来学习估计的。根据LDA的图模型，我们可以写出所有变量的联合分布

那么一个词 $w_{m,n}$ 初始化为一个term t的概率是

也就是每个文档中出现topic k的概率乘以topic k下出现term t的概率，然后枚举所有topic求和得到。整个文档集合的似然函数就是

5 用Gibbs Sampling学习LDA

5.1 Gibbs Sampling的流程

从第4部分的分析我们知道，LDA中的变量 $z_{m,n}$ ， $\vec{\theta}_m$ 和 $\vec{\phi}_k$ 都是未知的隐含变量，也是我们需要根据观察到的文档集合中的词来学习估计的，那么如何来学习估计呢？这就是概率图模型的Inference问题。主要的算法分为exact inference和approximate inference两类。尽管LDA是最简单的Topic Model，但是其用exact inference还是很困难的，一般我们采用approximate inference算法来学习LDA中的隐含变量。比如LDA原始论文Blei02中使用的mean-field variational expectation maximisation 算法和Griffiths02中使用的Gibbs Sampling，其中Gibbs Sampling 更为简单易懂。

Gibbs Sampling 是Markov-Chain Monte Carlo算法的一个特例。这个算法的运行方式是每次选取概率向量的一个维度，给定其他维度的变量值Sample当前维度的值。不断迭代，直到收敛输出待估计的参数。可以图示如下

初始时随机给文本中的每个单词分配主题 $z^{(0)}$ ,然后统计每个主题z下出现term t的数量以及每个文档m下出现主题z中的词的数量，每一轮计算，即排除当前词的主题分配，根据其他所有词的主题分配估计当前词分配各个主题的概率。当得到当前词属于所有主题z的概率分布后，根据这个概率分布为该词sample一个新的主题 $z^{(1)}$ 。然后用同样的方法不断更新下一个词的主题，直到发现每个文档下Topic分布 $\vec{\theta}_m$ 和每个Topic下词的分布 $\vec{\phi}_k$ 收敛，算法停止，输出待估计的参数 $\vec{\theta}_m$ 和 $\vec{\phi}_k$ ，最终每个单词的主题 $z_{m,n}$ 也同时得出。实际应用中会设置最大迭代次数。每一次计算的公式称为Gibbs updating rule.下面我们来推导LDA的联合分布和Gibbs updating rule。

5.2 LDA的联合分布

由LDA的概率图模型，我们可以把LDA的联合分布写成

第一项和第二项因子分别可以写成

可以发现两个因子的展开形式很相似，第一项因子是给定主题Sample词的过程，可以拆分成从Dirichlet先验中SampleTopic Z下词的分布 $\vec{\phi}_z$ 和从参数为 $\vec{\phi}_z$ 的多元分布中Sample词这两个步骤，因此是Dirichlet分布和Multinomial分布的概率密度函数相乘，然后在 $\vec{\phi}_z$ 上积分。注意这里用到的多元分布没有考虑词的顺序性，因此没有前面的系数项。 $n_z^{(t)}$ 表示term t被观察到分配topic z的次数， $n_m^{(k)}$ 表示topic k分配给文档m中的word的次数.此为这里面还用到了2.2部分中导出的一个公式

$\int_{\vec{p}}\prod_{k=1}^Kp_k^{\alpha_k - 1}d\vec{p} = \Delta(\vec{\alpha})$

因此这些积分都可以转化成Dirichlet delta函数，并不需要算积分。第二个因子是给定文档，sample当前词的主题的过程。由此LDA的联合分布就可以转化成全部由Dirichlet delta函数组成的表达式

这个式子在后面推导Gibbs updating rule时需要使用。

5.3 Gibbs updating rule

得到LDA的联合分布后，我们就可以推导Gibbs updating rule，即排除当前词的主题分配，根据其他词的主题分配和观察到的单词来计算当前词主题的概率公式

里面用到了伽马函数的性质

同时需要注意到

这一项与当前词的主题分配无关，因为无论分配那个主题，对所有k求和的结果都是一样的，区别只在于拿掉的是哪个主题下的一个词。因此可以当成常量，最后我们只需要得到一个成正比的计算式来作为Gibbs updating rule即可。

5.4 Gibbs sampling algorithm

当Gibbs sampling 收敛后，我们需要根据最后文档集中所有单词的主题分配来计算 $\vec{\theta}_m$ 和 $\vec{\phi}_k$ ，作为我们估计出来的概率图模型中的隐含变量。每个文档上Topic的后验分布和每个Topic下的term后验分布如下

可以看出这两个后验分布和对应的先验分布一样，仍然为Dirichlet分布，这也是共轭分布的性质决定的。

使用Dirichlet分布的期望计算公式

我们可以得到两个Multinomial分布的参数 $\vec{\theta}_m$ 和 $\vec{\phi}_k$ 的计算公式如下

综上所述，用Gibbs Sampling 学习LDA参数的算法伪代码如下

关于这个算法的代码实现可以参见

* yangliuy's LDAGibbsSampling https://github.com/yangliuy/LDAGibbsSampling

* Gregor Heinrich's LDA-J
* Yee Whye Teh's Gibbs LDA Matlab codes
* Mark Steyvers and Tom Griffiths's topic modeling matlab toolbox
* GibbsLDA++

6 参考文献及推荐Notes

本文部分公式及图片来自 Parameter estimation for text analysis，感谢Gregor Heinrich详实细致的Technical report。看过的一些关于LDA和Gibbs Sampling 的Notes，这个是最准确细致的，内容最为全面系统。下面几个Notes对Topic Model感兴趣的朋友也推荐看一看。

[1] Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.
[2] Gregor Heinrich. Parameter estimation for text analysis. Technical report, 2004.
[3] Wang Yi. Distributed Gibbs Sampling of Latent Topic Models: The Gritty Details Technical report, 2005.

[4] Wayne Xin Zhao, Note for pLSA and LDA, Technical report, 2011.

[5] Freddy Chong Tat Chua. Dimensionality reduction and clustering of text documents.Technical report, 2009.

[6] Wikipedia, Dirichlet distribution , http://en.wikipedia.org/wiki/Dirichlet_distribution

【数据交易】全国数据交易所的发展现状暴躁小师兄数据学院数据治理区块链
全国数据交易所概述数据交易所是专门为数据资产（如数据集、数据产品）提供交易、流通和服务的平台，类似于传统金融交易所，但针对数据要素市场。在中国，随着数据被列为生产要素，国家积极推动数据交易所建设，以促进数据资源的高效配置和市场化流通。以下是中国主要的数据交易所及其现状。主要数据交易所列表上海数据交易所成立时间：2021年11月定位：中国首个国家级数据交易所，由上海市政府主导，旨在打造全球数据要素配
TDengine 技术参数配置大全 TDengine （老段） TDengine 产品设计 tdengine 涛思数据大数据数据库物联网时序数据库
1.背景TDengine的taos.cfg中配置项及使用SQL命令alter修改的系统变量之间的关系如何，哪些是持久存储项，哪些设置是临时项，这章将详细说明。本文是技术参考资料，请收藏。2.定义1.全局配置参数全局配置参数：作用于集群内所有dnode且在集群内必须保持一致的变量，也称为全局变量、系统变量或全局参数。例如:timezone/charset/countAlwaysReturnValue
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
微信小程序 progress 进度条内部圆角及内部条渐变色 Bonnie(大宝) 技术小程序
微信小程序表格微信小程序progress进度条内部圆角及渐变色html:css:.wx-progress-inner-bar{border-radius:8rpx!important;background:linear-gradient(toright,rgb(71,187,254,1),rgba(254,86,77,1))!important;}
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
深入剖析Nginx架构及其不同使用场景下的配置 LiRuiJie Nginx Nginx 系统架构反向代理
一、Nginx整体架构概览1.Nginx简介Nginx是采用C语言编写的高性能Web服务器、反向代理服务器及邮件代理服务器，特点是：高并发、高可用、低内存占用、模块化设计。架构核心理念：Master-Worker多进程模型事件驱动（Event-Driven）+异步非阻塞高度模块化设计2.进程模型Nginx的进程模型非常轻量，通常包含：1.Master进程启动时由shell进程fork出来主要负责：
小程序学习笔记：自定义组件创建、引用、应用场景及与页面的区别 you4580 小程序
在微信小程序开发中，自定义组件是一项极为实用的功能，它能有效提高代码的复用性，降低开发成本，提升开发效率。本文将深入剖析微信小程序自定义组件的各个关键方面，包括创建、引用、应用场景以及与页面的区别，并附上详细代码示例，帮助开发者全面掌握这一技术。一、自定义组件的创建创建自定义组件主要分为以下三个步骤：创建components文件夹：在项目根目录下，通过鼠标右键新建一个名为“components”的
linux日志文件详解 MagnumOvO 云计算 linux 5G linux 运维 centos
目录一、日志文件的分类二、日志文件位置三、常见日志文件1.分析日志文件2.内核及系统日志四、日志消息等级五、日志文件分析1.用户日志2.程序日志六、日志分析注意事项一、日志文件的分类日志文件是用于记录Linux系统中各种运行消息的文件,相当于Linux主机的“日记”。不同的日志文件记载了不同类型的信息,如Linux内核消息、用户登录事件、程序错误等·日志文件对于诊断和解决系统中的问题很有帮助,因为
C# 中 EventWaitHandle 实现多进程状态同步的深度解析 Leon@Lee c#开发语言
在现代软件开发中，多进程应用场景日益普遍。无论是分布式系统、微服务架构，还是传统的客户端-服务器模型，进程间的状态同步都是一个关键挑战。C#提供了多种同步原语，其中EventWaitHandle是一个强大的工具，特别适合处理跨进程的同步需求。本文将深入探讨EventWaitHandle的工作原理、使用场景及最佳实践。一、EventWaitHandle基础原理EventWaitHandle是.NET
64、Delphi系统架构与线程模型详解 g8f9d0s1a2 深入解析Delphi 6开发者指南 Delphi 系统架构线程模型
Delphi系统架构与线程模型详解1系统架构概述Delphi作为一款强大的集成开发环境（IDE），其系统架构设计不仅体现了高效性，还融合了灵活性和可扩展性。理解Delphi的系统架构是掌握其核心功能和开发技巧的关键。本文将详细介绍Delphi的系统架构及其各组成部分的交互方式，帮助开发者更好地利用这款工具。1.1Delphi系统架构的基本组成部分Delphi的系统架构主要包括以下几个关键部分：编译
小程序领域H5的CSS布局优化小程序开发2020 CS 小程序 css 前端 ai
小程序领域H5的CSS布局优化：从“乱屏”到“丝滑”的实战指南关键词：小程序布局优化、CSSFlex、CSSGrid、rpx适配、重排重绘优化摘要：本文从开发者最头疼的“小程序页面布局错乱”问题出发，结合小程序特有的运行环境（如rpx单位、组件限制），用“装修房子”的生活化比喻拆解CSS布局核心概念，系统讲解Flex/Grid布局的实战技巧、多端适配策略及性能优化方法。通过真实代码案例（含wxml
【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
RK系列（RK3568） GPIO按键驱动和Android key新值添加 hmbbPdx_ RK驱动开发 Rk开发(RK3568)android 驱动开发 linux
平台：Android12SOC：RK3568kernel:Linux-4.19首先按键驱动那块不用我们自己写，内核本身有支持可以查看kernel-4.19-driver/input/keyboard/gpio_keys.c我们先描述好设备树添加GPIO4-A0的按键gpio-keys{compatible="gpio-keys";#address-cells=;#size-cells=;autor
css优化之提高代码拓展性小小不吃香菜 css 前端 css3 代码规范
css优化系列文章css优化系列：通过“使用CSS变量”和“整合重复样式”来优化代码的可维护性。文章目录css优化系列文章使用css变量整合重复样式总结使用css变量将重复使用的颜色、间距值等等定义为变量，提高代码的可维护性。对于使用函数获取值的情况，也可以降低重复计算的次数。例如：/**跟节点里设置变量**/.chat-window{--cw-z-index:1000;--cw-bg-gradi
ARMv7内核架构手册及全部ARM内核资料下载杨焕月Great
ARMv7内核架构手册及全部ARM内核资料下载去发现同类优质开源项目:https://gitcode.com/资源介绍本仓库提供了一个重要的资源文件下载，标题为“Armv7内核架构手册+全部arm内核资料”。该资源文件包含了ARMv7内核架构的详细手册以及其他相关的配套资料，非常适合想要深入了解和学习ARM内核的朋友。资源内容ARMArchitectureReferenceManualARMv7-
C++智能指针编程实例 lixzest c++开发语言
智能指针是C++11引入的重要特性，用于自动管理动态分配的内存，防止内存泄漏。下面介绍几种高级智能指针编程实例。1.共享所有权模式(shared_ptr)循环引用问题及解决方案#include#includeclassB;//前向声明classA{public:std::shared_ptrb_ptr;~A(){std::couta_ptr;//这里会导致循环引用~B(){std::cout();
redis知识系列-解析配置文件redis.conf
一.配置文件路径redis的默认配置文件，我们一般不做改动，而是复制一份到自己目录下，以后修改此目录下的redis.conf配置，在/usr/local/bin目录下启动redis-server时，带上参数为redis.conf的绝对路径。例如redis-server/myredis/redis.conf二.redis.conf的参数说明1.Redis默认不是以守护进程的方式运行，可以通过该配置项
rabbitmq安装虚拟ip_步骤4：配置IPv6地址 weixin_39755625 rabbitmq安装虚拟ip
自动配置IPv6地址ecs-util-ipv6能为已分配IPv6地址的ECS实例一键配置IPv6地址，或者为没有分配IPv6地址的ECS实例一键清理IPv6配置。ecs-util-ipv6工具下载地址如下所示。系列发行版下载地址RHELCentOS5/6/7/8RedHat5/6/7DebianUbuntu14/16Debian/8/9SLESSUSE11/12OpenSUSE42CoreOSCo
redis的scan使用详解，结合spring使用详解黑皮爱学习 redis自学笔记 redis spring 数据库
Redis的SCAN命令是一种非阻塞的迭代器，用于逐步遍历数据库中的键，特别适合处理大数据库。下面详细介绍其使用方法及在Spring框架中的集成方式。SCAN命令基础SCAN命令的基本语法：SCANcursor[MATCHpattern][COUNTcount]cursor：迭代游标，初始为0，每次迭代返回新的游标值。MATCHpattern：可选，用于过滤键的模式（如user:*）。COUNTc
Shell脚本编程：Linux自动化的瑞士军刀半夜偷你家裤衩子 Linux linux 自动化 chrome
导读：厌倦了重复执行相同的命令序列？想要让你的Linux系统自动完成繁琐任务？Shell脚本就是你的不二选择！本文将带你从零开始掌握Shell脚本编程，从基本语法到高级技巧，让你的工作效率提升10倍。无论你是Linux新手还是经验丰富的管理员，这篇文章都能帮你解锁Shell脚本的强大潜力！本文是《从入门到精通渐进式学习Linux》系列的第12章。通过这篇文章，你将学会如何用Shell脚本实现系统管
软件架构师论文_论基于架构(ABSD)的软件设计方法及应用 June_Xiao 软件架构师架构
2022年的论文题目是基于CBSD的软件设计方法及应用，本人写了基于ABSD的软件设计方法及应用，论文离题拿了3x分，悲催，这是我的第一次考架构师，是最后一次手写版考试，是最有可能通过的一次。下面是我的论文。论基于架构的软件设计方法及应用摘要2020年5月，我司中标了某省联网收费的省站直传项目，该项目将建设一套全省收费站与省中心相互通信传输数据的平台，主要分为上传、下发、监控三个子系统。，包括收费
论基于架构的软件设计方法及应用(ABSD) laomocoder 架构
摘要2020年6月,我司自主研发了在线多媒体设计行业的业务中台系统。系统以支撑各前台业务满足文件采购入库、运营一键分发、用户在线设计、文件存储等需求提供可重复使用能力，形成一次建设多次使用。系统以用户在线上传/编辑素材与模板完成设计工作为主要核心，按领域分为内容供应、内容管理、内容分发、用户管理、商业化、文件管理等模块,支持B/C端系统快速接入,在项目中我担任系统架构师角色，主要负责内容为架构设计
Python各版本发布时间和重要特性 mosquito_lover1 python
1.Python1.x:-Python1.0(1994年1月):第一个正式版本。-Python1.6(2000年9月):最后一个1.x版本。2.Python2.x:-Python2.0(2000年10月):引入了列表推导、垃圾回收等特性。-Python2.7(2010年7月):Python2.x系列的最后一个版本，长期支持至2020年1月1日。3.Python3.x:-Python3.0(2008
Android-Layout Inspector使用手册每次的天空 android 学习
LayoutInspectorAndroidLayoutInspector是AndroidStudio中用于调试应用布局的工具启动方法：通过下载LayoutInspector插件，在“View-ToolWindows-LayoutInspector”或“Tools-LayoutInspector”启动。主要界面区域：ComponentTree：显示布局中视图的层次结构，帮助直观查看应用中的元素及其
mysql之jdbc连接数据库和sql注入的问题
一，概述可能是自己的记忆力太差了，经常忘记一些很重要的知识点，记得个大概，等要用的时候就去找，结果还找不到。干脆，记博客里，怎么都找的到。这篇博客主要就是关于Jdbc(javadatabaseconnectivity)和MySql的，记录如何连接数据库及插入数据等等。二，工具及准备工作MyEclipse10,mysql驱动jar包（我用的是这个版本mysql-connector-java-5.0.
Seo新手入门，网络编辑如何写好文章（写文章技巧）魔仙堡捏泥巴 SEO
Seo新手入门，网络编辑如何写好文章（写文章技巧）概述刚入SEO门的小白在进行网站编辑的时候一定很头痛，SEO的标题怎么写？文章关键词怎么部署？注意要点都有什么？这一系列的问题，今天就让小编我来为您解答吧，文章技巧得这样写！SEO标题的重要性SEO标题就是网页的标题title在浏览器最左边最顶部显示的地方，他也是被搜索引擎当做是确定当前网页主体最主要的参数之一。为了吸引蜘蛛爬行，你的网站的标题是需
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘tqdm’问题 lyzybbs 全栈Bug解决方案专栏 python pycharm pip 开发语言 ide django pandas
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘tqdm’问题摘要本文深入剖析在PyCharm控制台中使用pipinstall时，遇到ModuleNotFoundError:Nomodulenamed‘tqdm’异常的产生原因，并提供多种针对性的解决方案。除了常见的包安装、网络源切换等方法外，
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘wordcloud’问题 lyzybbs 全栈Bug解决方案专栏 python pycharm pip redis 开发语言 ide scipy
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘wordcloud’问题摘要在使用PyCharm控制台或命令行通过pipinstall安装第三方包时，常常会遇到类似ModuleNotFoundError:Nomodulenamed‘wordcloud’的报错。本文将从真实开发场景出发，结合常见
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘jieba’问题 lyzybbs 全栈Bug解决方案专栏 python pycharm pip AI编程人工智能 ide 开发语言
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘jieba’问题摘要在日常的Python开发中，ModuleNotFoundError:Nomodulenamed'jieba'是一个常见的错误提示。尤其是在使用PyCharm开发环境并在控制台中使用pipinstall命令安装第三方包时，更容易
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

概率语言模型及其变形系列-LDA及Gibbs Sampling

你可能感兴趣的:(概率语言模型及其变形系列-LDA及Gibbs Sampling)