悟乙己

R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)

笔者寄语：在自己学LDA主题模型时候，发现该模型有这么几个未解决的问题：

1、LDA主题数量，多少个才是最优的。

2、作出主题之后，主题-主题，主题与词语之间关联如何衡量。

于是在查阅几位老师做的成果之后，将他们的成果撮合在一起。笔者发现R里面目前有两个包可以做LDA模型，是lda包+topicmodels包，两个包在使用的过程中，需要整理的数据都是不一样的，所以数据处理会是一个不省心的过程。

主题模型的概念，网络上的博客很多都有介绍，算是比较成型的一个方法，笔者推荐以下博客：

1、主题模型-LDA浅析

2、LDA-math-LDA 文本建模

3、主题模型

—————————————————————————————————————————

两种的估计方法——VEM 以及 gibbs

通常逼近这个后验分布的方法可以分为两类：

1. 变异算法（variational algorithms）,这是一种决定论式的方法。变异式算法假设一些参数分布，并根据这些理想中的分布与后验的数据相比较，并从中找到最接近的。由此，将一个估计问题转化为最优化问题。最主要的算法是变异式的期望最大化算法(variational expectation-maximization，VEM)。这个方法是最主要使用的方法。在R软件的tomicmodels包中被重点使用。

2. 基于抽样的算法。抽样的算法，如吉布斯抽样（gibbs sampling）主要是构造一个马尔科夫链，从后验的实证的分布中抽取一些样本，以之估计后验分布。吉布斯抽样的方法在R软件的lda包中广泛使用。

参考：使用R做主题模型：词语筛选和主题数量确定

————————————————————————————————————————————————————————

R包列举——lda和topicmodel

在R语言中，有两个包（package）提供了LDA模型：lda和topicmodels。

lda提供了基于Gibbs采样的经典LDA、MMSB（the mixed-membership stochastic blockmodel )、RTM（Relational Topic Model）和基于VEM（variational expectation-maximization）的sLDA (supervised LDA)、RTM.。

topicmodels基于包tm，提供LDA_VEM、LDA_Gibbs、CTM_VEM（correlated topics model）三种模型。

另外包textir也提供了其他类型的主题模型。

参考：R之文档主题模型

—————————————————————————————————————————————————

R语言第三包：LDA主题模型又有了一个新包：text2vec包

LDA主题模型是基于lda包开发的（Jonathan Chang）,在下次发布的时候该主题模型的引擎就会嵌入到lda包之中，目前text2vec开发模型要比lda快2倍，比topicmodels包快10倍。LSA模型是基于irlab包。

可参考博客：

重磅︱R+NLP：text2vec包简介（GloVe词向量、LDA主题模型、各类距离计算等）

————————————————————————————————————————

R语言第四包：dfrtopics

dfrtopics历史很悠久，但是国内很少有人提及这个packages，这个包是通过调用java里面的MALLET 来进行运作。

github主页：https://github.com/agoldst/dfrtopics

介绍几个函数：

1、top_words

##    topic     word weight
##          
## 1      1      two   3602
## 2      1 evidence   1779
## 3      1 original   1472
## 4      1     fact   1452
## 5      1    lines   1410
## 6      1     case   1350
## 7      1    found   1221
## 8      1     line   1086
## 9      1    given   1029
## 10     1 question    968
## # ... with 390 more rows

可以一键生成相应词的词频表一样的内容。

2、逆天功能

查看主题随着时间的趋势波动情况，topic_series

srs <- topic_series(m, breaks="years")
head(srs)
##   topic    pubdate     weight
## 1     1 1906-01-01 0.05454418
## 2     1 1907-01-01 0.02907561
## 3     1 1908-01-01 0.05912942
## 4     1 1909-01-01 0.06755607
## 5     1 1910-01-01 0.04966935
## 6     1 1911-01-01 0.07378674

还有可视化功能

————————————————————————————————————————

一、最优主题数选取

本部分来自于大音如霜（公众号）团队，用不同主体数量下的复杂度以及对数似然值作为评判指标。

对于未知分布q，复杂度的值越小，说明模型越好，而对数似然值越大越好，刚好相反。基于复杂度和对数似然值判断语料库中的主题数量，就是计算不同主题数量下的复杂度和对数似然值之间的变化。可以将复杂度和对数似然值变化的拐点对应的主题数作为标准主题数，拐点以后复杂度和对数似然值的变化区域平缓。观察拐点和趋势需要对数据可视化，因此，分别做复杂度、对数似然值与主题数目的趋势图。

关于主题数的选择，网络中大多是在topicmodels包之上开发而得：

fold_num = 10
kv_num = c(5, 10*c(1:5, 10))
seed_num = 2003


smp<-function(cross=fold_num,n,seed)
{
  set.seed(seed)
  dd=list()
  aa0=sample(rep(1:cross,ceiling(n/cross))[1:n],n)
  for (i in 1:cross) dd[[i]]=(1:n)[aa0==i]
  return(dd)
}

selectK<-function(dtm,kv=kv_num,SEED=seed_num,cross=fold_num,sp) # change 60 to 15
{
  per_ctm=NULL
  log_ctm=NULL
  for (k in kv)
  {
    per=NULL
    loglik=NULL
    for (i in 1:3)  #only run for 3 replications# 
    {
      cat("R is running for", "topic", k, "fold", i,
          as.character(as.POSIXlt(Sys.time(), "Asia/Shanghai")),"\n")
      te=sp[[i]]
      tr=setdiff(1:nrow(dtm),te)
      
      # VEM = LDA(dtm[tr, ], k = k, control = list(seed = SEED)),
      # VEM_fixed = LDA(dtm[tr,], k = k, control = list(estimate.alpha = FALSE, seed = SEED)),
      
      CTM = CTM(dtm[tr,], k = k, 
                control = list(seed = SEED, var = list(tol = 10^-4), em = list(tol = 10^-3)))  
      
      # Gibbs = LDA(dtm[tr,], k = k, method = "Gibbs",
      # control = list(seed = SEED, burnin = 1000,thin = 100, iter = 1000))
      
      per=c(per,perplexity(CTM,newdata=dtm[te,]))
      loglik=c(loglik,logLik(CTM,newdata=dtm[te,]))
    }
    per_ctm=rbind(per_ctm,per)
    log_ctm=rbind(log_ctm,loglik)
  }
  return(list(perplex=per_ctm,loglik=log_ctm))
}

sp=smp(n=nrow(dtm),seed=seed_num)

system.time((ctmK=selectK(dtm=dtm,kv=kv_num,SEED=seed_num,cross=fold_num,sp=sp)))

## plot the perplexity

m_per=apply(ctmK[[1]],1,mean)
m_log=apply(ctmK[[2]],1,mean)

k=c(kv_num)
df = ctmK[[1]]  # perplexity matrix
matplot(k, df, type = c("b"), xlab = "Number of topics", 
        ylab = "Perplexity", pch=1:5,col = 1, main = '')       
legend("bottomright", legend = paste("fold", 1:5), col=1, pch=1:5)

有趣的是计算时间：

> system.time((ctmK=selectK(dtm=dtm,kv=kv_num,SEED=seed_num,cross=fold_num,sp=sp)))
R is running for topic 5 fold 1 2013-08-31 18:26:32 
R is running for topic 5 fold 2 2013-08-31 18:26:39 
R is running for topic 5 fold 3 2013-08-31 18:26:45 
R is running for topic 10 fold 1 2013-08-31 18:26:50 
R is running for topic 10 fold 2 2013-08-31 18:27:14 
R is running for topic 10 fold 3 2013-08-31 18:27:36 
R is running for topic 20 fold 1 2013-08-31 18:27:57 
R is running for topic 20 fold 2 2013-08-31 18:29:42 
R is running for topic 20 fold 3 2013-08-31 18:32:00 
R is running for topic 30 fold 1 2013-08-31 18:33:42 
R is running for topic 30 fold 2 2013-08-31 18:37:39 
R is running for topic 30 fold 3 2013-08-31 18:45:46 
R is running for topic 40 fold 1 2013-08-31 18:52:52 
R is running for topic 40 fold 2 2013-08-31 18:57:26 
R is running for topic 40 fold 3 2013-08-31 19:00:31 
R is running for topic 50 fold 1 2013-08-31 19:03:47 
R is running for topic 50 fold 2 2013-08-31 19:04:02 
R is running for topic 50 fold 3 2013-08-31 19:04:52 
R is running for topic 100 fold 1 2013-08-31 19:05:42 
R is running for topic 100 fold 2 2013-08-31 19:06:05 
R is running for topic 100 fold 3 2013-08-31 19:06:28 
   user  system elapsed 
2417.801.13 2419.28

看一下最终绘制的perplexity的图，如下可见，在本例当中，当主题数量为30的时候，perplexity最小，模型的最大似然率最高，由此确定主题数量为30。（code参考：使用R做主题模型：词语筛选和主题数量确定）

————————————————————————————————————————

二、LDAvis可视化

该包作者探究了主题-主题，主题-词语之间的关联，主题-主题用多维标度的方式，将两者投影在低维空间，从而进行比较。

主题与词语之间的关联，以前一般是直接用每个词条的词频、TFIDF来衡量主题与词语的关联，作者用了以下的公式（公式整理来自计算传播网）

relevance(term w | topic t) = λ * p(w | t) + (1 - λ) * p(w | t)/p(w);

该主题-词语关联度大概就是综合了，词频+词语的独特性，两种属性，其中这个λ就是调节两种属性哪个重要的参数。在0-1之间，可以由研究者自己调节，当然这个λ究竟多少为好，看具体案例具体分析。

笔者在实践的过程中，因为分词的过程中没有把无效词洗干净，最后主题数会出现很多垃圾词，通过调节这个λ，碰运气可以消除一些垃圾词，笔者还没找出λ最优办法，基本靠蒙...

打开文件需要用特殊的浏览器：Mozilla Firefox（如图）

R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)_第1张图片

————————————————————————————————————————

三、topicmodels+lda+LDAvis包的使用

三个包的使用，所需要的数据结构都是不一样的，一个个来看一下。当然最开始的基本文本处理都是一样的，整理文本，分词，清洗，去停用词，去垃圾词之类的。

特别是去垃圾词这个步骤，对结果影响很大，很多无效词凭借着高出现率，占据每个主题的较高排名。去除无效词的清洗过程，一定要反复执行，清洗。

topicmodels包+lda包都需要将文本数据，转化成list，一个list装着一个文档的词语，笔者跟着大音如霜老师，拿到的46个政府工作报告。于是list存着46个文档，每个list存在每年政府工作报告的所有单词（假设该数据名字为list）（Mark:标记（一）中的第90行代码）。

1、LDA建模——topicmodels包

需要把list成为文档-词频矩阵，用tm包可以实现。此包解释不如lda包，因为里面有很多的东西都没作出比较好的解释。

wordcorpus <- Corpus(VectorSource(list))                            
   # `VectorSource`是将vector转化为Source,`Corpus`函数再将Source对象转化为Corpus对象

library(tm)
dtm <- DocumentTermMatrix(wordcorpus,
                          control = list(
                            wordLengths=c(2, Inf),               # 限制词长
                            bounds = list(global = c(5,Inf)),    # 设置词的最小频率
                            removeNumbers = TRUE,                #removeNumbers设置是否移除数字
                            weighting = weightTf,                #词频率权重，以TF（词频），还可以设置weighTfIdf，weightBin,weightSMART
                            encoding = "UTF-8"))

之后就可以直接建模。

2.LDA建模——lda包

lda包需要两个特殊数据集。一个是全文档的单词数据vocab、一个是每个文档的固定格式的数据documents。

vocab就是所有文档放在一起的一个chr格式文件。

documents是一个list格式，每个文档存放一个list。

上图是documents的数据结构，46个文档中的一个文档，第一行代表某个词的序号，第二行代表某个词出现在这个文档中的词频。

get.terms <- function(x) {
  index <- match(x, vocab)                                          #获取词的ID
  index <- index[!is.na(index)]                                     #去掉没有查到的，也就是去掉了的词
  rbind(as.integer(index - 1), as.integer(rep(1, length(index))))   #生成上图结构
}
documents <- lapply(list, get.terms)

获取的方式就是通过这个函数来实现。之后就可以直接建模。

3、可视化包——LDAvis包

可视化对数据的要求比较高，从以下的代码可以看出，需要主题-词语分布矩阵（phi）、文档—主题分布矩阵(theta)、单词（vocab）、每篇文章单词个数（doc.length）、

词频（term.frequency）。

library(LDAvis)
json <- createJSON(phi = phi, theta = theta, 
                   doc.length = doc.length, vocab = vocab,
                   term.frequency = term.frequency)

以上述的46年政府工作报告为例，全文档有4855个单词，设定30个主题数为最优。

单词，4855个，chr字符型；

词频，4855个，int整数型；
主题-词语分布矩阵（phi）为一个大矩阵，30*4855（主题*词语），Matrix格式，具体计算过程可参考计算传播网；

文档—主题分布矩阵(theta)，46*30（文档*主题），matrix格式，参考计算传播网；

每篇文章单词个数，46个，Int整数型，46个文档46个数字。

之后就可以开始建模了。

————————————————————————————————————————————————————

四、可视化图的其他、拓展

基于lda的拓展包有LDAvis，但是基于topicmodel就非常多。

1、词语网络图

有点知识图谱的雏形，原理就是社交网络的那套内容（可参考：R语言︱SNA-社会关系网络 R语言实现专题（基础篇）（一））

相关参考：东风夜放花千树：对宋词进行主题分析初探

2、单词聚类图

通过LDA获取的词向量矩阵进行层次聚类而得到的，相关可参考：自然语言处理︱简述四大类文本分析中的“词向量”（文本词特征提取）

可参考：东风夜放花千树：对宋词进行主题分析初探

当然还有这个图还有一个比较实际的意义就是：

看LDA主题凝练的效果。与单纯用词频文档聚类而得的热力图对比如下：

参考：微博名人那些事儿

3、主题内容分布图

下图展示了所有文档主题概率分布，颜色越深，表示属于该主题的概率越高。对于训练集，大多数样本都可以归属到一个突出的主题，但也有不少样本归属不明显，对于测试集的预测效果更差。alpha初始值不同的情况下，每次运行结果可能不一样，有时差别可能很大。

参考：R之文档主题模型

4、模型比较图

在topicmodel使用过程中，可能有很多的模型拿进来一起比较。根据主题归属合并词频矩阵， LDA_VEM、 LDA_Gibbs的主题余玄相似度如下图，颜色越浅（偏黄色）相似度越高，LDA_Gibbs主题之间的差异性比LDA_VEM要小。

参考：R之文档主题模型

————————————————————————————————————————

延伸一：论文解读：LDA+RNN，主题模型的深度学习化

论文：TopicRNN: Combine RNN and Topic Model

讨论界面：https://openreview.net/forum?id=rJbbOLcex¬eId=rJbbOLcex#

这篇文章来自微软研究院和哥伦比亚大学的学者共同完成。作者中的Chong Wang以及John Paisley都有长期从事Graphical Models以及Topic Models的研究工作。

这篇文章想要做的事情非常直观，那就是想把在深度学习中非常有效的序列模型——RNN和在文档分析领域非常有效的Topic Models结合起来。这里面的原因就是，RNN比较能够抓住文档的“局部信息”（Local Structure），而Topic Models对于文档的“全局信息”（Global Structure）则更能有效把握。之前也有一些这样的尝试了，不过这篇文章提出了一种简单直观的模型。

首先，每一个文档有一个基于高斯分布的Topic Vector。这一步就和传统的latent Dirichlet allocation (LDA）有了区别，因为传统上这个Vector常常是基于Dirichlet分布。然后对于文档里面的每一个字，都采用了类似RNN的产生构造方法。首先，要产生每个字的一个隐含状态。这个隐含状态的产生，都基于之前的一个字本身，以及前面一个字的隐含状态。产生了隐含状态以后，这篇文章这里做了这么一个假设，那就是有两个类型的语言模型来控制文档里具体字的产生。一种是一个类似Stop Word的语言模型（Language Model），一种是普通的Topical语言模型。那么，在一个字的隐含状态产生以后，作者们有设计了一个基于当前字的隐含状态的伯努利分布，来决定当前这个字，是不是Stop Word。如果这个字是Stop Word，那这个字就从Stop Word的语言模型产生，如果这个词不是Stop Word，那就从Stop Word以及Topical语言模型产生。也就是说，作者们认为，Stop Word的影响是肯定有的，但Topical的影响则不一定有。这就是这个TopicRNN模型的一个简单描述。

文章采用了Variational Auto-encoder的方式来做Inference。这里就不复述了。

值得注意的是，文章本身提出的模型可以适用不同的RNN，比如文章在试验里就展示了普通的RNN、LSTM以及GRU的实现以及他们的结果。总的来说，使用了TopicRNN的模型比单独的RNN或者简单使用LDA的结果作为Feature要好，而且GRU的实现要比其他RNN的类型要好。

目前没有开源代码，关注中！

功率器件-功率晶体管 GTR 清凉简装
GTR结构与特性GiantTransistor：压降小，速度快GTR晶体三极管的三种工作状态截止状态：当加在三极管发射结的电压小于PN结的导通电压，基极电流为零，集电极电流和发射极电流都为零，三极管这时失去了电流放大作用，集电极和发射极之间相当于开关的断开状态，我们称三极管处于截止状态。放大状态：当加在三极管发射结的电压大于PN结的导通电压，并处于某一恰当的值时，三极管的发射结正向偏置，集电结反
AiLab: 探索人工智能的前沿实验室 m0_75126181 人工智能
AiLab:引领人工智能创新的实验平台在人工智能快速发展的今天,如何让更多人了解并参与到AI技术的创新中来,成为一个重要的课题。AiLab(人工智能实验室)应运而生,作为一个面向全球开发者和组织的开放平台,AiLab致力于推动AI技术的普及与创新。AiLab的使命与愿景AiLab的核心使命是帮助开发者和组织快速上手AI技术,体验最新的AI创新成果。通过提供丰富的实验项目、教育资源和研究成果,AiL
Python教师信息管理系统（完整代码） Want595 Python趣味编程算法 python
目录写在前面技术需求完整代码下载代码代码分析一、类的设计与功能1.__init__方法2.add方法3.delete方法4.update方法5.search方法二、程序的主要流程1.输入与输出2.异常处理3.用户操作的逻辑三、代码的优化1.输入数据的验证2.数据存储3.提示信息的增强4.功能扩展四、总结系列文章写在后面写在前面Python语言实现教师信息管理系统的完整代码。技术需求面向对象编程(O
Python学生信息管理系统（完整代码） Want595 Python趣味编程 python 开发语言
目录写在前面技术需求完整代码下载代码代码分析1.类与对象的设计2.学生信息管理功能2.1添加学生信息2.2删除学生信息2.3修改学生信息2.4查询学生信息2.5按学号排序3.用户交互部分3.1菜单系统3.2用户输入处理3.3根据用户选择执行操作4.异常处理与程序健壮性5.总结系列文章写在后面写在前面Python语言实现学生信息管理系统的完整代码。技术需求类和对象：使用了StudentManager
远动传输规约之IEC60870-5-104篇木木0o0欧尼随笔 tcp 网络服务器 internet socket numbers
1)IEC-60870-5-104的规约结构IEC-60870-5-104远动规约使用的参考模型源出于开放式系统互联的ISO-OSI参考模型，但它只采用其中的5层，其结构如图所示：IEC60870-5-104实际上是将IEC60870-5-101与TCP／IP（TransmissionControlProtocol／InternetProtocol）提供的网络传输功能相组合，使得IEC60870-
全面信息收集指南：渗透测试中的关键步骤与技巧 Clockwiseee 信息收集安全 web安全渗透测试漏洞挖掘
文章目录一、什么是信息收集二、信息收集的分类1.服务器相关信息2.网站指纹识别3.Whois及目标背景信息4.子域名及关联资产5.GoogleHacking（搜索引擎利用）6.网站目录和敏感文件7.传输协议与漏洞利用8.第三方依赖与拓展信息三、信息收集的方式1.whois在线查询使用技巧2.在线网站备案查询3.收集子域名3.1网络空间绘测绘测的目的和意义3.2子域名爆破工具四、端口五、查找真实IP
python函数一：函数的概念、函数定义与调用、函数的参数、函数的返回值、说明文档以及函数的嵌套调用 @听风吟 Python python 开发语言数据库大数据
文章目录1.函数介绍1.1函数的概念1.2函数定义与调用1.2函数的参数1.3函数的返回值1.4说明文档2.函数的嵌套调用2.1嵌套调用及执行流程2.2嵌套调用的应用1.函数介绍1.1函数的概念什么是函数？函数:是一个被命名的、独立的、完成特定功能的代码段，其可能给调用它的程序一个返回值。通俗的说函数就是把一段可以实现某种功能的代码封装起来,想要使用这个功能就可以直接调用函数。被命名的：在Pyth
在Python中实现多线程与多进程的任务并发：实用指南清水白石008 python Python题库 python java jvm
在Python中实现多线程与多进程的任务并发：实用指南在现代计算中，任务并发是提高程序性能和响应速度的重要手段。Python提供了多线程和多进程两种方式来实现并发处理。本文将详细介绍如何在Python中实现多线程和多进程的任务并发，包括基本概念、使用场景、示例代码以及最佳实践。一、基本概念1.线程与进程线程：线程是进程中的一个执行单元，多个线程共享同一进程的内存空间。线程的创建和销毁开销较小，适合
Python生态系统中拥有丰富的第三方库 ___Y1 python python
Python生态系统中拥有丰富的第三方库，这些库覆盖了几乎所有领域，包括科学计算、数据分析、机器学习、人工智能、Web开发等。这些库的存在极大地丰富了Python的功能，使其成为一门强大而灵活的编程语言。以下是一些常用的Python第三方库：1.**科学计算与数据处理：**-**NumPy：**提供高性能的多维数组对象，以及相关工具，用于处理这些数组。-**Pandas：**提供数据结构和数据分析
et中计算机的快捷键,ET软件快捷键 Gyrolt et中计算机的快捷键
ET软件快捷键1.点模式：F4：要素点模式F5：任意点模式F5：智能点模式2.显示：F6、V：全屏显示F7、B：单屏全屏显示F8：关闭所有皮尺显示F9：显示分类对话框F10：前画面F11：显示隐藏后的裁片F12：关闭英寸白圈表示X：缩小Z：放大C：视图查询Shift+滚轮：按鼠标指定位置放缩，向上放大向下缩小工具面板切换：Alt+Q：打版工具与放码工具切换Alt+W或Alt+E：专业工具与测量工具
et中计算机的快捷键,ET制版快捷键 weixin_39654465 et中计算机的快捷键
《ET制版快捷键》由会员分享，可在线阅读，更多相关《ET制版快捷键(3页珍藏版)》请在人人文库网上搜索。1、ET制版快捷键单键：智能工具P平行线VK_RETURN点偏移A任意文字Q对称修改VK_SPACE清空系统对话框B波浪线R要素镜像VK_F2保存-0C屏幕移动S形状对接VK_F3打开-0D刀口T水平垂直镜像VK_F4要素点捕捉模式E删除U贴边VK_F5任意点捕捉模式F旋转V全屏VK_F6全屏-
计算机网络之计算机网络体系结构 DKPT #计算机网络算法 c语言笔记学习计算机网络
一、定义与概述计算机网络体系结构是计算机网络及其部件所应该完成功能的精确定义，这些功能由何种硬件或软件完成是遵循这种体系结构的。体系结构是抽象的，实现是具体的，是运行在计算机软件和硬件之上的。二、主流模型目前，计算机网络体系结构的主流模型包括OSI模型和TCP/IP模型。OSI模型：全称：开放系统互联（OpenSystemInterconnection）参考模型。提出机构：国际标准化组织（ISO）
PyQt5之信号与槽阿福不是狗 PyQt5 qt python 开发语言
PyQt5之信号与槽引言信号(Signal)和槽(Slot)是PyQt5中最重要的机制之一，它们用于对象之间的通信。当特定事件发生时，信号会被发射，而槽则是响应这些信号的函数。本文将深入介绍PyQt5中信号与槽的使用方法和高级特性。1.基本概念1.1什么是信号？信号是在特定事件发生时发出的通知。例如：按钮被点击文本框内容改变滑块值变化窗口关闭1.2什么是槽？槽是响应信号的函数或方法。槽可以是：Py
中国BI步入增长大周期，腾讯云ChatBI加速AI+BI融合大数据在线 AI 云静思园人工智能腾讯云大数据 ChatBI AI+BI
过去十年，大数据技术的快速发展，让数据消费前进一大步，数据价值得到一定程度的挖掘与释放，真正开启了“用数”的大时代。但数据分析繁杂的技术栈、复杂的处理过程以及程式化的交互方式，让“数据消费”的门槛始终降不下来，一定程度制约着企业迈向“用好数”的新阶段。如今，随着大模型和生成式AI的迅猛发展，数据消费正迎来一场巨大变革。大模型与数据分析天然的融合属性，使得商业智能（以下简称：BI）迎来全面重塑，BI
使用Gradle的maven-publish插件发布快照 dnc8371 java python maven gradle git
我最近与Gradle一起开始了一个新项目，并决定直接参加–没有Gradle经验，没有关于Groovy的线索，没有教程，只是继续尝试直到可行。在我决定使用孵化式maven-publish插件将快照发布到Sonatype的Maven快照存储库之前，这一切进展得令人惊奇，这确实令人信服。警告：正如我说的那样，我在Groovy和Gradle中都是菜鸟，所以不要相信我所说的话。我为您写下来的一切。最后（但仍
【人工智能】Python常用库-PyTorch常用方法教程 IT古董人工智能机器学习 Python 人工智能 python pytorch 机器学习
PyTorch是一个强大的开源深度学习框架，以其灵活性和动态计算图而广受欢迎。以下是PyTorch的详细教程，涵盖从基础到实际应用的使用方法。1.安装与导入1.1安装PyTorch访问PyTorch官方网站，根据系统、Python版本和CUDA支持选择安装命令。常用安装命令：pipinstalltorchtorchvisiontorchaudio1.2导入库importtorchimporttor
【人工智能】Python常用库-TensorFlow常用方法教程 IT古董人工智能机器学习 Python 人工智能 python tensorflow 机器学习
TensorFlow是一个广泛应用的开源深度学习框架，支持多种机器学习任务，如深度学习、神经网络、强化学习等。以下是TensorFlow的详细教程，涵盖基础使用方法和示例代码。1.安装与导入安装TensorFlow：pipinstalltensorflow导入TensorFlow：importtensorflowastfimportnumpyasnp验证安装：print(tf.__version_
【人工智能】Python常用库-Matplotlib常用方法教程 IT古董人工智能机器学习 Python 人工智能 python matplotlib
Matplotlib是一个强大的Python数据可视化库，用于绘制各种图形。以下是Matplotlib常用方法的详细说明及示例，帮助你快速上手。1.安装和导入Matplotlib安装Matplotlib：pipinstallmatplotlib导入Matplotlib：importmatplotlib.pyplotasplt2.基本绘图绘制简单折线图importmatplotlib.pyplota
oracle+110个常用函数温柔-的-女汉子 Oracle数据库 oracle 数据库
ASCII返回与指定的字符对应的十进制数;SQL>selectascii(A)A,ascii(a)a,ascii(0)zero,ascii()spacefromdual;AAZEROSPACE------------------------------------659748322.CHR给出整数,返回对应的字符;SQL>selectchr(54740)zhao,chr(65)chr65fromd
C语言—函数指针与函数指针数组（含回调函数的使用）。小白也有开发梦 C语言查漏补缺 c语言开发语言
目录：什么是函数指针函数指针的定义与使用函数指针数组的定义与使用回调函数的使用一、什么是函数指针？函数指针，顾名思义是一种指针。例如数组指针，数组指针变量中存储的是数组的地址（即数组首元素的地址），那么函数指针中存储的是不是函数的地址呢？接下来我们一起学习下函数指针的定义：函数指针是指向函数的指针变量。在C语言中，函数名可以被视为函数在内存中的地址，因此可以用指针来存储和传递函数的地址。那么函数指
C++ list 容器用法 Oliver-H C_C++数据结构与算法 c++list windows
C++list容器用法C++标准库提供了丰富的功能，其中是一个非常重要的容器类，用于存储元素集合，支持双向迭代器。是C++标准模板库（STL）中的一个序列容器，它允许在容器的任意位置快速插入和删除元素。与数组或向量（）不同，不需要在创建时指定大小，并且可以在任何位置添加或删除元素，而不需要重新分配内存。如果我们希望在一个序列中添加和删除元素的同时无须移动其他元素，可以使用list。语法以下是容器的
深度剖析分布式数据库：突破数据存储与管理的界限 Darryl大数据数据库大数据分布式
“”"深度剖析分布式数据库：突破数据存储与管理的界限在当今这个数字化浪潮汹涌澎湃、势不可挡的时代背景之下，数据量正以一种令人惊叹的指数级增长态势不断攀升。传统的数据库在面对海量数据的处理以及高并发读写等复杂场景时，逐渐开始显得力不从心、捉襟见肘。而分布式数据库则恰似一场及时雨，在这样的关键时刻顺势而生，为现代企业的数字化转型成功开辟出一片崭新的天地。此时此刻，让我们一同深入地探究分布式数据库这一神
python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取） weixin_39630762 python 命名实体识别
PythonNLTK学习11(命名实体识别和关系抽取)发表于:2017年7月27日阅读:18262除特别注明外，本站所有文章均为小杰Code原创本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。命名实体识别命名实体识别(NER)系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定NE的边界和确定其类型。命名实体识别非常适用于基于分类器类型的方法来处理的任务。NLTK有
cpu和gpu的区别 sdsadwe cpu cpu
cpu和gpu的区别是cpu是电脑的中央处理器，在电脑中起着控制计算机运行的作用；gpu是一个附属型的处理器，主要处理计算机中与图形计算有关的工作，并将数据更好地呈现在显示器中。组装电脑怎么搭配更合适这些点很重要http://www.adiannao.cn/duCPU，在电脑中起着控制计算机运行的作用，是电脑的中央处理器。GPU是一个附属型的处理器，主要处理计算机中与图形计算有关的工作，并将数据更
【小白学AI系列】NLP 核心知识点（六）Softmax函数介绍 Blankspace空白人工智能自然语言处理 transformer
Softmax函数Softmax函数是一种常用的数学函数，广泛应用于机器学习中的分类问题，尤其是在神经网络的输出层。它的主要作用是将一个实数向量“压缩”成一个概率分布，使得所有输出的值在0到1之间，并且总和为1。换句话说，Softmax将模型的原始输出（logits）转化为概率，帮助我们做分类决策。定义与公式假设我们有一个向量z=[z1,z2,…,zn]\mathbf{z}=[z_1,z_2,\d
八股——Java基础（四）八月五面试题 java
目录一、泛型1.Java中的泛型是什么?2.使用泛型的好处是什么?3.Java泛型的原理是什么?什么是类型擦除?4.什么是泛型中的限定通配符和非限定通配符?5.List和List之间有什么区别?6.可以把List传递给一个接受List参数的方法吗？7.Array中可以用泛型吗?8.判断ArrayList与ArrayList是否相等？二、序列化1.Java序列化与反序列化是什么？2.为什么需要序列化
android前台服务 Android西红柿 Android基础 android
关于作者：CSDN内容合伙人、技术专家，从零开始做日活千万级APP。专注于分享各领域原创系列文章，擅长java后端、移动开发、商业变现、人工智能等，希望大家多多支持。未经允许不得转载目录一、导读二、使用2.1添加权限2.2新建一个服务2.3构建通知消息2.4启动与停止服务三、推荐阅读一、导读我们继续总结学习基础知识，温故知新。今天记录下android前台服务（ForegroundService），
CPU与GPU的区别 dingkm666 基础知识储备 cpu与gpu
1.什么是CPU？CPU:中央处理器（英文CentralProcessingUnit）是一台计算机的运算核心和控制核心。CPU、内部存储器和输入/输出设备是电子计算机三大核心部件。其功能主要是解释计算机指令以及处理计算机软件中的数据。2.什么是GPU？GPU:英文全称GraphicProcessingUnit，中文翻译为“图形处理器”，又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作
Facebook 与数字社交的未来走向 ClonBrowser Facebook facebook 人工智能隐私保护社交媒体
随着数字技术的飞速发展，社交平台的角色和形式也在不断演变。作为全球最大社交平台之一，Facebook（现Meta）在推动数字社交的进程中扮演了至关重要的角色。然而，随着互联网的去中心化趋势和新技术的崛起，Facebook在未来的数字社交中将面临怎样的挑战与机遇？本文将探讨Facebook在数字社交未来中的走向，着重分析其可能的变革方向。从Web2到Web3：社交的去中心化之路Facebook目前依
NLTK命名实体识别（NER） Mr数据杨 Python 自然语言技术 NLTK 自然语言处理 1024程序员节
命名实体识别（NamedEntityRecognition,NER）是自然语言处理（NLP）中的一项核心技术，旨在从文本中识别出具有特定意义的实体，如人名、地名、组织名等。通过对文本的自动化处理，NER能够帮助计算机理解和组织大量的非结构化数据，为信息抽取、搜索引擎优化、数据分析等领域提供强有力的技术支持。NLTK（NaturalLanguageToolkit）是一个广泛使用的Python库，提供
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)

2、LDA-math-LDA 文本建模

3、主题模型

R语言第三包：LDA主题模型又有了一个新包：text2vec包

重磅︱R+NLP：text2vec包简介（GloVe词向量、LDA主题模型、各类距离计算等）

R语言第四包：dfrtopics

一、最优主题数选取

二、LDAvis可视化

三、topicmodels+lda+LDAvis包的使用

1、LDA建模——topicmodels包

2.LDA建模——lda包

3、可视化包——LDAvis包

四、可视化图的其他、拓展

1、词语网络图

2、单词聚类图

3、主题内容分布图

4、模型比较图

延伸一：论文解读：LDA+RNN，主题模型的深度学习化

你可能感兴趣的:(NLP︱R+python,R︱可视化,R语言与自然语言处理)