G皮T

【自然语言处理】不同策略的主题建模方法比较

不同策略的主题建模方法比较

本文将介绍利用 LSA、pLSA、LDA、NMF、BERTopic、Top2Vec 这六种策略进行主题建模之间的比较。

1.简介

在自然语言处理（NLP）中，主题建模一词包含了一系列的统计和深度学习技术，用于寻找文档集中的隐藏语义结构。

主题建模是一个无监督的机器学习问题。无监督的意思是，算法在没有标签的情况下学习模式。

我们作为人类产生和交换的大部分信息都具有文本性质。文件、对话、电话、信息、电子邮件、笔记、社交媒体帖子。在缺乏（或有限的）先验知识的情况下，从这些来源中自动提取价值的能力是数据科学中一个永恒的、无处不在的问题。

在这篇文章中，我们将讨论热门的主题建模方法，从传统的算法到最新的基于深度学习的技术。我们旨在分享对这些模型的通俗介绍，并比较它们在实际应用中的优势和劣势。

2.主题建模策略

2.1 简介

潜在语义分析（LSA，Latent Semantic Analysis） $\text{（Deerwester¹ et al. 1990）}$ 、概率潜在语义分析（pLSA，probabilistic Latent Semantic Analysis） $\text{（Hofmann²，1999）}$ 、隐含狄利克雷分布（LDA，Latent Dirichlet Allocation） $\text{（Blei³ 等人，2003）}$ 和非负矩阵分解（NMF，Non-Negative Matrix Factorization） $\text{（ Lee³ 等人，1999）}$ 是传统且应用广泛的主题建模方法。

它们将文档表示为一个词包，并假定每个文档是潜在话题的混合物。

它们都是从将文本语料库转换为 文档-词 矩阵（Document-Term Matrix，DTM）开始的，DTM 是一个表格，每一行是一个文档，每一列是一个不同的词。

每个单元格 $< i, j >$ 包含一个计数，即单词 $j$ 在文档 $i$ 中出现的次数。一个常见的替代单词计数的方法是 $TF - I D F$ 得分。它同时考虑了术语频率（TF）和反文档频率（IDF），以惩罚那些在语料库中经常出现的术语的权重，并增加更多稀有术语的权重。

潜在主题搜索的基本原则是将 DTM 分解为 文档-主题 和 主题-术语 矩阵。下面的方法在如何定义和达到这一目标方面有所不同。

2.2 潜在语义分析（Latent Semantic Analysis，LSA）

为了达到分解 DTM 和提取主题的目的，潜在语义分析（LSA）采用了一种叫做奇异值分解（SVD，Singular Value Decomposition）的矩阵分解技术。

SVD 将 DTM 分解为三个不同矩阵的乘积。 $DTM = U×Σ×V^t$ ，其中

$U$ 和 $V$ 的大小分别为 $m \times m$ 和 $n \times n$ ，即 $m$ 为语料库中的文件数， $n$ 为词数。
$Σ$ 为 $m \times n$ ，只有其主对角线被填充：它包含 DTM 的奇异值。

LSA 选择 DTM 的第一个最大的奇异值，其中 $t <= min (m, n)$ ，从而分别丢弃 $U$ 和 $V$ 的最后 $m - t$ 和 $n - t$ 列。这个过程被称为 truncated SVD。由此产生的 DTM 的近似值具有 $t$ 阶，如下图所示。

$t$ 阶的 DTM 近似值是最佳的，因为它是在 $L_2$ 规范方面最接近 DTM 的 $t$ 阶矩阵。 $U$ 和 $V$ 的其余列可以解释为 文档-主题 和 词-主题 矩阵， $t$ 表示主题的数量。

LSA的优点

直观。
既可以适用于短文本，也可以适用于长文本。
通过 $V$ 矩阵，主题是可解释的。

LSA的缺点

DTM 不考虑语料库中单词的语义表示。类似的概念被当作不同的矩阵元素来处理。预处理技术可能有帮助，但只是在某种程度上。例如，词干化可能有助于将 $I t a l y$ 和 $I t a l ian$ 作为类似的术语，但是像 $m o n ey$ 和 $c a s h$ 这样具有不同词干的近义词仍然会被认为是不同的。此外，词干化也可能导致较难解释的主题。
LSA 需要一个广泛的预处理阶段，以便从文本输入数据中获得一个重要的表示。
在 truncated SVD 中要保持的奇异值 $t$ （主题）的数量必须事先知道。
$U$ 和 $V$ 可能包含负值。这给可解释性带来了问题。

2.3 概率潜在语义分析（Probabilistic Latent Semantic Analysis，pLSA）

$\text{ Hofmann² (1999) }$ 提出了 LSA 的一个变种，即使用 概率模型 而不是 SVD 来估计主题。因此被称为概率潜在语义分析（pLSA）。

特别是，pLSA 将一个词 $w$ 和一个文档 $d$ 的联合概率 $P (d, w)$ 建模为一个条件独立的多项式分布的混合物。
$P (d, w) = P (d) P (w ∣ d)$

$P(w|d)=\displaystyle \sum_{z\in Z} P(w|z)P(z|d)$
其中：

$w$ 表示一个词。
$d$ 表示一个文档。
$z$ 表示一个主题。
$P (z ∣ d)$ 是话题 $z$ 出现在文档 $d$ 中的概率。
$P (w ∣ z)$ 是单词 $w$ 出现在话题 $z$ 中的概率。
我们假设 $P (w ∣ z, d) = P (w ∣ z)$ 。

前面的表达式可以重新写成：

$\displaystyle \sum_{z\in Z}P(z)P(d|z)P(w|z)$

我们可以在这个表达式和之前的 DTM 分解的表述之间做一个类比，其中：

$P (d, w)$ 对应于 DTM。
$P (z)$ 类似于 $\sum$ 的主对角线。
$P (d ∣ z)$ 和 $P (w ∣ z)$ 分别对应于 $U$ 和 $V$ 。

该模型可以使用期望最大算法（Expectation-Maximization Algorithm，EM）进行拟合。简而言之，EM 在存在潜在变量（在这种情况下是指主题）的情况下进行最大似然估计。

值得注意的是，DTM 的分解依赖于不同的目标函数。对于 LSA，它是 $L_2$ 准则，而对于 pLSA，它是似然函数。后者的目的是明确地将模型的预测能力最大化。

pLSA 与 LSA 模型有相同的优点和缺点，但有一些特殊的区别。

优点：与 LSA 相比，pLSA 显示出更好的性能 $\text{（Hofmann²，1999）}$ 。

缺点：pLSA 没有提供文档层面的概率模型。这意味着

参数的数量随着文档数量的增加而线性增长，导致了可扩展性和过拟合的问题。
它不能给新的文档分配概率。

2.4 潜在的狄利克雷分布（Latent Dirichlet Allocation，LDA）

LDA $\text{ (Blei³ et al., 2003)}$ 通过使用狄利克雷先验概率在贝叶斯方法中估计 文档-主题 和 术语-主题 分布来改进 pLSA。

狄利克雷分布 $D i r (α)$ 是一个连续多变量概率分布系列，其参数为正实数的向量 $α$ 。

让我们设想一份报纸有三个部分：政治、体育和艺术，每个部分也代表一个主题。假设报纸各部分的主题混合分布是迪里切特分布的一个例子。

第1部分（政治），主题混合：政治 0.99，体育 0.005，艺术 0.005。
第2部分（体育），主题混合：政治 0.005，体育 0.99，艺术 0.005。
第3部分（艺术），主题混合：政治 0.005，体育 0.005，艺术 0.99。

让我们观察一下 LDA 的板块符号（一种在图形模型中表示变量的常规方法），以解释 狄利克雷先验概率 的使用。

LDA 的平面符号。摘自 $\text{（Barbieri⁵，2013）}$ 。灰色圆圈表示观察变量（语料库中的词），而白色圆圈表示潜在变量。

$M$ 表示文档的数量， $N$ 表示一个文档中的词的数量。从顶部，我们观察到 $α$ ，即每个文档主题分布的狄利克雷先验的参数。从 $D i r i c h l e t$ 分布 $D i r (α)$ 中，我们抽取一个随机样本，代表一个文档的主题分布 $θ$ 。就像在我们的报纸例子中，我们抽取一个混合物（0.99政治，0.05体育，0.05艺术）来描述一篇文章的主题分布。

从选定的混合物 $θ$ 中，我们根据分布情况（在我们的例子中是政治）抽取一个主题 $z$ 。从底部，我们观察 $β$ ，即每个主题词分布的狄利克雷先验参数。从 $D i r i c h l e t$ 分布 $Dir(\beta)$ 中，我们选择一个样本，代表给定主题 $z$ 的词分布 $φ$ ，然后从 $φ$ 中，我们抽取一个词 $w$ 。

最后，我们感兴趣的是在给定文档 $d$ 以及参数 $α$ 和 $\beta$ 的情况下估计话题 $z$ 的概率，即 $\beta)$ 。该问题被表述为计算给定文档的隐藏变量的后验分布。

$P(\theta, z|d, α, \beta)=\frac{p(\theta, z, d | \alpha, \beta)}{p(d | \alpha,\beta)}$

由于这种分布难以计算， $（ Bl e i^{3} 等人， 2013 ）$ 建议使用一种近似推理算法（变异近似）。通过最小化近似分布和真实后验 $\beta)$ 之间的 $K u ll ba c k - L e ib l erD i v er g e n ce$ 来找到优化值。一旦我们得到了数据的最优参数，我们就可以再次计算 $\beta)$ ，从某种意义上说，它对应于 文档-主题 矩阵 $U$ 。 $\beta_1, \beta_2, ..., \beta_t$ 的每个条目都是 $p (w ∣ z)$ ，对应于 术语-主题 矩阵 $V$ 。主要区别在于，和 pLSA 一样，矩阵系数有统计学解释。

优点

它提供了比 LSA 和 pLSA 更好的性能。
与 pLSA 不同的是，LDA 可以为一个新的文档分配一个概率，这要归功于 文档-主题 $D i r i c h l e t$ 分布。
它既可以应用于短文档，也可以应用于长文档。
主题对人的解释是开放的。
作为一个概率模块，LDA 可以被嵌入到更复杂的模型中或进行扩展。在 ${\text Blei³ 等人（2013）}$ 的原始工作之后的研究扩展了 LDA 并解决了一些原始的限制。

缺点

主题的数量必须事先知道。
字袋法忽略了语料库中词的语义表示，与 LSA 和 pLSA 类似。
贝叶斯参数 $α$ 和 $β$ 的估计是以文档的可交换性为前提的。
它需要一个广泛的预处理阶段来从文本输入数据中获得一个重要的表示。
研究报告称，LDA 可能会产生过于笼统（ ${\text Rizvi⁶ 等人，2019}$ ）或不相关 ${\text（Alnusyan⁷等人，2020）}$ 的主题。不同的执行结果也可能是不一致的 ${\text（Egger⁸等人，2021）}$ 。

LDA的实际例子

流行的 LDA 实现是在 Gensim 和 sklearn 包（Python）以及 Mallet（Java）中。

在下面的例子中，我们使用 Gensim 库和 pyLDAvis 来进行可视化主题探索。

'''
Topic Modeling with LDA: Minimum Viable Example
References:
[1] LDA with Gensim: https://radimrehurek.com/gensim/models/ldamodel.html
[2] Visualization with pyLDAvis: https://pypi.org/project/pyLDAvis/
'''

# Import dependencies
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
import spacy
import pyLDAvis
import pyLDAvis.gensim_models
from sklearn.datasets import fetch_20newsgroups
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)


def lemmatize(docs, allowed_postags = ["NOUN", "ADJ", "VERB", "ADV"]):
	'''
  	Performs lemmization of input documents.
  	Args:
    	- docs: list of strings with input documents
    	- allowed_postags: list of accepted Part of Speech (POS) types
  	Output:
    	- list of strings with lemmatized input
  	'''
  	nlp = spacy.load("en_core_web_sm", disable = ["parser", "ner"])
  	lemmatized_docs = []
  	for doc in docs:
    	doc = nlp(doc)
    	tokens = []
    	for token in doc:
      		if token.pos_ in allowed_postags:
        		tokens.append(token.lemma_)
    	lemmatized_docs.append(" ".join(tokens))
  	return (lemmatized_docs)


def tokenize(docs):
  	'''
  	Performs tokenization of input documents.
  	Args:
    	- docs: list of strings with input documents
  	Output:
    	- list of strings with tokenized input
  	'''
  	tokenized_docs = []
  	for doc in docs:
    	tokens = gensim.utils.simple_preprocess(doc, deacc=True)
    	tokenized_docs.append(tokens)
  	return (tokenized_docs)


# Fetch 20newsgropus dataset
docs = fetch_20newsgroups(subset = 'all',  remove = ('headers', 'footers', 'quotes'))['data']

# Pre-process input: lemmatization and tokenization
lemmatized_docs = lemmatize(docs)
tokenized_docs = tokenize(lemmatized_docs)

# Mapping from word IDs to words
id2word = corpora.Dictionary(tokenized_docs)

# Prepare Document-Term Matrix
corpus = []
for doc in tokenized_docs:
    corpus.append(id2word.doc2bow(doc))

# Fit LDA model: See [1] for more details
topic_model = gensim.models.ldamodel.LdaModel(
    corpus = corpus,      # Document-Term Matrix
    id2word = id2word,    # Map word IDs to words
    num_topics = 30,      # Number of latent topics to extract
    random_state = 100,
    passes = 100,         # N° of passes through the corpus during training
    )

# Visualize with pyLDAvis: See [2] for more details
pyLDAvis.enable_notebook()
visualization = pyLDAvis.gensim_models.prepare(
    topic_model, 
    corpus,
    id2word, 
    mds = "mmds", 
    R = 30)

visualization

2.5 非负矩阵分解（Non-negative Matrix Factorization，NMF）

$\text{ Lee⁴ 等人（1999）}$ 提出的非负矩阵分解（NMF）是 LSA 的一个变体。

LSA 利用 SVD 来分解 文档-术语 矩阵并提取潜在的信息（主题）。SVD 的一个特性是基向量是相互正交的，迫使基向量中的一些元素为负数。

简而言之，矩阵系数为负数的因式分解（如 SVD）给可解释性带来了问题。减法组合不允许理解一个组成部分对整体的贡献。NMF 将 文档-术语 矩阵分解为 话题-文档 矩阵 $U$ 和 话题-术语 矩阵 $V^t$ ，与 SVD 非常相似，但有一个额外的约束条件，即 $U$ 和 $V^t$ 只能包含非负的元素。

此外，虽然我们利用了 $U×Σ×V^t$ 形式的分解，但在非负矩阵因式分解的情况下，这变成了 $U×V^t$ 。

DTM 的分解可以被设定为一个优化问题，目的是使 DTM 和它的近似值之间的差异最小。经常采用的距离测量方法是 $\text{Frobenius Norm}$ 和 $\text{Kullback-Leibler Divergence}$ 。

NMF 具有与其他经典模型相同的主要优点和缺点（词包方法，需要预处理，…），但也有一些特殊的特征。

优点

文献认为，与 SVD（因此是 LSA）相比，NMF 在产生更多可解释和连贯的主题方面具有优势 $\text{（Lee⁴ 等人，1999；Xu⁹ 等人，2003；Casalino¹⁰ 等人，2016）}$ 。

缺点

非负性约束使分解更加困难，可能导致不准确的主题。
NMF 是一个非凸的问题。不同的 $U$ 和 $V^t$ 可能近似于 DTM，导致不同的运行结果可能不一致。

'''
Topic Modeling with NMF: Minimum Viable Example
References:
[1] https://radimrehurek.com/gensim/models/nmf.html
'''

# Import dependencies
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
import spacy
import pyLDAvis
import pyLDAvis.gensim_models
from sklearn.datasets import fetch_20newsgroups
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)


def lemmatize(docs, allowed_postags = ["NOUN", "ADJ", "VERB", "ADV"]):
	'''
  	Performs lemmization of input documents.
  	Args:
    	- docs: list of strings with input documents
    	- allowed_postags: list of accepted Part of Speech (POS) types
  	Output:
    	- list of strings with lemmatized input
  	'''
  	nlp = spacy.load("en_core_web_sm", disable = ["parser", "ner"])
  	lemmatized_docs = []
  	for doc in docs:
    	doc = nlp(doc)
    	tokens = []
    	for token in doc:
      		if token.pos_ in allowed_postags:
        		tokens.append(token.lemma_)
    	lemmatized_docs.append(" ".join(tokens))
	return (lemmatized_docs)


def tokenize(docs):
  	'''
  	Performs tokenization of input documents.
  	Args:
    	- docs: list of strings with input documents
  	Output:
    	- list of strings with tokenized input
  	'''
  	tokenized_docs = []
  	for doc in docs:
    	tokens = gensim.utils.simple_preprocess(doc, deacc=True)
    	tokenized_docs.append(tokens)
  	return (tokenized_docs)


# Fetch 20newsgropus dataset
docs = fetch_20newsgroups(subset = 'all',  remove = ('headers', 'footers', 'quotes'))['data']

# Pre-process input: lemmatization and tokenization
lemmatized_docs = lemmatize(docs)
tokenized_docs = tokenize(lemmatized_docs)

# Mapping from word IDs to words
id2word = corpora.Dictionary(tokenized_docs)

# Prepare Document-Term Matrix
corpus = []
for doc in tokenized_docs:
    corpus.append(id2word.doc2bow(doc))

# Fit NMF model: See [1] for more details
nmf_model = gensim.models.Nmf(
    corpus = corpus,     # Document-Term Matrix
    id2word = id2word,   # Map word IDs to words
    num_topics = 30,     # Number of latent topics to extract
    random_state = 100,
    passes = 100,        # N° of passes through the corpus during training
    )

# Get the topics sorted by sparsity
nmf_model.show_topics()

2.6 BERTopic 和 Top2Vec

$\text{Grootendorst¹¹ (2022)}$ 和 $\text{Angelov¹² (2020)}$ 提出了新颖的主题建模方法，分别是 BERTopic 和 Top2Vec。这些模型解决了迄今为止讨论的传统策略的局限性。我们在下面的段落中一起探讨它们。

2.6.1 文本嵌入（Document embedding）

BERTopic 和 Top2Vec 从输入文档中制造语义嵌入。

在最初的论文中，BERTopic 利用 BERT 句子变换器（SBERT）来制造高质量的、有上下文的单词和句子矢量表示。相反，Top2Vec 使用 Doc2Vec 来创建联合嵌入的单词、文档和主题向量。

在写这篇文章的时候，这两种算法都支持各种嵌入策略，尽管 BERTopic 有更广泛的嵌入模型覆盖。

Embedding Model	BERTopic [Reference]	Top2Vec [Reference]
BERT Sentence Transformers [Reference]	✔️ original paper	✔️
Doc2Vec	✔️ with custom embeddings	✔️ original paper
HuggingFace Transformers	✔️
Flair	✔️
Spacy	✔️
Universal Sentence Encoder (USE)	✔️	✔️
Gensim	✔️
Combinations for word and document embeddings	✔️
Custom Backend / Embeddings	✔️

目前由 BERTopic 和 Top2Vec 支持的嵌入模型。

2.6.2 用UMAP降低维度

人们可以直接对嵌入采用聚类算法，但这将增加计算消耗，并导致聚类性能不佳（由于 维度诅咒）。

因此，在聚类之前要应用降维技术。UMAP，Uniform Manifold Approximation and Projection $\text{（McInnes¹³等人，2018）}$ 提供了几个好处。

它在较低的投影维度上保留了更多高维数据的局部和全局特征 $\text{（McInnes¹³等人，2018）}$ 。
UMAP 对嵌入尺寸没有计算限制 $\text{（McInnes¹³等人，2018）}$ 。因此，它可以有效地使用不同的文档嵌入策略。
用 UMAP 降低嵌入维度可以提高 K-Means 和 HDBSCAN 在精度和时间上的聚类性能 $\text{（Allaoui¹⁴等人，2020）}$ 。
UMAP 可以很容易地扩展到大型数据集 $\text{（Angelov¹², 2020）}$ 。

2.6.3 聚类

BERTopic 和 Top2Vec 最初都是利用 HDBSCAN $\text{（McInnes¹⁵等人，2017）}$ 作为聚类算法的。

优点

HDBSCAN 继承了 DBSCAN 的优点并加以改进 $\text{（McInnes¹⁵等人，2017）}$ 。
HDBSCAN（和 DBSCAN 一样）并不强迫观测值进入一个群组。它将不相关的观察值作为离群值。这提高了主题的代表性和一致性。

缺点

将不相关的文档建模为离群值可能会导致信息损失。在嘈杂的数据集中，异常值可能成为原始语料库的相关部分。

BERTopic 目前也支持 K-Means 和层次聚类算法，提供灵活的选择。K-Means 允许选择所需的聚类数量，并强制每个文档进入一个聚类。这避免了异常值的产生，但也可能导致较差的主题代表性和一致性。

2.6.4 主题表示

BERTopic 和 Top2Vec 在为主题制造表示方法上有所不同。

BERTopic 将同一聚类（主题）内的所有文档连接起来，并应用一个修改过的 $TF - I D F$ 。简而言之，它用原始 $TF - I D F$ 公式中的聚类来代替文档。然后，它使用每个集群的第一个最重要的词作为主题的代表。

这个分数被称为基于类的 $TF - I D F$ （ $\text{c TF-IDF}$ ），因为它估计的是集群中的词的重要性，而不是文档。

相反，Top2Vec 用最接近集群中心点的词来制造一个表示。特别是，对于通过 HDBSCAN 获得的每个密集区域，它计算原始维度的文档向量的中心点，然后选择最接近的单词向量。

BERTopic 和 Top2Vec 的优点

主题的数量不一定事先给定。BERTopic 和 Top2Vec 都支持分层减少主题以优化主题的数量。
高质量的嵌入考虑到了语料库中词与词之间的语义关系，这与词包的方法不同。这导致了更好和更多信息的主题。
由于嵌入的语义性质，在大多数情况下不需要对文本进行预处理（词干提取、词形还原、去掉停止词…）。
BERTopic 支持动态主题建模。
模块化。每个步骤（文档嵌入、降维、聚类）实际上都是自洽的，并且可以根据该领域的进展、特定项目的特殊性或技术限制来改变或发展。例如，我们可以使用带有 Doc2Vec 嵌入的BERTopic 而不是 SBERT，或者应用 K-Means 聚类代替 HDBSCAN。

与传统方法相比，它们在大型语料库中的扩展性更好 $\text{（Angelov¹²，2020）}$ 。

BERTopic 和 Top2Vec 都提供先进的内置搜索和可视化功能。它们使调查主题的质量和推动进一步的优化变得更加简单，同时也为演示制作了高质量的图表。

BERTopic 和 Top2Vec 的缺点

它们对较短的文本效果更好，例如社交媒体帖子或新闻标题。大多数基于转化器的嵌入在建立语义表征时，对它们所能考虑的标记数量都有限制。在较长的文档中使用这些算法是可能的。例如，人们可以在嵌入步骤之前，将文档分成句子或段落。然而，对于较长的文档来说，这不一定有利于生成有意义和有代表性的主题。
每个文档只被分配给一个主题。相反，像 LDA 这样的传统方法是建立在每个文档包含一个混合主题的假设之上的。
与传统模型相比，它们的速度较慢 $\text{（Grootendorst¹¹，2022）}$ 。此外，更快的训练和推理可能需要更昂贵的硬件加速器（GPU）。
虽然 BERTopic 利用基于转换器的大型语言模型来制造文档嵌入，但主题表示仍然使用词包方法 $\text{（c TF-IDF）}$ 。

对于小型数据集（ $< 1000$ 份文件），它们可能不太有效 $\text{（Egger¹⁶等人，2022）}$ 。

'''
Topic Modeling with BERTopic: Minimum Viable Example
References:
[1] https://maartengr.github.io/BERTopic/getting_started/embeddings/embeddings.html
[2] https://maartengr.github.io/BERTopic/getting_started/clustering/clustering.html
[3] https://maartengr.github.io/BERTopic/getting_started/visualization/visualization.html
'''
from bertopic import BERTopic
from sentence_transformers import SentenceTransformer
from hdbscan import HDBSCAN
from sklearn.datasets import fetch_20newsgroups

# Fetch 20newsgropus dataset
docs = fetch_20newsgroups(subset = 'all',  remove = ('headers', 'footers', 'quotes'))['data']

# Embedding model: See [1] for more details 
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# Clustering model: See [2] for more details
cluster_model = HDBSCAN(min_cluster_size = 15, 
                        metric = 'euclidean', 
                        cluster_selection_method = 'eom', 
                        prediction_data = True)

# BERTopic model
topic_model = BERTopic(embedding_model = embedding_model,
                       hdbscan_model = cluster_model)

# Fit the model on a corpus
topics, probs = topic_model.fit_transform(docs)

# Visualization examples: See [3] for more details

# Save intertopic distance map as HTML file
topic_model.visualize_topics().write_html("/intertopic_dist_map.html")

# Save topic-terms barcharts as HTML file
topic_model.visualize_barchart(top_n_topics = 25).write_html("/barchart.html")

# Save documents projection as HTML file
topic_model.visualize_documents(docs).write_html("/projections.html")

# Save topics dendrogram as HTML file
topic_model.visualize_hierarchy().write_html("/hieararchy.html")

前面的代码片断所产生的主题内距离图，其可视化效果与 pyLDAvis 得到的相似

前面的代码片断所产生的文档投影

前面的代码片段所产生的主题层次结构（树枝图）

'''
Topic Modeling with Top2Vec: Minimum Viable Example
References:
[1] https://github.com/ddangelov/Top2Vec
[2] https://top2vec.readthedocs.io/_/downloads/en/stable/pdf/
'''
from top2vec import Top2Vec
from sklearn.datasets import fetch_20newsgroups

# Fetch 20newsgropus dataset
docs = fetch_20newsgroups(subset = 'all',  remove = ('headers', 'footers', 'quotes'))['data']

# Create jointly embedded topic, document and word vectors
topic_model = Top2Vec(
  	docs, 
  	embedding_model = 'doc2vec', # Embedding model: See [1,2] for supported models
  	min_count = 50,              # Ignore words less frequent than this value
  	umap_args = None,            # Dict of custom args for UMAP
  	hdbscan_args = None          # Dict of custom argd for HDBSCAN
  	)

# Visualization examples: See [1,2] for more details

# Search the closest 5 topics to the input query "faith"
topic_words, word_scores, topic_scores, topic_nums = topic_model.search_topics(
    keywords = ["faith"], 
    num_topics = 5)

# Plot the resulting topics as wordclouds
for topic in topic_nums:
    topic_model.generate_topic_wordcloud(topic)

3.比较

下表总结了不同主题建模策略在实际应用场景中的突出特点。

Metric	LDA	NMF	BERTopic	Top2Vec
Number of topics	❌ The number of topics must be known beforehand	❌ The number of topics must be known beforehand	✔️ Finds automatically the number of topics	✔️ Finds automatically the number of topics
Data preparation	❌ Pre-processing is essential	❌ Pre-processing is essential	✔️ Pre-processing not needed in most cases	✔️ Pre-processing not needed in most cases
Document-topic relationship	✔️ Each document is composed of a mixture of topics	✔️ Each document is composed of a mixture of topics	❌ Each document is assigned to one topic only	❌ Each document is assigned to one topic only
Topic representation	❌ Bag-of-words disregards semantics	❌ Bag-of-words disregards semantics	✔️ Semantic embeddings lead to more meaningful and coherent topics. TF-IDF (bag-of-words) based strategy for topic description.	✔️ Semantic embeddings lead to more meaningful and coherent topics. Centroid-based strategy for topic description.
Finding the optimal number of topics	❌ More complex	❌ More complex	✔️ Support for hierarchical topic reduction	✔️ Support for hierarchical topic reduction
Outliers	✔️ No outliers	✔️ No outliers	✔️ HDBSCAN leads to more coherent and consistent topics, but at the price of having a significant portion of outliers. K-Means can be used instead to avoid this behaviour	❌ HDBSCAN leads to more coherent and consistent topics, but at the price of having a significant portion of outliers
Longer input documents	✔️	✔️	❌ Better performances with shorter documents. Most embedding models have a limit on the number of input tokens. Strategy could deal with this (splitting, averaging, …) but may not necessarily lead to better topics	❌ Better performances with shorter documents. Most embedding models have a limit on the number of input tokens. Strategy could deal with this (splitting, averaging, …) but may not necessarily lead to better topics
Shorter input documents	✔️	✔️	✔️	✔️
Small datasets (<1000 docs)	✔️	✔️	❌ May be less effective with small datasets	❌ May be less effective with small datasets
Large datasets (>1000 docs)	✔️	✔️	✔️ Scales better with larger corpora than traditional models	✔️ Scales better with larger corpora than traditional models
Dynamic Topic Modeling	✔️ See Blei and Lafferty, 2006 and Hoffman and Blei, 2010. Dynamic Topic Modeling with LDA Sequence model in Gensim, and from Jiaxiang Li for sklearn/Gensim	❌	✔️ BERTopic supports dynamic Topic Modeling	❌
Speed & Resources	✔️	✔️	❌ Longer training times compared to classical models and potentially expensive computational resources (GPU). Optimization strategies exist, but LDA and NMF remain faster and less expensive	❌ Longer training times compared to classical models and potentially expensive computational resources (GPU). Optimization strategies exist, but LDA and NMF remain faster and less expensive
Visualization & Search	✔️ pyLDAvis for visualization; no search capabilities	❌	✔️ Advanced visualization and search tools	✔️ Advanced visualization and search tools

不同主题建模技术之间的比较。注：LSA 和 pLSA 没有包括在内，因为 LDA 克服了它们的局限性，它被认为是这三种方法中最好的。

这个总结表为一个特定的用例提供了高层次的选择标准。

想象一下，需要在推文中找到趋势性的话题，而不需要做什么预处理。在这种情况下，人们可以选择使用 Top2Vec 和 BERTopic。它们在较短的文本来源上工作得非常出色，不需要太多的预处理。

相反，想象一下这样的场景：客户对发现一个给定的文件如何包含多个主题的混合物感兴趣。在这种情况下，像 LDA 和 NMF 这样的方法会比较好。BERTopic 和 Top2Vec 只将一个文档分配给一个主题。尽管 HDBSCAN 的概率分布可以作为主题分布的代理，但 BERTopic 和 Top2Vec 在设计上不是混合成员模型。

4.补充说明

在讨论主题建模时，有两个值得注意的点。

4.1 一个主题并不（一定）是我们认为的那样

当我们在等候室看到一本杂志时，我们一眼就知道它属于哪种类型。当我们进入一场谈话时，几句话就足以让我们猜到讨论的对象。从人的角度看，这是一个 “话题”。

不幸的是，“话题” 一词在迄今为止讨论的模型中具有完全不同的含义。

让我们记住 文档-单词 矩阵。在高层次上，我们想把它分解为 文档-主题 和 主题-单词 矩阵的产物，并在这个过程中提取潜在的维度–话题。这些策略（如 LSA）的目标是使分解误差最小化。

概率生成模型（如 LDA）以稳健而优雅的贝叶斯方法增加了一层统计形式主义，但它们真正要做的是以最小的误差重现原始 文档-单词 分布。

这些模型都不能确保获得的主题从人类的角度来看是有信息的或有用的。

用 $\text{Blei³ 等人（2013）}$ 的话来说。

我们将 LDA 模型中的潜在多项式变量称为话题，以便利用面向文本的直觉，但除了在代表词组的概率分布方面的效用外，我们对这些潜在变量没有提出认识论上的主张。

另一方面，BERTopic 和 Top2Vec 利用了语义嵌入。因此，用于表示文档的向量从 “人类” 的角度来看，带有一个代理（到目前为止我们最接近的）其 “意义”。这些惊人的模型假设，对这些嵌入的投影进行聚类可能会导致更有意义和具体的主题。

研究（举几个例子： $\text{Grootendorst¹¹ 2022, Angelov¹² 2020, Egger¹⁶ et al. 2022}$ ）表明，利用语义嵌入获得的话题在多个领域中信息量更大，也更连贯。

请不要误会：这是一个杰出而独特的结果，它在该领域开辟了一个全新的领域，并取得了前所未有的表现。

但是我们仍然可以就这如何接近人类对主题的定义，以及在什么情况下，进行辩论。

如果你认为这是一个微不足道的细枝末节，你有没有试过向商业利益相关者解释 mail_post_email_posting 这样的话题？是的，它是连贯的，可解释的，但这是他们想象中的 “主题” 吗？

4.2 主题不容易评估

主题建模是一种无监督的技术。在评估过程中，没有标签可以依赖。

人们已经提出了一些一致性的测量方法来评估主题的可解释性质量。例如，归一化的点相互信息（Normalized pointwise mutual information，NPMI） $\text{（Bouma¹⁷，2009）}$ 估计两个词 $x$ 和 $y$ 的共同出现的可能性比我们偶然预期的要大。

$NPMI=\frac{log[p(x)p(y)]}{logp(x,y)}-1$

$NPM I$ 可以从 $- 1$ （无共现）到 $+ 1$ （完全共现）不等。 $x$ 和 $y$ 的出现是独立的，因此 $NPM I = 0$ 。

$\text{Lau¹⁸ 等人（2014）}$ 认为，这个指标在一定程度上合理地模拟了人类的判断。

也存在其他的连贯性测量。例如，Cv $\text{（Röder¹⁹ 等人，2015）}$ 和 UMass $\text{（Mimno²⁰ 等人，2011）}$ 。

这些一致性指标存在着一系列的缺点。

对于使用哪种指标来衡量定性表现，没有共同的约定 $\text{（Zuo²¹ 等人，2016；Blair²² 等人，2020；Doogan²³ 等人，2021）}$ 。
$\text{Blair²² 等人，(2020)}$ 报告了不同的一致性衡量标准之间不一致的结果。
$\text{Doogan²³ 等人，(2021)}$ 表明，在评估特定领域（Twitter 数据）的主题模型时，一致性措施是不可靠的。
$\text{Hoyle²⁴ 等人，(2021)}$ 提出 $NPM I$ 等指标可能无法评估神经主题模型的可解释性。
由于报告的不一致性，Cv 的使用被其作者劝阻²⁵。

正如 $\text{Grootendorst¹¹（2022）}$ 所写的那样。

“验证措施，如话题一致性和话题多样性，是本质上的主观评价的代理。一个用户对一个话题的一致性和多样性的判断可能与另一个用户不同。因此，尽管这些措施可以用来获得一个模型性能的指示，但它们仅仅是一个指示”。

总而言之，验证措施不能清晰地估计一个主题模型的性能。它们不能像分类问题中的准确性或 $F_1$ 分数那样提供明确的解释。因此，对所获得的主题的 “良好程度” 的量化仍然需要领域知识和人工评估。对商业价值的评估（“这些主题会给项目带来好处吗？”）也不是一件小事，可能需要综合的衡量标准和整体的方法。

5. 结论

在这篇文章中，我们通俗地介绍了流行的主题建模算法，从生成性统计模型到基于转化器的方法。

我们还提供了一个表格，强调了每种技术的优势和劣势。这可以用来进行比较，并帮助在不同场景下进行初步的模型选择。

最后，我们分享了无监督文本数据分析中最具挑战性的两个方面。

首先，人类对 “主题” 的定义与作为 “主题建模” 算法结果的统计对应物之间的差异，常常被忽视。对这种差异的理解对于实现项目目标和指导商业利益相关者在 NLP 努力中的期望是至关重要的。

然后，我们通过介绍流行的指标和它们的缺点，讨论了定量评估主题模型性能的困难。

6. 参考文献

[1] Deerwester et al., Indexing by latent semantic analysis, Journal of the American Society for Information Science, Volume 41, Issue 6 p. 391–407, 1990 (link).

[2] Hofmann, Probabilistic Latent Semantic Analysis, Proceedings of the XV Conference on Uncertainty in Artificial Intelligence (UAI1999), 1999 (link).

[3] Blei et al., Latent dirichlet allocation, The Journal of Machine Learning Research, Volume 3, p. 993–1022, 2003 (link).

[4] Lee et al., Learning the parts of objects by non-negative matrix factorization, Nature, Volume 401, p. 788–791, 1999 (link).

[5] Barbieri et al., Probabilistic topic models for sequence data, Machine Learning, Volume 93, p. 5–29, 2013 (link).

[6] Rizvi et al., Analyzing social media data to understand consumers’ information needs on dietary supplements, Stud. Health Technol. Inform., Volume 264, p. 323–327, 2019 (link).

[7] Alnusyan et al., A semi-supervised approach for user reviews topic modeling and classification, International Conference on Computing and Information Technology, 1–5, 2020 (link).

[8] Egger and Yu, Identifying hidden semantic structures in Instagram data: a topic modelling comparison, Tour. Rev. 2021:244, 2021 (link).

[9] Xu et al., Document clustering based on non-negative matrix factorization, Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval, p. 267–273, 2003 (link).

[10] Casalino et al., Nonnegative matrix factorizations for intelligent data analysis, Non-negative Matrix Factorization Techniques. Springer, p. 49–74, 2016 (link).

[11] Grootendorst, BERTopic: Neural topic modeling with a class-based TF-IDF procedure, 2022 (link).

[12] Angelov, Top2Vec: Distributed Representations of Topics, 2020 (link).

[13] McInnes et al., UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction, 2018 (link).

[14] Allaoui et al., Considerably improving clustering algorithms using umap dimensionality reduction technique: A comparative study, International Conference on Image and Signal Processing, Springer, p. 317–325, 2020 (link).

[15] McInnes et al., hdbscan: Hierarchical density based clustering, The Journal of Open Source Software, 2(11):205, 2017 (link).

[16] Egger et al., A Topic Modeling Comparison Between LDA, NMF, Top2Vec, and BERTopic to Demystify Twitter Posts, Frontiers in Sociology, Volume 7, Article 886498, 2022 (link).

[17] Bouma, Normalized (pointwise) mutual information in collocation extraction, Proceedings of GSCL, 30:31–40, 2009 (link).

[18] Lau et al., Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality, Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, p. 530–539, 2014 (link).

[19] Röder et al., Exploring the space of topic coherence measures, Proceedings of the eighth ACM international conference on Web search and data mining, p. 399–408. ACM, 2015 (link).

[20] Mimno et al., Optimizing semantic coherence in topic models, Proc. of the Conf. on Empirical Methods in Natural Language Processing, p. 262–272, 2011 (link).

[21] Y. Zuo et al., Word network topic model: a simple but general solution for short and imbalanced texts, Knowledge and Information Systems, 48(2), p. 379–398 (link)

[22] Blair et al., Aggregated topic models for increasing social media topic coherence, Applied Intelligence, 50(1), p. 138–156, 2020 (link).

[23] Doogan et al., Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures, Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, p. 3824–3848, 2021 (link).

[24] Hoyle et al., Is automated topic model evaluation broken? the incoherence of coherence, Advances in Neural Information Processing Systems, 34, 2021 (link).

[25] https://github.com/dice-group/Palmetto/issues/13

数据集：本帖中的 Python 例子使用了 scikit-learn 软件包提供的 “20个新闻组数据集”。

你可能感兴趣的:(自然语言处理,数据挖掘,数据分析,自然语言处理,数据挖掘,文本分析,主题建模,nlp)

深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
【I3D 2024】Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images __星辰大海__ 论文阅读计算机视觉算法人工智能
文章目录1.李群与李代数2.相机运动模糊建模3.相机运动轨迹近似3.1.线性插值3.2.三次样条插值3.3.K阶贝塞尔曲线插值1.李群与李代数参考博客：视觉SLAM十四讲-李群与李代数。2.相机运动模糊建模运动模糊产生的原因是：相机在曝光期间捕捉到了移动的物体或自身发生了移动，导致场景中某些像素在成像过程中不是来自单一点，而是多个位置的光线的混合。假设在时间[t0,t0+T][t_0,t_0+T]
《流浪地球2》观后感墨轩子
就我而言，《地球2》是一部全人类为了延续文明而演绎的可歌可泣的史诗，这也是最触动我的主题之一。一部好的电影，应该调动起观众最充沛最真挚的情感，而要达到这种效果的做法就是将主人公置于矛盾复杂的处境，并完整呈现其在压力和冲突下的思想斗争和艰难抉择。《地球2》成功地诠释了上述观点。如周喆直短小精悍的“股骨演讲”，以一万五千年前一块断裂又愈合的人类股骨为喻，呼吁全人类化“彼此毁灭”为团结互助，表达的是联合
第549篇～孩子们周末作业晴致生活馆
2018年3月18日星期日周末忙碌因先森公司开始装修，昨天在家俬城逛了一天，孩子们的作业没有完成，今天非举趣班，赶作业妹妹的思维图图片发自App妹妹三月份的主题手抄报图片发自App哥哥竞选少先队大队委员宣言图，他说要么做老大要么就轰轰烈烈有回，于是有了以下图片发自App哥哥的好朋友也被选上竞选体育委员，晚上9点半跑来请求支援，于是哥哥帮忙画画，排版，看负责勾线，实在太晚了，孩子的字抄写有点慢，于是
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
【Pandas超实用经验汇总-数据建模分析】 Mr.小海 Python 数据挖掘数据分析 python
Pandas超实用经验汇总-数据分析前言基本方法1.读取文件2.查看数据3.修改、删除、替换数据等总结前言看见了很多教程虽然很全，但是很多技巧容易忘记且几乎用不上，读起来晦涩难懂，今天我给大家总结了Pandas的一些学习经验技巧，包含常见日常使用的pandas知识，以及一些技巧,这些技巧常见于数学建模，数据分析，数据挖掘比赛等。基本方法1.读取文件方法如下：importpandasaspd#正常写
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
人生有一百万种活法 morning的日更
严格来说，《人生有一百万种活法》不算一本通俗意义上的书，只能说是一系列访谈录的合集，主题就是采访这些人的生活方式，或者叫做“活法”。这些人从事的职业多样，世界各地都有，不过主要是偏艺术、运动、传统手工文化方面的，共同点就是都是自由职业者，可以自己决定生活的方式。有一个人过的，有两个人一起过的，也有一个家庭一起过的生活。看完这些人的“活法”，总体感觉是挺好，过的都是自己喜欢的生活方式。我想，随着中国
博客时代的文字之美芥末笔记
看到一些好的句子，突然有感而发，或者有想展开写一下的主题，会记录在备忘录里。今天翻看的时候，看到两句话，好像出自去年南方人物周刊开年刊的卷首语。“春的气息已经破土，玉兰在枝头含苞，枯草在墙角转绿，而春联在家门口等你。祝福你做自己人生的改变者，祝福你拥有新的春天。”今天已经2月26号了，开启日更的第十四天。这应该是自己今年最大的改变了。日更的好处是显而易见的，从一个标题的确定到八九百字的成文，最快基
6个写出精彩结尾的方法，让人忍不住分享转发 Ngshundon
文章的结尾起着至关重要的作用，比如升华主题、总结内容、拔高主题等。另外，一篇文章结尾的好坏，也直接影响到了读者的转发率和点赞率。因此，今天我们就来聊聊6个写出精彩结尾的方法，让人忍不住分享转发。方法一：用总结点题法结尾对主题进行深化和总结，重申自己的观点，重新审视是否解决了读者的问题，让主题更加有说服力。方法二：引用名人名言结尾结尾的时候引用名人名言，可以起到画龙点睛的作用，同时也更进一步地增加了
读书成为习惯坚持改变人生阳光之宇
不知不觉已经在线上读书打卡434天了，想想做事总是坚持不了很久的自己，怎么能坚持了这么长时间？我也觉得有些不可思议！时间回到2019年5月24日，在那一天的名师大讲堂上，我又见到了那位胖胖的（比我胖）、高高的（比我高）脸上总是笑眯眯的李冲锋博士，这次李博士又带给了我们艾瑞德国际学校教师一个全新的主题：读书燃梦行动。记得18年李博士带给我们“写作燃梦行动”，自己开始还坚持了100天写日记，后来要求开
瞰景Smart3D实景三维建模系统用户手册（目录）瞰景三维
瞰景Smart3D实景三维建模系统用户手册目录一、瞰景Smart3D软件介绍1.1总述1.2系统要求二、瞰景Smart3D软件安装及授权2.1瞰景Smart3D软件的安装2.2瞰景Smart3D软件授权及更新2.2.1账号注册2.2.2授权申请2.2.3试用许可更新2.3瞰景Smart3D正式版网络许可配置2.4瞰景Smart3D正式版许可更新2.4.1提交许可更新2.4.2导入许可更新2.5瞰景
基于 Python/PHP/Node.js 的淘宝 API 商品数据抓取开发教程
在电商数据分析、竞品监控等场景中，抓取淘宝商品数据是常见需求。淘宝开放平台（OpenPlatform）提供了标准化的API接口，通过合法途径调用可高效获取商品信息。本文将分别基于Python、PHP、Node.js三种语言，详解淘宝API商品数据抓取的开发流程，并提供完整代码示例。一、淘宝API准备工作在开发前，需完成以下准备步骤：注册开发者账号访问注册账号并完成实名认证，创建应用（应用类型选择“
面向向量检索的教育QA建模：九段日本文化研究所日本语学院的Prompt策略分析（6 / 500） semantist@语校语言学校Prompt模板集人工智能 prompt 数据集 ai 百度支持向量机开源
面向向量检索的教育QA建模：九段日本文化研究所日本语学院的Prompt策略分析（6/500）系列说明500所日本语言学校结构化建模实战，第6篇。每篇拆解1所学校在Prompt-QA系统中的建模策略，分享工程经验，本项目持续在HuggingFace上同步更新，欢迎AI工程师们关注。一.案例选择：为什么是九段日本语学院？在以中国学生为中心设计的语言学校数据建模中，我们往往默认为目标用户熟悉中文、学习节
342｜每个人都是“半成品”，我们来到这个世界便是不断地在他人帮助和自身努力下进化自己富书号
富书情报每日分享新媒体写作圈最新资讯2018年09月18日周二1.运营热点|蓝鲸浑水——920蓝鲸新媒体峰会，我与微信的故事主题大会。GQ实验、六神磊磊等极具影响力的新媒体管理运营员的经验论坛2.写作福利|涔汐——不在职场上，都不知道写作能力如此重要，涔汐第一期写作课，现价299，开课时间10月13日，8堂课，每周一期3.大咖动态|槽值——欧阳娜娜暂别娱乐圈，当一个人已经习惯了金钱来得容易时，便很
言值更甚于颜值/朱鹮 ZH寰宇
Day—5打卡五月精读主题营精读书目：《说话的魅力》/刘墉先贤说：“你嘴上所说的人生，就是你的运势”。实际上，多数时候“你嘴上所说出的人生，就是你的人生！”很多时候，言值更甚于颜值。把握说话的艺术，好好说话，是人生最大的课题。人生是场难行，而学会好好说话，给这场苦修增添了趣味，给挣扎生命注入美妙的甘霖。历史和现实生活中最善于说话艺术的人，他们之所以能把话说到心窝里，是因为他们比普通人更清楚如何：好
React 英语打地鼠游戏——一个寓教于乐的英语学习游戏伍哥的传说前端源码分享 react.js 游戏学习
英语打地鼠游戏一个寓教于乐的英语学习游戏，通过经典的打地鼠玩法帮助用户学习英语单词。✨项目特色游戏化学习经典打地鼠玩法：6个洞穴，听英文选单词即时反馈：答对/答错立即语音提示计分系统：每答对一题得10分，激发学习动力60秒限时：紧张刺激的游戏节奏多媒体体验双语语音播报：英文单词标准发音+中文反馈流畅动画效果：基于Anime.js的精美动画响应式设计：支持手机、平板、电脑多端适配丰富词库多主题分类：
3月8日，第②期"教育行走一起写吧"挑战300天活动第220天文章汇总小尘老师
3月8日，第②期"教育行走一起写吧"挑战300天活动第220天。我们的任务:每天一记录(500字以上自由写作)，每月一精品(2000字以上主题作文)我们的标准动作:写文（推荐）+挑战群中接龙（字数、题目+链接）+“教育行走一起写吧”小打卡圈打卡(字数、标题、内容)。每月精品文还需要登记在腾讯文档(链接入口查看群公告)2022年3月份主题文：“公益”(2000字以上精品文)特别提醒:打卡和接龙要求加
对话新希望CDO李旭昶：立足核心诉求，积极拥抱人工智能
“转型焕新，希望无限。”整理|王娴编辑|云舒出品｜极新4月12日，在「2024飞书先进生产力峰会|成都站」活动中，新希望首席数字官李旭昶先生做了主题为“转型焕新，希望无限”的分享。上次见他是4个月前，当时我们聊了1个多小时，内容涉及数字化转型、人工智能、管理、技术商业等话题。今天顺着他分享的内容，将这篇对话分享出来。随着信息科技的发展，我国传统企业在过去几年中逐步进行数字化转型，利用先进的科学技术
电影清单No.10 《有熊谷守一在的地方》一粒微尘_
#电影清单#10/50冲田修一山崎努、树木希林。电影来自于一位真实的人物，被称为画坛仙人的熊谷守一，是日本非常著名的画家。电影没有要突出什么主题，很像是拿着一台摄像机记录这两位老人和来到他们家中的人的日常，他们做什么就拍什么，熊谷守一在他的院子里呆了30年，从来没有出过门，他每天和家中的植物、动物、昆虫呆在一起，所以每一个角落、每一株植物他都很清楚，他会趴在地上很久来观察蚂蚁，发现原来蚂蚁是先用左
关于mqtt的研究以及集成flutter Wuxiaoming135 flutter
1.使用mosquitto这是一个mqtt服务器，用于广播数据安装过程省略（有很多教程），安装完成后，可以在终端输入mosquitto，接下来就可以模拟这个一对多的发布者订阅模式了订阅(topic1是订阅的主题，也可以是别的)：mosquitto_sub-v-ttopic1发布：mosquitto_pub-ttopic1-m消息内容如下，是一个模拟过程：首先，打开三个终端，这三个终端都输入“mos
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
该拿什么爱家人祺祺妈G6
今天早课玉珍老师的分享主题是：《该拿什么爱家人》，看到这个题目，可能大家都会不由自主的想到，给到家人最好的物质生活。是的，给到家人富裕的生活，听起来再正常不过了，也完全没有问题，我之前也是这么认为的，可是在经历了亲人惨遭病痛的折磨时，我渐渐改变了这种认知。最近比较热门的话题之一是：央视名嘴李咏的病逝，李咏一家应该是娱乐界比较另人羡慕的幸福家庭，两人均事业有成、夫妻恩爱、家庭和谐。可是，疾病的到来却
高速通道的实用建模
正如MolexCorp.的DaveDunham喜欢说的那样，“在设计超过10GB/s的高速串行链路时，一切都很重要”。为了确保以这样的速度首次成功，准确的通道建模是先决条件。对于长背板通道尤其如此。尽管许多EDA工具都包含最新、最出色的导体表面粗糙度和宽带介电特性模型，但获得正确的参数来为模型提供数据始终是一项挑战。通常，唯一的来源仅来自数据表。但在大多数情况下，这些数字并不能直接转化为EDA工具
#主播养成记|百场直播复盘04 琴姐姐成长笔记
#视频号：琴姐姐百场直播【时间】2022.3.3下午13：30【主题】可实现的自由--为什么你自己一个人去深圳【思考】有小伙伴对于我一个人来深圳很好奇，其实，同样的好奇的不止一个，而是有近十位都问过同样的问题？难道你不用管孩子么？你家里怎么办，他们支持你么？这些问题，也让我思考，我是怎么做到的？为什么我能这么做，而且能得到家人的支持，毕竟年龄不小了，还敢跑一线城市，重新开启自己的创业？其实，我想和
Python100个库分享第36个—python-pptx(办公篇) 小庄-Python办公 Python100个库分享 python 开发语言 python办公 python-pptx python读取ppt python操作ppt
目录专栏导读库简介主要特点️安装方法基础使用1.导入库和创建演示文稿2.基本幻灯片操作3.常用布局类型文本和格式设置1.文本框和段落2.文本对齐和样式表格操作1.创建基本表格2.高级表格格式️图片和形状1.插入图片2.添加形状图表功能1.创建柱状图2.创建饼图办公实用功能1.创建项目汇报PPT2.创建培训课件3.创建产品介绍PPT高级功能1.母版和主题2.动画和过渡效果3.批量生成幻灯片性能优化和
丰盛日记第三天幸运星小燕子
第123期NLP执行师二阶4组章艳Day3分享《有效引导他人的能力》学到情绪管理的方法和体验练习中感动的一天，我很开心！1、复习大脑结构:由原始脑、情绪脑、皮质层三部分组成；三部分需要充分配合和相互制约，考虑三赢后，才能做出正确的决定。2、情绪体验小游戏:树和松鼠，让我们提醒不同的情绪感受。3、处理情绪的四个方法:思维、体能、环境、关系；导师建议可以使用呼吸放松法，使自己的情绪可以及时的醒觉→_→
不完美的家庭会议水煮毛豆
第一天上网课加上我没在家。孩子还算自律，按时上课按时完成作业。就是我发现作业以“完成为目的”写的不好。提出建议似乎还有情绪……请教完奋赢老师我俩开始商量怎么“收拾”她——开个会！（这次由爸爸组织，爷爷奶奶也参加。）时间：2022年1月10日地点：客厅主持人：爸爸记录：妈妈参会成员：爸爸，妈妈，爷爷，奶奶，等等，仓鼠会议主题：总结2021规划2022会议流程：1.感谢家人。2.总结，规划3.一日流程
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一