G皮T

【主题建模】一种基于深度学习的主题建模方法：BERTopic（实战篇）

本系列包含：

主题建模：BERTopic（理论篇）
主题建模：BERTopic（实战篇）

主题建模：BERTopic（实战篇）

1.加载数据
2.数据预处理
3.BERTopic 建模
- 3.1 嵌入（Embeddings）
- 3.2 降维（Dimensionality Reduction）
- 3.3 聚类（Clustering）
- 3.4 序列化（Tokenizer）
- 3.5 加权（Weighting scheme）
4.训练模型
5.可视化结果
- 5.1 Barchart
- 5.2 Documents
- 5.3 Hierarchy Topics
- 5.4 Heatmap
- 5.5 Term Score Decline
- 5.6 Topics
6.评估
7.参考文献

BERTopic 是基于深度学习的一种主题建模方法。 $2018$ 年底， $Devlin\ et\ al.$ 提出了 Bidirectional Encoder Representations from Transformers (BERT) $^{[1]}$ 。BERT 是一种用于 NLP 的预训练策略，它成功地利用了句子的深层语义信息 $^{[2]}$ 。

1.加载数据

本次实验数据使用的是 fetch_20newsgroups 数据集。

from sklearn.datasets import fetch_20newsgroups

dataset = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))['data']

print(len(dataset)) # the length of the data
print(type(dataset)) # the type of variable the data is stored in 
print(dataset[:2]) # the first instance of the content within the data

import pandas as pd
import numpy as np

# Creating a dataframe from the data imported 
full_train = pd.DataFrame() 
full_train['text'] = dataset
full_train['text'] = full_train['text'].fillna('').astype(str) # removing any nan type objects
full_train

2.数据预处理

对于英文文本来说，一般是经过 分词、词形还原、去除停用词 等步骤，但也不是必须的。

import nltk
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

# If the following packages are not already downloaded, the following lines are needed 
# nltk.download('wordnet')
# nltk.download('omw-1.4')
# nltk.download('punkt')

filtered_text = []

lemmatizer = WordNetLemmatizer()

for i in range(len(full_train)):
    text = lemmatizer.lemmatize(full_train.loc[i,'text'])
    text = text.replace('\n',' ')
    filtered_text.append(text)
    
filtered_text[:1]

3.BERTopic 建模

from bertopic import BERTopic
from sentence_transformers import SentenceTransformer
from umap import UMAP
from hdbscan import HDBSCAN
from bertopic.vectorizers import ClassTfidfTransformer

3.1 嵌入（Embeddings）

在 BERTopic 中，all-MiniLM-L6-v2 作为处理英文文本的默认嵌入模型，paraphrase-multilingual-MiniLM-L12-v2 提供对另外 $50$ 多种语言的嵌入支持。当然，Sentence-Transformers 还提供了很多其他的嵌入模型。

我们甚至可以不选择 Sentence-Transformers 提供的任何一种嵌入方法，而改用 Flair、Spacy、Gensim 等提供的嵌入方法，那么安装时候则需要选择：

pip install bertopic[flair]
pip install bertopic[gensim]
pip install bertopic[spacy]

注意：如果这些模型比较难下载，可以先从官网手动下载，再加载对应的路径即可。比如下面用到的 all-MiniLM-L6-v2 就是博主先手动下载到文件夹下的。

# Step 1 - Extract embeddings
embedding_model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

3.2 降维（Dimensionality Reduction）

除了利用默认的 UMAP 降维，我们还可以使用 PCA、Truncated SVD、cuML UMAP 等降维技术。

# Step 2 - Reduce dimensionality
umap_model = UMAP(n_neighbors=15, n_components=5, min_dist=0.0, metric='cosine')

n_neighbors：此参数控制 UMAP 如何平衡数据中的局部结构与全局结构。值越小 UMAP 越专注于局部结构；值越大 UMAP 越专注于全局结构。
n_components：该参数允许用户确定将嵌入数据的降维空间的维数。与其他一些可视化算法（例如 t-SNE）不同，UMAP 在嵌入维度上具有很好的扩展性，不仅仅只能用于 $2$ 维或 $3$ 维的可视化。
min_dist：该参数控制允许 UMAP 将点打包在一起的紧密程度。从字面上看，它提供了允许点在低维表示中的最小距离。值越小嵌入越密集。
metric：该参数控制了如何在输入数据的环境空间中计算距离。

详情参见：https://umap-learn.readthedocs.io/en/latest/parameters.html

3.3 聚类（Clustering）

除了默认的 HDBSCAN，K-Means 聚类算法在原作者的实验上表现也非常好，当然也可以选择其他的聚类算法。

# Step 3 - Cluster reduced embeddings
hdbscan_model = HDBSCAN(min_cluster_size=15, metric='euclidean', cluster_selection_method='eom', prediction_data=True)

min_cluster_size：影响生成的聚类的主要参数。理想情况下，这是一个相对直观的参数来选择：将其设置为你希望考虑集群的最小大小的分组。
cluster_selection_method：该参数确定 HDBSCAN 如何从簇树层次结构中选择平面簇。默认方法是 eom，表示 Excess of Mass。
prediction_data：确保 HDBSCAN 在拟合模型时进行一些额外的计算，从而显著加快以后的预测查询速度。

详情参见：https://hdbscan.readthedocs.io/en/latest/parameter_selection.html

3.4 序列化（Tokenizer）

from sklearn.feature_extraction.text import CountVectorizer

# Step 4 - Tokenize topics
vectorizer_model = CountVectorizer(stop_words="english")

3.5 加权（Weighting scheme）

此处的加权是利用了基于 TF-IDF 改进的 c-TF-IDF，也可以使用基于类 BM25 的加权方案，或者对 TF 进行开方处理。

$W_{x,c}=||tf_{x,c}||×log(1+\frac{A}{f_x})$
基于类 BM25 的加权方案： $log(1+\frac{A-f_x+0.5}{f_x+0.5})$
减少词频： $||\sqrt{tf_{x,c}}||$

注：我在《文本相似度算法：TF-IDF与BM25》这篇博客中详细介绍了 BM25 算法。

# Step 5 - Create topic representation
ctfidf_model = ClassTfidfTransformer()

4.训练模型

topic_model = BERTopic(
    embedding_model=embedding_model,    # Step 1 - Extract embeddings
    umap_model=umap_model,              # Step 2 - Reduce dimensionality
    hdbscan_model=hdbscan_model,        # Step 3 - Cluster reduced embeddings
    vectorizer_model=vectorizer_model,  # Step 4 - Tokenize topics
    ctfidf_model=ctfidf_model,          # Step 5 - Extract topic words
    diversity=0.5,                      # Step 6 - Diversify topic words
    nr_topics=10                        
)

几个常用的参数：

diversity：是否使用 MMR（Maximal Marginal Relevance，最大边际相关性）来多样化生成的主题表示。如果设置为 None，则不会使用 MMR。可接受的值介于 $0$ 和 $1$ 之间， $0$ 表示完全不多样化， $1$ 表示最多样化。
nr_topics：指定主题数会将初始主题数减少到指定的值。这种减少可能需要一段时间，因为每次减少主题 ( $- 1$ ) 都会激活 c-TF-IDF 计算。如果将其设置为 None，则不会应用任何减少。将其设置为 ‘auto’，则 HDBSCAN 自动减少主题。
calculate_probabilities：默认为 False。是否计算每篇文档所有主题的概率，而不是计算每篇文档指定主题的概率。如果文档较多（ $> 100000$ ），这可能会减慢主题的提取速度。如果为 False，则不能使用相应的可视化方法 visualize_probabilities。

博主测试的训练时间大概是 $10$ 分钟。

topics, probabilities = topic_model.fit_transform(filtered_text)

topic_model.get_document_info(filtered_text)

topic_model.get_topic_freq()

topic_model.get_topic(0)

5.可视化结果

BERTopic 提供了多种类型的可视化方法，以帮助我们从不同的方面评估模型。后续我会专门出一篇博客针对 BERTopic 中的可视化进行详细介绍，此处仅对一些常用的可视化方法进行总结。

5.1 Barchart

可视化所选主题的条形图。

topic_model.visualize_barchart()

5.2 Documents

在 2D 中可视化文档及其主题。

embeddings = embedding_model.encode(filtered_text, show_progress_bar=False)

# Run the visualization with the original embeddings
topic_model.visualize_documents(filtered_text, embeddings=embeddings)

5.3 Hierarchy Topics

基于主题嵌入之间的余弦距离矩阵执行层次聚类。

topic_model.visualize_hierarchy()

# Extract hierarchical topics and their representations
hierarchical_topics = topic_model.hierarchical_topics(filtered_text)

# Visualize these representations
topic_model.visualize_hierarchy(hierarchical_topics=hierarchical_topics)

5.4 Heatmap

基于主题嵌入之间的余弦相似度矩阵，创建了一个热图来显示主题之间的相似度。

topic_model.visualize_heatmap()

5.5 Term Score Decline

每个主题都由一组单词表示。然而，这些词以不同的权重来代表主题。本可视化方法显示了需要多少单词来表示一个主题，以及随着单词的添加，增益在什么时候开始下降。

topic_model.visualize_term_rank()

5.6 Topics

本可视化方法是受到了 LDAvis 的启发。LDAvis 是一种服务于 LDA 的可视化技术。

topic_model.visualize_topics()

6.评估

在 BERTopic 官网上并没有对评估这一块内容的介绍。但如果你想定量比较 LDA 和 BERTopic 的结果，则需要对评估方法加以掌握。

关于主题建模的评估方法，在我之前写的博客中也多次提到。可视化是一种良好的评估方法，但我们也希望以定量的方式对建模结果进行评估。主题连贯度（Topic Coherence）是最常用的评估指标之一。我们可以使用 Gensim 提供的 CoherenceModel 对结果进行进行评估。计算主题连贯度的方法很多，我们此处仅以 C_v 为例。

import gensim
import gensim.corpora as corpora
from gensim.models.coherencemodel import CoherenceModel

documents = pd.DataFrame({"Document": filtered_text,
                          "ID": range(len(filtered_text)),
                          "Topic": topics})
documents.head()

documents_per_topic = documents.groupby(['Topic'], as_index=False).agg({'Document': ' '.join})
documents_per_topic

cleaned_docs = topic_model._preprocess_text(documents_per_topic.Document.values)

# Extract vectorizer and analyzer from BERTopic
vectorizer = topic_model.vectorizer_model
analyzer = vectorizer.build_analyzer()

下面的内容主要涉及到 Gensim 中模型的使用，在我之前的博客中也有详细介绍，此处不再赘述。

# Extract features for Topic Coherence evaluation
words = vectorizer.get_feature_names()

tokens = [analyzer(doc) for doc in cleaned_docs]

dictionary = corpora.Dictionary(tokens)

corpus = [dictionary.doc2bow(token) for token in tokens]

topic_words = [[words for words, _ in topic_model.get_topic(topic)] for topic in range(len(set(topics))-1)]

不过，我们稍微看一下 topic_words 中的内容。

topic_words

topic_words 的结果是一个双重列表，含义是每一个主题所对应的代表词组。从上图中可以看到，有一个列表的结果中包含空字符串，必须把这个空字符串去掉，不然后面的连贯度计算会报错。（注意：博主在这个地方一开始出现了错误，经排查才发现）

a = []
for i in range(len(topic_words)):
    b = []
    for word in topic_words[i]:
        if word != '':
            b.append(word)
    a.append(b)
    
topic_words = a
topic_words

# Evaluate
coherence_model = CoherenceModel(topics=topic_words, 
                                 texts=tokens, 
                                 corpus=corpus,
                                 dictionary=dictionary, 
                                 coherence='c_v')
                                 
coherence = coherence_model.get_coherence()

print(coherence)

如果在一开始导入数据时，没有去除掉头尾的内容，按照下面这种方式导入，主题连贯度得分也会低不少。所以文本内容和有效的数据清理会对最后的结果会产生一定影响。

dataset = fetch_20newsgroups(subset='train')['data']

最后，对于本文中用到的几个包的版本特别说明一下。先安装 bertopic，再安装 gensim。

名称	版本	名称	版本
pandas	1.4.1	numpy	1.20.0
bertopic	0.13.0	gensim	3.8.3
nltk	3.8.1	scikit-learn	1.2.1
scipy	1.10.0	sentence-transformers	2.2.2

7.参考文献

[1] Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv, abs/1810.04805.
[2] Soodeh Hosseini and Zahra Asghari Varzaneh. 2022. Deep text clustering using stacked AutoEncoder. Multimedia Tools Appl. 81, 8 (Mar 2022), 10861–10881. https://doi.org/10.1007/s11042-022-12155-0

稳稳的幸福泺伊悦尔
每当难过的时候，总想倾听《稳稳的幸福》稳稳的幸福(《越来越好之村晚》电影主题曲)-陈奕迅(EasonChan)词：小柯曲：小柯编曲：小柯有一天我发现自怜资格都已没有只剩下不知疲倦的肩膀担负着简单的满足有一天开始从平淡日子感受快乐看到了明明白白的远方我要的幸福我要稳稳的幸福能抵挡末日的残酷在不安的深夜能有个归宿我要稳稳的幸福能用双手去碰触每次伸手入怀中有你的温度有一天我发现自怜资格都已没有只剩下不知
元宇宙与Web3的深度融合：构建沉浸式数字体验的愿景与挑战
一、技术特征与融合基础1.元宇宙的技术架构（2025年）空间构建技术：3D建模与渲染：实时渲染引擎（如UnityHDRP）支持路径追踪光追，AI生成模型（NVIDIAGet3D）3秒生成3D场景。数字孪生：城市级建模（腾讯覆盖100+城市）、工业级精度（西门子Xcelerator达0.1mm），动态映射现实数据（如NASA火星车实时驱动虚拟环境）。交互技术：自然交互界面：手势识别（UltraLea
【清14】如何写好一篇文章？教你五个步骤来搞定！阿树説
作者/阿树来源/阿树说（公众号：sxs20181001）我们要如何写好一篇文章呢？五个步骤就够了，那么哪五个步骤呢？一列提纲，二写初稿，三找素材，四填素材，五修改。第一步，列提纲。首先确定我们要写的主题，把主要观点、次要观点，以列提纲的形式简单写一下，或者思维导图的方式都是可以的，目的是把文章的主体框架先搭建好。第二步，写初稿。根据我们列的提纲，写初稿。写初稿的时候，我们总是觉得自己的文章写得很烂
【2024国赛C题】【农作物的种植策略】2024 年全国大学生数学建模比赛思路、代码更新中..... 程序猿鑫数学建模
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️竞赛事件及参赛1找程序网站推荐2公式编辑器、流程图、论文排版324年国赛C题及资源下载4思路、代码分享......⛳️竞赛事件及参赛根据乡村的实际情况，充分利用有限的耕地资源，因地制宜，发展有机种植产业，对乡村经济的可持续发展具有重要的现实意义。选择适宜的农作物，
略说NLP引入公理模型的可行性金井PRATHAMA 知识图谱与NLP 自然语言处理人工智能知识图谱
在自然语言处理（NLP）的深层语义分析中，公理化体系的引入具有理论可行性，但其实际应用仍面临挑战。以下从公理模型的设计思路、关键技术要点及注意事项三个方面展开分析，结合搜索结果的多个相关技术点进行综合说明：一、公理模型在深层语义分析中的设计思路公理的定义与语义形式化公理模型需以形式化逻辑为基础，定义语义分析中的原始概念（如谓词、实体、关系）和推理规则。例如：原始概念：将语义角色（如施事者、受事者）
列车-轨道-桥梁交互仿真研究（Matlab代码实现）
欢迎来到本博客❤️❤️欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、研究背景与核心概念二、系统建模方法与关键技术(1)子系统建模(2)耦合机制与算法(3)激励源建模三、仿真软件工具与验证(1)主流仿真平台(2)参数设置要点(3)实验验证方法四、工程应用与典型案例(1)安全评估与优化设计(2)极端工况分析
半心恋之一念永恒45 记号佛铃花语
几人商量了许久，依然没有结论，折颜和白真起身告辞，走之前只说先用药膳调理着。折颜和白真离开后，凤九有些烦闷，成玉又不在，有个事情都没人一起商量，哎！凤九叹完气，起身去了一趟洗梧宫，一个时辰后，被帝君接了回来。第二日一早，乘着帝君上早朝的时间，凤九走向帝君的书房，她要做一件大事，这事她已经苦思冥想了许久。昨日去洗梧宫，一直绕着一个主题：如果真的忘了帝君，该怎么办？白浅自是心疼自家侄女，握着她的手眼眶
《创造难忘的人物》让你笔下的人物自己跳出来2 西湖涵碧
图片发自App文‖西湖涵碧(原创)接上文继续讲难忘的人物如何创造第六章，添加辅助人物和次要人物很多好故事之所以令人难忘，正是由于其中的辅助人物，他们可以推进故事，澄清主要人物的角色，增加色彩和质感，深化主题，拓展色调为最微小的场景和瞬间增加细节。辅助人物有助于定义主人公的角色和重要性。辅助人物有助于传达故事的主题。辅助人物可以成为催化剂式的人物，传达出信息并推动故事发展。在故事中创造何种人物来执行
见识行成
刚开始听说见识，是农村里常说的老话：头发长，见识短！说的是女人的不足。后来上小学读过一篇文章叫井底观天，讲的一只出生在井底的青蛙，认为全世界就是这口井，井口就是全部的天空。后来遇到一只来喝水的小鸟，告诉它世界很大，要带它去看看。但是它只相信自己看到的接触的。这个故事充分的说明了见识的差距对个人的影响。最后来说我上个主题营看的《好好学习》这本书，其中有一个小点：重新定义问题。见识高的人面对问题会系统
SBERT、CoSENT和BETR以及transformers的区别和联系 panshengnan NLP nlp transformer
SBERT、CoSENT、BETR和Transformers的区别和联系这几个模型（SBERT、CoSENT、BETR）和框架（Transformers）都是围绕自然语言处理（NLP）的句子嵌入和语义理解任务展开的。它们的联系主要在于基于Transformer架构，并针对特定任务做了优化；区别则在于目标任务、优化策略、训练方法和适用场景等方面。1.联系基于Transformer架构：它们的核心编码
《有关写书评文章的写作框架》千江雪_2932
11月5日书评比读后感难写，对于新手来说，要先掌握好写书评的套路和写作框架，然后先按着框架写，要不写着写着就写成读后感去了。因为想要写书评，所以，正在不断学习的过程中，今天发现有这么一篇文章，作者把书评的写作框架和过程说的非常的清楚。所以学习笔记了。写文章都要谋篇布局，写书评也是一样的，先列出主题和文章框架。以下是最简单也是最常见的书评文章框架。1、开篇破题2、引出书的内容梗概及作者简介3、用一个
【自然语言处理】文本规范化 2401_84149564 自然语言处理自然语言处理人工智能文本规范化 python 分词词的规范化分句
目录一、引言二、分词三、词规范化四、分句五、文本规范化的Python代码实战六、总结一、引言在自然语言处理的许多任务中，第一步都离不开文本规范化。文本规范化的作用是将使用字符串表示的文本转化为更易于计算机处理的规范形式。文本规范化一般包括3个步骤：分词、词的规范化、分句。本文将分别介绍这3个步骤及Python代码实战。二、分词词是语言的基本单元，人类学习语言的过程也是从理解词开始的。显而易见，自然
Unity物理系统由浅入深第六节：高级主题与前沿探索吉良吉影NeKoSuKi unity 游戏引擎 c#开发语言架构
Unity物理系统由浅入深第一节：Unity物理系统基础与应用Unity物理系统由浅入深第二节：物理系统高级特性与优化Unity物理系统由浅入深第三节：物理引擎底层原理剖析Unity物理系统由浅入深第四节：物理约束求解与稳定性Unity物理系统由浅入深第五节：手写物理系统入门与实践我们已经走过了Unity物理系统从入门到手写实践的完整旅程。我们现在不仅能够熟练运用Unity内置的物理功能，理解其底
c语言标准io库,IO之标准C库buffer 抬杠小天才 c语言标准io库
在论述这个主题之前，先介绍一下标准C库和linux系统调用以及windowsAPI之间的关系。拿写文件来举个例子linux下写文件用write()windows下写文件用WriteFile()这说明不同操作系统实现同样的系统功能的接口应该是不一样的。造成这种现状是操作系统发展的历史原因造成的，无法在操作系统的层面统一系统函数接口。同样功能的程序在linux上写一套，windows上又得写另外一套，
（5/100）无戒学堂100天王牌小说课:怎样选择适合自己的网络小说平台? 紫云婵
01分类与标签选择正确的分类和标签，作品才能够被更好地展现出来，也会更加容易被认可，被推荐。02平台内容与方向了解平台内容方向1.看平台首页推荐2.看平台征文3.了解平台状况4.生存状况，福利状况，流量状况。03平台分析不同平台，有不同的特征分析。豆瓣、掌阅（女频）、书山（男频）、起点、番茄（悬，仙，奇，都，科剧）表达主题，统一人称，规范用词，精简对话，减少描写，减少口语化，不必要的书面语（免说教
ONNX模型使用指南：从零开始掌握跨领域模型部署
ONNX模型使用指南：从零开始掌握跨领域模型部署ONNX模型作为一种开放式的神经网络交换格式，已成为AI模型部署的行业标准。当您获得一个没有使用说明的ONNX模型时，可以通过系统化的分析和部署流程，使其在不同领域发挥作用。本文将详细阐述如何分析模型结构、配置运行环境、准备特定领域输入数据、执行推理并处理结果，同时提供图像分类、自然语言处理、医疗影像分析、金融风控和自动驾驶等领域的具体应用示例，帮助
日有所思：开控辍保学会议有感（NO.323,周一，晴）田园花开
今天下午有个紧急套会在德润小学召开，会议的主题是城区“义务教育控辍保学联席会暨责任督学聘任仪式”。教育局局长和新任的常务区长先后作了发言，从他们的发言中我大致了解了城区控辍保学工作情况和存在问题。控辍保学是一项艰巨而又光荣的任务，特别是我区两镇的老师，经常假期也不休息，走家串户，反反复复做工作可能才能把这些辍学的孩子重新请回教室。如果每一个学生都是因为家贫而辍学的，都能像希望工程标志“大眼睛”苏明
2025年计算机领域年度主题：融合创新与技术突破 Гений.大天才量子计算 2025年度主题
2025年计算机领域年度主题：融合创新与技术突破一、引言2025年，计算机领域迎来了诸多重大技术突破和行业动态。这些进展不仅推动了技术的边界，也为开发者和企业带来了新的机遇和挑战。2025年的年度主题是“融合创新与技术突破”，这一主题反映了当前计算机领域技术融合的趋势，以及在各个子领域中取得的重大突破。本文将从量子计算、AI芯片、云计算、区块链等多个方面，详细介绍2025年计算机领域的技术进展和应
2022－2－21|生命日记100#057 度九天
生活规律起床：7:10就寝：23:00天气：阴转小雨情绪：平和月度目标及完成情况40000‖12000运动：0读书《遥远的救世主》重读纸质版成就日志件：记录三五件有收获的事务1、日更4000字2、挑战主题夜分享3、邮寄送出去的书感恩：1、感恩儿子的聊天陪伴2、感恩航天信息客服的耐心解答3、感恩小伙伴参加活动的支持金句：但问耕耘，莫问收获，因上努力，果上随缘感悟:想到的事情要马上去做。
单身男人的白日梦你先走
短文，这是看完英伦才子阿兰.德波顿《无聊的魅力》后的一些想法。强迫孤独，忧伤以及快乐如果你像我一样太早接触火车这类事物，很早背井离乡，成年后经年累月四处漂泊，一定和我一样，更容易看懂爱德华.霍珀的画作。aaf0a9268bba469c8da9b0d49fda44dc.jpeg孤独，是霍珀绘画艺术的核心主题。但是，用德波顿的话说：其作品充满忧伤，但不会让观众忧伤。f0def170bb3815d798
GEV/POT/Markov/点过程/贝叶斯极值全解析；基于R语言的极值统计学
极值统计学就是专门研究自然界和人类社会中很少发生，然而发生之后有着巨大影响的极端现象的统计建模及分析方法；在水文、气象、环境、生态、保险和金融等领域都有着广泛的应用。专题一、独立假设下的极值统计建模主要内容包括：1.广义极值模型.2.极小值的处理.3.广义Pareto模型.4.第r大次序统计量建模.5.R语言中极值统计学包.6.实例操作1-2.(提供案例数据及代码)专题二、平稳时间序列的极值统计建
LINDDUN威胁建模原理和架构及案例 hao_wujing 人工智能
大家读完觉得有帮助记得关注和点赞！！！LINDDUN威胁建模框架是专注于隐私风险分析的系统化方法论，其名称源自七类隐私威胁的首字母缩写（Linking,Identifying,Non-repudiation,Detectability,Disclosure,Unawareness,Non-compliance）。以下从原理、架构及典型案例三方面展开深度解析：一、核心原理：隐私威胁分类与数据流分析1
12月21日，第②期"教育行走一起写吧"挑战300天活动第143天文章汇总小尘老师
12月21日，第②期"教育行走一起写吧"挑战300天活动第143天。我们的任务:每天一记录(500字以上自由写作)，每月一精品(2000字以上主题作文)我们的标准动作:写文（推荐）+挑战群中接龙（字数、题目+链接）+“教育行走一起写吧”小打卡圈打卡(字数、标题、内容)。每月精品文还需要登记在石墨文档12月份主题：“一起写吧”的故事特别提醒:打卡和接龙要求加上文章字数。例编号省份姓名名称（字数）题目
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
微课樊事宇
1.开课要“快”因为教学时间的限制，我们要迅速切入主题。可以从生活情累引入课题，也可以直接开门见山地讲。2.重点要“准”一定要抓住核心要点讲，一些可有可无的例子、讲解都可以意减掉。站在学生角度来设计做课脚本。3.讲解要“清”表达清晰准确，建议录制的时候，看提词器或者文字稿。如果是人出镇，注意仪表和手势。课件上最好要有字幕。4.总结要“新”好的总结往往给一节优质课起到画龙点睛的作用，可以使一节课上开
C#与Web开发：ASP.NET Core MVC框架墨瑾轩一起学学C#【一】c#前端 asp.net
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣引言嗨，小伙伴们！今天我们要聊的是一个超级有趣的主题——ASP.NETCoreMVC。如果你对C#还不熟悉，那么可以把它想象成一种既强大又灵活的语言，适合用来编写各种各样的应用程序。而ASP.NETCoreMVC呢？它是一种基于C#的现代Web开发框架，能够帮
口说作文库保辉
前几天偶然听到儿子在念诗：“《咏海》作者：库煜阳大海蓝如天，一望不见头。看见鱼儿游，赶紧去抓鱼。”听到这首“诗”，感觉有点怪怪的。我好奇地问了他一句：“你念的诗是你自己创作的吧？”儿子自豪地说：“是啊！是我自己创作的，你要是不相信，我还可以念几首你听听。”接着他又念了几首，随便一个主题，他都能说四句，感觉还真有点“诗”的味道。看到儿子的表现，我很开心。我开始有意识地引导他口头说作文，这时候，我发现
2019-11-26 f27835563ce4
构建和谐校园蓝天和白云的心一样,希望白鸽自由翱翔.老师和父母的心一样,希望我们健康成长.花开的日子我们走进校园这个快乐的地方,在平安校园愉快歌唱;花开的日子我们愿意用心情的音符,去谱写和谐校园的欢乐章.和谐是我国传统文化中具有代表性的观念,实现和谐,是古往今来人类孜孜以求的美好理想和愿望.而调动一切积极因素构建和谐文明的校园环境也将是一个永恒的主题.构建和谐校园需建立和谐师生关系.是老师给我们文化
Extreme values modelling 绪论 Liam_ml
极端值建模和估算是各种应用领域的重要挑战，例如环境，水文，金融，精算科学。样本的极端部分可能非常重要。也就是说，它可能表现出更大的潜在风险，例如高浓度的空气污染物，洪水，极端索赔规模。一般而言，极端之建模有三个方面：UnivariateExtremeValueTheory:单变量极值理论。BivariateExtremeValueTheory:双变量极值理论MultivariateExtremeV
Android平台上的高效文本编辑器实现与应用溪水边小屋
本文还有配套的精品资源，点击获取简介：在Android应用开发中，实现复杂的文本编辑功能是一个常见需求。”android-text-editor”是一个为Android定制的准文本编辑器组件，使用Kotlin语言编写，提供扩展的文本编辑功能。该编辑器支持富文本编辑，插入多媒体，查找替换，撤销/重做操作，代码高亮，手势控制，夜间模式和自定义主题等特性。开发者可以通过简单配置和事件监听来集成这个组件，
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持