二元方程

LDA主题建模——基于鸿星尔克微博热搜评论

项目背景

项目步骤

一、评论数据准备

二、使用步骤

1.将评论以日为单位合并

2.导包

3.TF-IDF提取关键词

4.Word2Vec词向量训练

5.LDA模型评估指标与最佳主题数的选取

三、结果可视化和分析

项目背景

在2021年7月，一起“鸿星尔克捐款5000万”的事件引发了网友们的强烈反响。年轻一代网友，即所谓的“Z世代”，涌入直播间，进行了所谓的“野性消费”，即疯狂地超额抢购产品，导致销量暴涨。为了探究这种“野性消费”对国产品牌带来的影响和引起的思考，本项目对该时间段关于鸿星尔克的微博评论进行了基于LDA模型的主题特征分析

项目步骤

一、评论数据准备

利用已经分词和清洗过后的评论数据作为项目数据来源，共有3500条评论。

二、使用步骤

1.将评论以日为单位合并

使用 drop_duplicates() 方法获得数据中的所有唯一时间戳。
对于每个唯一时间戳 time，使用 datas[datas["time"]==time]["tokenization_filtered"] 筛选出该时间段内的所有文档，然后使用 join() 方法将它们合并成一个字符串，并用空格分隔单词。同时，将合并后的字符串转化为单词列表（即按照空格切割）并存入 word_list 中，将字符串直接存入 comments_list 中。

代码如下：

import pandas as pd
from pandas import DataFrame 
from pandas import Series
datas = pd.read_csv("data_selected.csv", encoding='gbk', dtype={'tokenization_filtered': str, 'time': str})
word_list = []
comments_list = []
unique_time=datas["time"].drop_duplicates()

# 按时间段分组，将评论内容合并成一个长字符串，并转换为分词后的单词列表
for time, group in datas.groupby('time'):
    comments = group['tokenization_filtered'].str.cat(sep=' ')
    word_list.append(comments.split())
    comments_list.append(comments)

2.导包

代码如下：

import gensim
from gensim import corpora
import matplotlib.pyplot as plt
import matplotlib
import numpy as np
import warnings
warnings.filterwarnings('ignore')  # To ignore all warnings that arise here to enhance clarity
 
from gensim.models.coherencemodel import CoherenceModel
from gensim.models.ldamodel import LdaModel
from gensim import models

from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

plt.rcParams['font.family'] = 'SimHei'  # 设置字体为中文宋体

3.TF-IDF提取关键词

TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。它由两部分组成，TF和IDF。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。本文通过TF-IDF算法提取出鸿星尔克7月3日到9月1日每天的微博评论词语的权重比和最关键的三个词语。其中7月4日博文词语权重见表2-1，7月4日至7月5日最关键Top3见表2-2

代码如下：

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
time_list=list(unique_time)
# 示例文本集合
corpus = comments_list

# 将文本转化为词频矩阵
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

# 计算tf-idf
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)

# 输出每个词语对应的tf-idf值(该词重要程度)
feature_names = vectorizer.get_feature_names()
for i in range(tfidf.shape[0]):
    print(time_list[i])
    for j in tfidf[i].nonzero()[1]:
        print("  {} : {:.2f}".format(feature_names[j], tfidf[i, j]))
        
# 输出每个文档中前n个tf-idf值最大的词语
n = 3
for i in range(tfidf.shape[0]):
    print(time_list[i])
    top_n = sorted(zip(feature_names, tfidf[i].toarray()[0]), key=lambda x: -x[1])[:n]
    for word, score in top_n:
        print("  {}: {:.2f}".format(word, score))

在原始的LDA模型中，对文本建模的方式采用的词袋模型，而词袋模型存在一个严重的问题就行，常用词的词频往往很高，专有名词的词频很低，这种建模方式存在一定的不合理性。TF-IDF 相对于词袋模型的优势在于，它可以更准确地体现出文档中关键词的重要性。词袋模型只考虑了每个单词在文档中的出现频率，而没有考虑到该单词在整个文集中的重要性。相比之下，TF-IDF 还考虑了文集中某个词的普遍重要程度。

代码如下：

# 根据文本列表创建一个语料库，每个词与一个整型索引值对应
word_dict = corpora.Dictionary(word_list) 
# 词频统计，转化成空间向量格式
corpus_list = [word_dict.doc2bow(text) for text in word_list] 
tfidf = models.TfidfModel(corpus_list)
corpus_tfidf = tfidf[corpus_list]

4.Word2Vec词向量训练

利用Word2Vec构建词向量相对于词袋模型的优势在于：

Word2Vec 不仅能够将单词表示成独立的向量，还能够学习到单词之间的语义关系。因此，通过计算向量之间的余弦相似度，可以精确地捕捉单词之间的距离和相关性，而不是简单地计数单词出现的次数。
Word2Vec 能够处理未见过的单词。在许多自然语言处理任务中，经常会遇到未见过的单词。而词袋模型只能依靠上下文中出现过的单词来预测未知单词的含义，这可能导致低效或不准确的结果。相比之下，Word2Vec 能够对未见过的单词进行推断，并返回合理的向量表示。
Word2Vec 可以提高语言处理效率。与词袋模型相比，Word2Vec 使用浅层神经网络，例如多层感知器或卷积神经网络等，可大幅提高自然语言处理的效率。这种方法还允许自动学习词向量，而无需人工干预或手动维护词表和规则库。

因此，利用Word2Vec构建词向量相对于词袋模型具有更好的表征能力、更高的泛化能力以及更高的处理效率。

代码如下：

import gensim
from gensim import corpora
import matplotlib.pyplot as plt
import matplotlib
import numpy as np
import warnings
warnings.filterwarnings('ignore')  # To ignore all warnings that arise here to enhance clarity
 
from gensim.models.coherencemodel import CoherenceModel
from gensim.models.ldamodel import LdaModel
from gensim import models

from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

plt.rcParams['font.family'] = 'SimHei'  # 设置字体为中文宋体

5.LDA模型评估指标与最佳主题数的选取

主题一致性是指主题内部单词之间的联系程度，也被称为主题连贯度。在大多数关于主题建模的文章中，常用主题连贯度或主题连贯度指标来表示整体主题的可解释性，用于评估主题的质量。通常情况下，主题一致性越高，表示主题的连贯性越好，主题的可解释性也更高。

困惑度是衡量语言模型好坏的指标，也可以用于评估主题模型的质量。它反映了模型对新样本的泛化能力。困惑度越小，意味着模型对新样本的预测效果越好。在LDA中，可以通过计算每个主题下的单词概率来计算困惑度。

总的来说，主题一致性和困惑度是两种常用的评估LDA模型质量的指标。主题一致性主要关注主题内部单词之间的联系程度，而困惑度则更关注模型的泛化能力。

在项目中采用主题一致性来评估模型性能，本文采用TF-IDF和word2vec对文本建模，并绘制主题——一致性曲线来确定最佳主题个数，从而判断TF-IDF和word2vec是否对主题建模质量有所提高。并通过matplotlib绘制“主题-coherence”曲线来确定最优主题数。具体来说，首先在不同主题数下构建LDA模型，然后计算每个主题的一致性得分，最后将得分平均作为整个模型的一致性得分。通过不断改变主题数并计算一致性得分，得到一系列主题-coherence数据点，根据曲线的趋势选择最优主题数，从而确定模型的最佳主题数为7，且TF-IDF 主题建模的质量更好。

代码如下：

#计算困惑度
def perplexity(num_topics):
    """
    计算主题数为num_topics时的困惑度

    参数：
    num_topics: int，主题数目

    返回：
    ldamodel.log_perplexity(corpus): float，困惑度大小
    """
    ldamodel = LdaModel(corpus_list, num_topics=num_topics, id2word=word_dict, passes=30)
    return ldamodel.log_perplexity(corpus_list)

#计算coherence
def coherence(num_topics):
    """
    计算主题数为num_topics时的一致性(coherence)

    参数：
    num_topics: int，主题数目

    返回：
    ldacm.get_coherence(): float，一致性大小
    """
    ldamodel = LdaModel(corpus_list, num_topics=num_topics, id2word=word_dict, passes=30, random_state=1)
    ldacm = CoherenceModel(model=ldamodel, texts=word_list, dictionary=word_dict, coherence='c_v')
    return ldacm.get_coherence()

def coherence_tfidf(num_topics):
    ldamodel = LdaModel(corpus_tfidf, num_topics=num_topics, id2word=word_dict, passes=30, random_state=1)
    ldacm = CoherenceModel(model=ldamodel, texts=word_list, dictionary=word_dict, coherence='c_v')
    return ldacm.get_coherence()

def coherence_word2vec(num_topics):
    ldamodel = LdaModel(corpus_vec, num_topics=num_topics, id2word=dictionary_vec, passes=30, random_state=1)
    ldacm = CoherenceModel(model=ldamodel, texts=word_list, dictionary=dictionary_vec, coherence='c_v')
    return ldacm.get_coherence()

x = range(1,13)
y = []
y_tfidf = []
y_word2vec = []

for i in x:
    y.append(coherence(i))
    y_tfidf.append(coherence_tfidf(i))
    y_word2vec.append(coherence_word2vec(i))

# 创建画布
fig, ax = plt.subplots(figsize=(8,8))

ax.plot(x, y, color='b', label='coherence')
ax.plot(x, y_tfidf, color='g', label='tfidf coherence')
ax.plot(x, y_word2vec, color='r', label='word2vec coherence')
# 设置轮廓线和图例
for spine in ['left','bottom']:
    ax.spines[spine].set_linewidth(1.5)
for spine in ['top','right']:
    ax.spines[spine].set_visible(False)

ax.legend() 
ax.set_title('主题-coherence变化情况')
ax.set_xlabel('主题数目')
ax.set_ylabel('coherence大小')

plt.show()

三、结果可视化和分析

选择TF-IDF作为构建词向量的方法，输出每天最有可能的主题，结果如下

代码如下：

#设定主题数为7，并输出每个文档最有可能对应的主题
lda = LdaModel(corpus=corpus_tfidf, id2word=word_dict, num_topics=7, passes = 30,random_state=1)
topic_list=lda.print_topics()
 
for i in lda.get_document_topics(corpus_list)[:]:
    listj=[]
    for j in i:
        listj.append(j[1])
    bz=listj.index(max(listj))
    print("主题{}".format(i[bz][0]+1),end=" ")

pyLDAvis库是一个用于对LDA模型结果进行可视化的Python库，可以通过交互式的方式呈现主题模型的结果，pyLDAvis生成的LDA可视化结果图可以帮助我们直观地理解主题之间的相似度和每个主题的重要性。在这个图中，每个圆圈代表一个主题，圆圈的面积表示该主题在整个文集中占比大小，而圆圈之间的距离表示主题之间的距离，距离越近表示它们之间的关联程度越高。从每个圆圈的中心可以看到该主题的具体词频排名，这些词是该主题区别于其他主题的特征性词汇。

本项目基于词此库对LDA模型结果进行可视化。作者分别对TF-IDF、word2vec,和词袋模型训练的LDA模型进行可视化，对可视化结果和各个主题下特征词进行分析，TF-IDF训练的LDA模型结果不同主题特征词差异性良好，一定程度上可以说明主题分类效果较好，但是结果主要集中在某个特定主题，其他主题圆圈非常小，很难区分不同的主题。可能是因为采集的是某个事件下的评论数据，导致评论数据主题过于接近，word2vec训练的LDA模型的三个主题具有包含关系，说明它们之间的相关性和相似性过高。词袋模型训练的LDA模型结果较为分散，但是通过人为分析每个主题下的特征词，发现不同主题特征词相似性和重复率很高，一定程度上说明主题区分度不是很高。

TF-IDF

word2vec

词袋

代码如下：

import pyLDAvis.gensim_models
from gensim import corpora, models 
# 最终模型
## corpus: 文档词频矩阵
## num_topics：主题数目
## passes：训练伦次
lda = models.LdaModel(corpus = corpus_tfidf, id2word = word_dict, random_state = 1, num_topics = 7 , passes = 30, alpha='auto')# 结果展示

## lda: 训练好的模型
d = pyLDAvis.gensim_models.prepare(lda, corpus_tfidf, word_dict, mds = 'pcoa', sort_topics = True)

pyLDAvis.save_html(d, 'lda_show.html') # 将结果保存为html文件

# 展示在notebook的output cell中 
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(lda, corpus_list, word_dict)
vis

如何在 Conda 环境中使用 PySide6 将 .ui 文件转换为 .py 文件元素之窗 conda ui
如何在Conda环境中使用PySide6将.ui文件转换为.py文件在PyQt或PySide6开发中，通常会使用QtDesigner设计UI界面，并生成.ui文件。但为了在Python代码中使用这些UI设计，我们需要将.ui文件转换为.py文件。本文将介绍如何在Conda环境中使用PySide6进行转换。1.确保Conda环境已激活在PowerShell或命令行中，首先激活你的Conda环境，例如
【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系 longii11 linux pytorch 运维
一、cuda和cudnnNVIDIACUDAToolkit（CUDA）为创建高性能GPU加速应用程序提供了一个开发环境。借助CUDA工具包，您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。该工具包包括GPU加速库、调试和优化工具、C/C++编译器以及用于部署应用程序的运行时库。全球的深度学习研究人员和框架开发人员都依赖cuDN
【踩坑日记23】UserWarning: Plan failed with a cudnnException: CUDNN_BACKEND_EXECUTION_PLAN_DESCRIPTOR longii11 python 人工智能
问题描述/mnt/lab/XXX/anaconda3/envs/diffusion_ddpo/lib/python3.10/site-packages/torch/nn/modules/conv.py:456:UserWarning:PlanfailedwithacudnnException:CUDNN_BACKEND_EXECUTION_PLAN_DESCRIPTOR:cudnnFinalize
python找色_Python获取图片位置像素色值及判断色值是否存在 weixin_39966941 python找色
#!/usr/bin/python#-*-coding:utf-8-*-fromPILimportImage#涛哥用代码看是那的错https://blog.kydbk.comimg=Image.open("test.png")#获取图片尺寸的大小(600,600)printimg.size#获取图片的格式pngprintimg.format#获取图片的图像类型RGBAprintimg.mode#显
DeepSeek：AI赋能的无限可能——从日常生活到职业进阶的全场景探索 Hello kele 人工智能人工智能
引言在人工智能技术飞速发展的今天，DeepSeek作为一款国产AI工具，凭借其强大的推理能力、自然语言处理效率和场景化应用潜力，正在重塑人类解决问题的方式。从撰写演讲稿到制定投资策略，从家庭教育到企业管理，DeepSeek通过“自然语言对话”的交互模式，将复杂任务简化为几步提示词的输入，真正实现了“所想即所得”。本文将从七大核心场景出发，系统解析DeepSeek如何成为个人与组织的智能助手，推动效
RAG 检索增强生成：技术详解与应用展望君君学姐 RAG检索增强生成
RAG检索增强生成：技术详解与应用展望一、引言随着人工智能技术的飞速发展，自然语言处理（NLP）领域迎来了前所未有的变革。其中，检索增强生成（Retrieval-AugmentedGeneration，简称RAG）作为一种新兴的技术框架，正逐渐成为大模型应用中的热门选择。RAG通过结合信息检索（IR）和自然语言生成（NLG）的能力，旨在提升模型在回答问题、生成文本等任务中的准确性和可靠性。本文将深
【python】软件更新：用conda或Poetry 无水先生 AI原理和python实现 python指南和应用人工智能综合 python conda 开发语言
一、说明在实现anancoda的软件更新问题，需要明确几个问题：1）是python包吗？2）是C++包吗？更新的方法有别。python包可以pip访问。C++包必须是conda访问。二、更新C++包的循环依赖问题如果在Windows10上的Ananconda3.7上安装和更新软件包。运行代码时:condaupdate--all或者condainstallpandas收到以下错误:RemoveErr
python将pdf转换成word 勘察加熊人 typescript python pdf word
说明：我计划用python，把pdf文件转换成word文件step1:把python环境安装好，然后把helloworld跑起来step2:安装依赖：首先需要安装必要的Python库，在终端中运行，会开始下载依赖包，等待下载完成C:\Users\Administrator>pip--versionpip25.0.1fromC:\Users\Administrator\AppData\Local\P
使用OpenCV和Python将图像读取为RGB UixnContext opencv python 人工智能 OpenCV
在计算机视觉和图像处理中，OpenCV是一个广泛使用的开源库，提供了许多功能强大的图像处理工具。其中一个常见的任务是将图像读取为RGB格式，以便进一步处理和分析。在本文中，我将向您展示如何使用OpenCV和Python来实现这个任务。首先，确保您已经安装了OpenCV库。您可以使用以下命令在Python中安装OpenCV：pipinstallopencv-python一旦安装完成，我们可以开始写代
基于python cv 库实现读取图片像素值我是电脑高手 python小工具 python 开发语言图像处理
--------在日常生活中，我们经常用简单的形容词来描述颜色，比如“红色”、“蓝色”、“绿色”等。然而，这种描述方法对于精确确定颜色是有限的，尤其是在设计、图像处理、Web开发等领域。为了更准确和科学地定义颜色，我们通常采用RGB值来表示颜色。什么是RGB值？RGB是指红色（Red）、绿色（Green）和蓝色（Blue）的组合方式，用来表示颜色。RGB是一种加色模型，也就是说，通过将红、绿、蓝三
大型项目，选择conda还是Poetry要点分析 Hello kele conda Python Poetry AI编程人工智能
在大型项目中选择conda还是Poetry，取决于项目的具体需求，以下从多个维度进行分析，助你判断哪个更合适：包管理方面支持的包类型conda：作为跨语言的包管理系统，不仅能管理Python包，还能处理其他语言（如C、C++、R等）的包和依赖。对于大型项目，尤其是涉及多语言协同开发的项目，比如数据科学项目中可能会用到Python进行数据分析，同时依赖底层用C语言编写的高性能计算库，conda可以很
vscode配置python调试_vscode配置python调试(debug) weixin_39747049
vscode作为宇宙级编辑器，已经越来越多人开始使用它。而它的扩展也琳琅满目，在这里我们介绍下vscode下如何进行python开发和调试。首先，我们需要安装python扩展，打开编辑器，输入ctrl+p,然后输入命令extinstall打开扩展搜索。在扩展里面搜素python扩展，然后安装。创建一个文件夹，然后使用vscode打开这个文件夹创建一个文件，然后命名为index.py。配置调试文件，
python求函数最值的方法_python计算波峰波谷值的方法（极值点） weixin_39542742 python求函数最值的方法
python求极值点主要用到scipy库。1.首先可先选择一个函数或者拟合一个函数，这里选择拟合数据：np.polyfitimportpandasaspdimportmatplotlib.pyplotaspltimportnumpyasnpfromscipyimportsignal#滤波等xxx=np.arange(0,1000)yyy=np.sin(xxx*np.pi/180)z1=np.pol
人工智能开发趋势光影少年人工智能
人工智能开发趋势：未来技术的演进与创新引言人工智能（AI）正在以惊人的速度发展，并在各行各业中发挥越来越重要的作用。从自然语言处理到计算机视觉，从自动化决策到自主学习，AI的发展方向正变得更加智能化、自动化和人性化。本文将探讨当前AI开发的最新趋势，并展望未来的发展方向。1.生成式AI的崛起近年来，生成式AI（如ChatGPT、StableDiffusion、DALL·E）展现出强大的内容创作能力
【2024年华为OD机试】 (C卷,100分)- 分配土地（JavaScript&Java & Python&C/C++）妄北y 算法汇集笔记总结(保姆级)华为od c语言 javascript python java
一、问题描述题目描述从前有个村庄，村民们喜欢在各种田地上插上小旗子，旗子上标识了各种不同的数字。某天，集体村民决定将覆盖相同数字的最小矩阵形的土地分配给村里做出巨大贡献的村民。请问此次分配土地，做出贡献的村民最大会分配多大面积？输入描述第一行输入m和n：m代表村子的土地的长。n代表土地的宽。第二行开始输入地图上的具体标识：旗子上的数字为1~500，未插旗子的土地用0标识。输出描述输出此次分配土地，
【Py/Java/C++/C/JS/Go六种语言OD独家2024E卷真题】20天拿下华为OD笔试之【模拟】2024E-最大相连男生数【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #模拟 #状态压缩算法 java c++c语言华为od javascript python
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例输入输出解题思路代码代码一：分类写法pythonjavacppCNodejavaScriptGo代码二：合并写法pythonjavacppCNodejavaScriptGo*代码三：状态压缩写法pythonjavacppCNod
【Py/Java/C++/JS/Go五种语言【OD独家2024E卷真题】20天拿下华为OD笔试之【哈希表】2024E-猜字谜【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #哈希表 java c++华为od python 算法 leetcode
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳oj1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述备注示例一输入输出示例二输入输出解题思路谜面和谜底如何匹配暴力匹配所有谜底谜底库哈希表的构建代码解法一：哈希表预处理谜底pythonjavacppNodejavaScriptgo时空复杂度解法二：暴力匹配解（会超时）pythonja
【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【排序】2024E-VLAN资源池【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法 #模拟最新华为OD真题 java c++华为od leetcode 算法 python
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳od1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例一输入输出说明示例二输入输出说明示例三输入输出说明解题思路用二元组表示区间删除某一元素后区间的变化将二元组形式转换回原形式代码pythonjavacpp时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD
【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【模拟】2024E-靠谱的车【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #模拟 #数学 java c++华为od 算法 python leetcode
可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳od1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录相关推荐阅读题目描述与示例题目描述输入描述输出描述示例一输入输出示例二输入输出示例三输入输出解题思路从A进制到九进制从九进制到十进制代码pythonjavacpp时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练相关推荐阅读【华为OD机考】2024D+E卷最全真题【完全原创题解
【Py/Java/C++三种语言OD独家2024D卷真题】20天拿下华为OD笔试之【前缀和/固定滑窗】2024D-查找接口成功率最优时间段【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #前缀和 #滑动窗口算法 java c++华为od leetcode python
有LeetCode算法/华为OD考试扣扣交流群可加948025485可上欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳od1441了解算法冲刺训练（备注【CSDN】否则不通过）文章目录题目描述与示例题目描述输入描述输出描述示例一输入输出说明示例二输入输出说明解题思路贪心思想将除法转换为乘法固定滑窗前缀和代码解法一：前缀和pythonjavacpp解法二：固定滑窗pythonjavacpp时空复杂
【Py/Java/C++三种语言OD独家2024D卷真题】20天拿下华为OD笔试之【贪心】2024D-有效子字符串【欧弟算法】全网注释最详细分类最全的华为OD真题题解闭着眼睛学算法最新华为OD真题 #贪心 #双指针 java c++华为od 算法 python 贪心贪心算法
有LeetCode算法/华为OD考试扣扣交流群可加948025485可上全网独家的欧弟OJ系统练习华子OD、大厂真题绿色聊天软件戳od1336了解算法冲刺训练文章目录题目描述与示例题目输入输出描述示例一输入输出示例二输入输出解题思路代码pythonjavacpp时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练从2024年4月15号开始，OD机考全部配置为2024D卷。注意两个关键点：会遇到C
去中心化存储的新纪元：Python与IPFS的完美结合 Echo_Wish Python！实战！去中心化 python 区块链
去中心化存储的新纪元：Python与IPFS的完美结合在数据爆炸的时代，存储和共享数据的方式正在发生革命性的变化。传统的中心化存储方案虽然广泛应用，但其安全性、可靠性和可扩展性却始终存在挑战。与此同时，去中心化存储方案正在逐渐兴起，并展现出巨大的潜力。本文将围绕Python与IPFS（InterPlanetaryFileSystem）的结合，探讨如何构建高效的去中心化存储解决方案。为什么选择去中心
大模型驱动的智能代码生成系统 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型驱动的智能代码生成系统关键词大模型智能代码生成自然语言处理计算机视觉系统设计与实现摘要本文深入探讨了基于大模型的智能代码生成系统的构建与实现。首先，我们分析了智能代码生成的背景与意义，随后介绍了大模型的基本原理及其在代码生成中的潜力。接着，我们详细阐述了智能代码生成系统的设计与实现过程，包括系统需求分析、架构设计、模型集成与优化等方面。随后，本文通过自然语言处理、计算机视觉和代码生成应用，展
Python环境迁移到另一台电脑的Anaconda环境下 Calvad0s Python python linux 开发语言 Anaconda conda
目录一、使用命令导出当前环境的依赖包二、将requirements.txt文件复制到另一台电脑上三、在Anaconda环境中使用命令进行导入一、使用命令导出当前环境的依赖包pipfreeze>requirements.txt二、将requirements.txt文件复制到另一台电脑上三、在Anaconda环境中使用命令进行导入pipinstall-rrequirements.txt
Python实现扫雷游戏叫兽-郭老师【Python】游戏开发游戏 python
提供学习或者毕业设计使用，功能基本都有，不能和市场上正式游戏相提比论，请理性对待！通过购买专栏或者CSDN问答提问，采纳后，私信博主。提供源码！说明：需要的话联系博主！谢谢。如果需要一步一步解析步骤，可以联系博主，博主可以提供详细实现步骤。博客下方有我vx。代码：#扫雷游戏im
Installing Anaconda on Raspberry Pi 4 with Ubuntu 20.04 pertain99 Ubuntu Linux
RaspberryPi4runson32-bit.Usethe32-bitversionsandyoushouldbeokay!I’verecentlyinstalledminicondaonmyRaspberryPi4.Ididitusingthefollowingcommands:#Updatelinuxsudoaptupdate-y#Installpython3sudoaptinstall-
基于python的“扫雷”游戏实现 m0_74802518 游戏 python windows
一、引言：最近在学习python语言，想着尝试通过python来实现儿时玩过的小游戏，于是从"扫雷"游戏开始，依据自己的理解，编写游戏代码。若有不周到之处，还望大家批评指正。环境配置：python3.12,pygame2.6.1,numpy1.26.4二、效果展示灰色为未揭开的单元，红色表示地雷，绿色表示“插旗”（即认定此单元格为地雷）三、程序思路1.程序框架图如图所示，我们需要创建“扫雷”用的棋
LLM辅助编程：代码自动生成与优化 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
LLM,代码生成,代码优化,编程辅助,AI编程,自然语言处理,深度学习1.背景介绍随着软件开发的日益复杂化，程序员面临着越来越高的开发压力和效率要求。传统的编程方式依赖于手动编写代码，这不仅耗时费力，而且容易出现错误。近年来，随着深度学习技术的快速发展，基于大型语言模型（LLM）的代码生成和优化技术逐渐成为软件开发领域的新兴热点。LLM是一种强大的人工智能模型，能够理解和生成人类语言。通过训练大量
Python入门实战：Python基础语法详解 AI智能涌现深度研究 Python入门实战大数据人工智能语言模型 Java Python React 架构设计
1.背景介绍Python是一种高级的、通用的、解释型的编程语言，由GuidovanRossum于1991年创建。Python的设计目标是让代码更简洁、易读和易于维护。Python的语法结构简洁，易于学习和使用，因此成为了许多程序员的首选编程语言。Python的核心概念包括变量、数据类型、条件语句、循环、函数、类和模块等。在本文中，我们将详细介绍这些概念，并提供相应的代码实例和解释。2.核心概念与联
国内开源深度学习框架 we19a0sen 深度学习人工智能
目录一、国内开源深度学习框架1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）二、快速入手1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）三、基础教程1、Paddle
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

LDA主题建模——基于鸿星尔克微博热搜评论

项目背景

项目步骤

一、评论数据准备

二、使用步骤

1.将评论以日为单位合并

2.导包

3.TF-IDF提取关键词

4.Word2Vec词向量训练

5.LDA模型评估指标与最佳主题数的选取

三、结果可视化和分析

你可能感兴趣的:(python,机器学习,深度学习,自然语言处理,word2vec)