Eastmount

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析

这是《Python数据挖掘课程》系列文章，前面很多文章都讲解了数据挖掘、机器学习，这篇文章主要讲解LDA和pyLDAvis算法，同时讲解如何读取CSV文本内容进行主题挖掘及可视化展示。
文章比较基础，希望对你有所帮助，提供些思路，也是自己教学的内容。推荐大家购买作者新书《Python网络数据爬取及分析从入门到精通（分析篇）》，如果文章中存在错误或不足之处，还请海涵。

目录：
一.显示结果及安装
二.LDA主题挖掘
三.pyLDAvis可视化分析
四.小结

前文参考：
【Python数据挖掘课程】一.安装Python及爬虫入门介绍
【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍
【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化
【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析
【Python数据挖掘课程】五.线性回归知识及预测糖尿病实例
【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识
【Python数据挖掘课程】七.PCA降维操作及subplot子图绘制
【Python数据挖掘课程】八.关联规则挖掘及Apriori实现购物推荐
【Python数据挖掘课程】九.回归模型LinearRegression简单分析氧化物数据
【python数据挖掘课程】十.Pandas、Matplotlib、PCA绘图实用代码补充
【python数据挖掘课程】十一.Pandas、Matplotlib结合SQL语句可视化分析
【python数据挖掘课程】十二.Pandas、Matplotlib结合SQL语句对比图分析
【python数据挖掘课程】十三.WordCloud词云配置过程及词频分析
【python数据挖掘课程】十四.Scipy调用curve_fit实现曲线拟合
【python数据挖掘课程】十五.Matplotlib调用imshow()函数绘制热图
【python数据挖掘课程】十六.逻辑回归LogisticRegression分析鸢尾花数据
【python数据挖掘课程】十七.社交网络Networkx库分析人物关系（初识篇）
【python数据挖掘课程】十八.线性回归及多项式回归分析四个案例分享
【python数据挖掘课程】十九.鸢尾花数据集可视化、线性回归、决策树花样分析
【python数据挖掘课程】二十.KNN最近邻分类算法分析详解及平衡秤TXT数据集读取
【python数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析
【python数据挖掘课程】二十二.Basemap地图包安装入门及基础知识讲解
【python数据挖掘课程】二十三.时间序列金融数据预测及Pandas库详解
【python数据挖掘课程】二十四.KMeans文本聚类分析互动百科语料
【python数据挖掘课程】二十五.Matplotlib绘制带主题及聚类类标的散点图
【python数据挖掘课程】二十六.基于SnowNLP的豆瓣评论情感分析
【python数据挖掘课程】二十七.基于SVM分类器的红酒数据分析

一.显示结果及安装

参考LDA前文：
[python] LDA处理文档主题分布及分词、词频、tfidf计算
[python] LDA处理文档主题分布代码入门笔记

调用LDA和pyLDAvis的运行结果如下图所示，将文本数据划分为3个主题，每个主题对应相关的关键词及比例。当选择第一个主题时，它显示为红色，其中“股市”、“下跌”表示对应的关键词出现概率。

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第1张图片

其他主题也类似，如下图所示：

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第2张图片

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第3张图片

本文和之前介绍的LDA算法略有不同，它主要采用sklearn中的LatentDirichletAllocation包实现主题分布研究，并调用pyLDAvis绘制相关图形。安装过程如下所示：

pip install pyLDAvis

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第4张图片

二.LDA主题挖掘

1.数据读取

本文数据集共15行，涉及新春、股市和贵州三个主题，如下图所示：

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第5张图片

id	comment
1	新春备年货，新年联欢晚会
2	新春节目单，春节联欢晚会红火
3	大盘下跌股市散户
4	下跌股市赚钱
5	金猴新春红火新年
6	新车新年年货新春
7	股市反弹下跌
8	股市散户赚钱
9	新年,看春节联欢晚会
10	大盘下跌散户
11	贵州省位于中国西南地区，简称黔
12	走边神州大地，醉美多彩贵州
13	贵阳市是贵州省省会城市，有林城的美誉
14	贵州省包括九个市州和一个新区
15	贵阳市近年发展大数据取得一定成果

调用pandas读取CSV文件核心代码如下：

#coding: utf-8
import pandas as pd

#读取数据
f = open('data3.csv')
df = pd.read_csv(f)
print(df.shape)         #查看数据维度
print(df.head())        #查看前几行数据

输出结果如下所示：

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第6张图片

2.Jieba中文分词

在进行文本挖掘之前需要进行中文分词处理，下面是调用Jieba工具进行分词和词性过滤的代码。

import jieba
import jieba.posseg as psg

a = '我想大口吃肉喝酒看电影，质量真差,好漂亮啊'
sen = psg.cut(a)
for n in sen:
    print n

#过滤词性
def chinese_word_cut(mytext):
    result = psg.cut(mytext)
    return ' '.join(x.word for x in result if x.flag =='a' or x.flag =='n' or x.flag =='v')

print(chinese_word_cut(a))

输出结果如下所示：

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第7张图片

接着对CSV文本进行中文分词处理，核心代码如下：

#coding: utf-8
import pandas as pd

#第一步 读取数据
f = open('data3.csv')
df = pd.read_csv(f)
print(df.shape)         #查看数据维度
print(df.head())        #查看前几行数据

#第二步 中文分词
import jieba
import jieba.posseg as psg

#格式转换 否则会报错  'float' object has no attribute 'decode'
df = pd.DataFrame(df['comment'].astype(str))

def chinese_word_cut(mytext):
    return ' '.join(jieba.cut(mytext))

#增加一列数据
df['content_cutted'] = df['comment'].apply(chinese_word_cut)
print df.content_cutted.head()

此时的输出结果如下所示：

0      新春 备 年货 ， 新年 联欢晚会
1    新春 节目单 ， 春节 联欢晚会 红火
2            大盘 下跌 股市 散户
3               下跌 股市 赚钱
4            金猴 新春 红火 新年
Name: content_cutted, dtype: object

3.词频及TF-IDF计算

代码如下：

#coding: utf-8
import pandas as pd

#第一步 读取数据
f = open('data3.csv')
df = pd.read_csv(f)
print(df.shape)         #查看数据维度
print(df.head())        #查看前几行数据

#第二步 中文分词
import jieba
import jieba.posseg as psg

#格式转换 否则会报错  'float' object has no attribute 'decode'
df = pd.DataFrame(df['comment'].astype(str))

def chinese_word_cut(mytext):
    return ' '.join(jieba.cut(mytext))

#增加一列数据
df['content_cutted'] = df['comment'].apply(chinese_word_cut)
print df.content_cutted.head()

#第三步 计算TF-IDF值
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

#设置特征数
n_features = 2000

tf_vectorizer = TfidfVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words=['的','或','等','是','有','之','与','可以','还是','比较','这里',
                                            '一个','和','也','被','吗','于','中','最','但是','图片','大家',
                                            '一下','几天','200','还有','一看','300','50','哈哈哈哈',
                                             '“','”','。','，','？','、','；','怎么','本来','发现',
                                             'and','in','of','the','我们','一直','真的','18','一次',
                                           '了','有些','已经','不是','这么','一一','一天','这个','这种',
                                           '一种','位于','之一','天空','没有','很多','有点','什么','五个',
                                           '特别'],
                                max_df = 0.99,
                                min_df = 0.002) #去除文档内出现几率过大或过小的词汇
tf = tf_vectorizer.fit_transform(df.content_cutted)

print(tf.shape)
print(tf)

此时输出结果如下，包括15行数据，41个特征词，并计算每个特征词的TF-IDF值。
推荐作者前文：[python] 使用scikit-learn工具计算文本TF-IDF值

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第8张图片

4.LDA主题挖掘

进行LDA主题挖掘，计算各个主题及对应关键词的核心代码如下：

#coding: utf-8
import pandas as pd

#-------------------  第一步 读取数据  ------------------------
f = open('data3.csv')
df = pd.read_csv(f)
print(df.shape)         #查看数据维度
print(df.head())        #查看前几行数据

#-------------------  第二步 中文分词  ----------------------- 
import jieba
import jieba.posseg as psg

#格式转换 否则会报错  'float' object has no attribute 'decode'
df = pd.DataFrame(df['comment'].astype(str))

def chinese_word_cut(mytext):
    return ' '.join(jieba.cut(mytext))

#增加一列数据
df['content_cutted'] = df['comment'].apply(chinese_word_cut)
print df.content_cutted.head()

#-------------------  第三步 计算TF-IDF值  --------------------- 
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

#设置特征数
n_features = 2000

tf_vectorizer = TfidfVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words=['的','或','等','是','有','之','与','可以','还是','比较','这里',
                                            '一个','和','也','被','吗','于','中','最','但是','图片','大家',
                                            '一下','几天','200','还有','一看','300','50','哈哈哈哈',
                                             '“','”','。','，','？','、','；','怎么','本来','发现',
                                             'and','in','of','the','我们','一直','真的','18','一次',
                                           '了','有些','已经','不是','这么','一一','一天','这个','这种',
                                           '一种','位于','之一','天空','没有','很多','有点','什么','五个',
                                           '特别'],
                                max_df = 0.99,
                                min_df = 0.002) #去除文档内出现几率过大或过小的词汇
tf = tf_vectorizer.fit_transform(df.content_cutted)

print(tf.shape)
print(tf)

#---------------------  第四步 LDA分析  ---------------------- 
from sklearn.decomposition import LatentDirichletAllocation

#设置主题数
n_topics = 3

lda = LatentDirichletAllocation(n_topics=n_topics,
                                max_iter=100,
                                learning_method='online',
                                learning_offset=50,
                                random_state=0)
lda.fit(tf)

#显示主题数 model.topic_word_
print(lda.components_)
#几个主题就是几行 多少个关键词就是几列 
print(lda.components_.shape)                         

#计算困惑度
print(u'困惑度：')
print lda.perplexity(tf,sub_sampling = False)        

#主题-关键词分布
def print_top_words(model, tf_feature_names, n_top_words):
    for topic_idx,topic in enumerate(model.components_):    # lda.component相当于model.topic_word_
        print('Topic #%d:' % topic_idx)
        print(' '.join([tf_feature_names[i] for i in topic.argsort()[:-n_top_words-1:-1]]))
        print("")

#定义好函数之后 暂定每个主题输出前20个关键词
n_top_words = 20                                       
tf_feature_names = tf_vectorizer.get_feature_names()
#调用函数
print_top_words(lda, tf_feature_names, n_top_words)

输出的三个主题对应关键词的概率如下，形状为（3L, 41L）。

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第9张图片

困惑度及各个主题下的关键词通过for循环显示，如下：

困惑度：
146.58072228209318

Topic #0:
新车 走边 醉美 多彩 贵州 神州大地 一个 包括 市州 九个 新区 贵州省 
年货 新春 新年 下跌 散户 城市 联欢晚会 金猴

Topic #1:
股市 下跌 新年 散户 新春 联欢晚会 赚钱 大盘 春节 红火 年货 反弹 金猴 
节目单 城市 省会 美誉 有林城 贵阳市 贵州省

Topic #2:
西南地区 简称 位于 中国 一定 近年 取得 成果 数据 发展 贵州省 
贵阳市 美誉 反弹 联欢晚会 新春 大盘 赚钱 有林城 下跌

三.pyLDAvis可视化分析

最后补充调用pyLDAvis进行可视化分析的完整代码，如下所示：

最终代码

#coding: utf-8
import pandas as pd

#-------------------  第一步 读取数据  ------------------------
f = open('data3.csv')
df = pd.read_csv(f)
print(df.shape)         #查看数据维度
print(df.head())        #查看前几行数据

#-------------------  第二步 中文分词  ----------------------- 
import jieba
import jieba.posseg as psg

#格式转换 否则会报错  'float' object has no attribute 'decode'
df = pd.DataFrame(df['comment'].astype(str))

def chinese_word_cut(mytext):
    return ' '.join(jieba.cut(mytext))

#增加一列数据
df['content_cutted'] = df['comment'].apply(chinese_word_cut)
print df.content_cutted.head()

#-------------------  第三步 计算TF-IDF值  --------------------- 
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

#设置特征数
n_features = 2000

tf_vectorizer = TfidfVectorizer(strip_accents = 'unicode',
                                max_features=n_features,
                                stop_words=['的','或','等','是','有','之','与','可以','还是','比较','这里',
                                            '一个','和','也','被','吗','于','中','最','但是','图片','大家',
                                            '一下','几天','200','还有','一看','300','50','哈哈哈哈',
                                             '“','”','。','，','？','、','；','怎么','本来','发现',
                                             'and','in','of','the','我们','一直','真的','18','一次',
                                           '了','有些','已经','不是','这么','一一','一天','这个','这种',
                                           '一种','位于','之一','天空','没有','很多','有点','什么','五个',
                                           '特别'],
                                max_df = 0.99,
                                min_df = 0.002) #去除文档内出现几率过大或过小的词汇
tf = tf_vectorizer.fit_transform(df.content_cutted)

print(tf.shape)
print(tf)

#---------------------  第四步 LDA分析  ---------------------- 
from sklearn.decomposition import LatentDirichletAllocation

#设置主题数
n_topics = 3

lda = LatentDirichletAllocation(n_topics=n_topics,
                                max_iter=100,
                                learning_method='online',
                                learning_offset=50,
                                random_state=0)
lda.fit(tf)

#显示主题数 model.topic_word_
print(lda.components_)
#几个主题就是几行 多少个关键词就是几列 
print(lda.components_.shape)                         

#计算困惑度
print(u'困惑度：')
print lda.perplexity(tf,sub_sampling = False)        

#主题-关键词分布
def print_top_words(model, tf_feature_names, n_top_words):
    for topic_idx,topic in enumerate(model.components_):    # lda.component相当于model.topic_word_
        print('Topic #%d:' % topic_idx)
        print(' '.join([tf_feature_names[i] for i in topic.argsort()[:-n_top_words-1:-1]]))
        print("")

#定义好函数之后 暂定每个主题输出前20个关键词
n_top_words = 20                                       
tf_feature_names = tf_vectorizer.get_feature_names()
#调用函数
print_top_words(lda, tf_feature_names, n_top_words)


#-------------------  第五步 可视化分析  --------------------- 
import pyLDAvis
import pyLDAvis.sklearn

#pyLDAvis.enable_notebook()

data = pyLDAvis.sklearn.prepare(lda,tf,tf_vectorizer)
print(data)

#显示图形
pyLDAvis.show(data)

#pyLDAvis.save_json(data,' fileobj.html')

浏览器打开如下所示：

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第10张图片

四.小结

该篇文章主要讲解了基于LDA和pyLDAvis的主题挖掘及可视化分析，属于文本挖掘、数据挖掘、主题分析的基础性文章，并且推荐同学们结合作者之前LDA代码进行理解。同时，推荐大家看看王树义老师的论文，尝试相关的文章。

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析_第11张图片

同时该篇文章需要注意几点：
1.感觉采用lda包进行主题挖掘的准确性更高，而Sklearn中的LatentDirichletAllocation算法效果不理想，它会将各主题关键词混淆。但是画图好像又需要和Sklearn结合。

2.推荐博友们看看主题挖掘、主题演化相关的论文，尤其是南大核心，对研究生的毕业论文有一定帮助。

3.作者需要学习的东西太多，总感觉自己有些夸夸其谈，希望未来博士期间，能静下心来，真正分享一些比较好的文章，做点科研。同时，深入做些成果，而不是还是这些表象。

最后希望这篇文章对你有所帮助，且分享且珍惜，共勉。
(By:Eastmount 2019-06-12 中午13点 http://blog.csdn.net/eastmount/ )

【LetMeFly】牛客-美团暑期2025-20250322-前两题和第三题的思路 Tisfy 题解 #牛客NowCoder 题解牛客美团笔试字符串回文暴力
【LetMeFly】牛客-美团暑期2025-20250322-前两题和第三题的思路第三题刚开始想复杂了，后面想到了个思路但是没来得及实现。一：对称回文串标签：回文串题目描述判断一个字符串有多少个长度大于1的对称回文子串。一个字符串为对称回文串当且仅当：该字符串为回文串该字符串只由字母AHIMOTUVWXY组成数据范围：字符串长度不超过100100100解题思路O(n2)O(n^2)O(n2)枚举每
CST Microwave Studio助力射频电路多物理场耦合分析 FindEveryone 课程设计
摘要本文重点阐述CSTMicrowaveStudio在射频电路多物理场耦合分析中的关键作用。通过解析射频电路中涉及的电磁场、热场、机械场等多物理场耦合现象，详细介绍如何运用CSTMicrowaveStudio构建多物理场联合模型，进行全面的仿真分析。结合具体案例，深入探讨多物理场耦合对射频电路性能的影响，并依据仿真结果提出有效的优化策略，为提升射频电路在复杂工作环境下的可靠性和稳定性提供理论依据与
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
C语言基础与进阶学习指南（附运行效果图及术语解析）算法练习生 C语言 c语言开发语言
C语言基础与进阶学习指南（附运行效果图及术语解析）目录C语言标准与编译流程CPU与内存基础C语言基础语法数据类型详解变量与内存管理运算符与表达式输入输出函数函数与内存管理指针与内存操作结构体与高级应用1.C语言标准与编译流程1.1C语言标准演进K&RC（1978）：最初由DennisRitchie和BrianKernighan开发，无标准，依赖文档。ANSIC/C89（1989）：首个国际标准，定
Vue相关面试题努力的搬砖人. vue.js
以下是150道Vue相关面试题及详细答案：Vue基础1.Vue.js是什么？Vue.js是一个用于构建用户界面的渐进式JavaScript框架，专注于视图层，允许开发者以声明式的方式构建用户界面，具有轻量、高效、易上手等特点。2.Vue实例的作用是什么？Vue实例是应用程序的核心，它管理数据、方法、生命周期钩子等，通过数据双向绑定将数据与视图层连接起来，实现数据驱动视图。3.如何创建一个Vue实例
linux渲染农场大连教程,Deadline 渲染农场搭建记录温柔彭于晏 linux渲染农场大连教程
渲染农场的工作模式：多台机器组建集群进行渲染，比如：集群中有2台渲染机器A和B，服务器会同时分配给A和B任务，A渲染第一帧,B渲染第二帧，当A完成那么服务器会继续分配第三帧，同样B服务器完成以后服务器分配第四帧，以此类推。渲染农场分服务端和节点，服务器端也可以加入集群中当做节点，当然节点也可以提交渲染任务建议：服务器端单独安装，主要插件及自定义修改内容可单独存放，当多节点接入或大批量渲染任务上传时
文本转语音常用的几个python库天蓝海乡 python 开发语言人工智能 nlp 语音识别
在Python编程领域，文本到语音（Text-to-Speech,TTS）的转换是一个常见的需求，尤其是在开发能够与用户交互的应用程序时。以下是几个流行的Python库，它们可以帮助开发者实现文本到语音的转换，并且有的可以将转换后的语音保存为MP3文件。gTTS(GoogleText-to-Speech)gTTS是一个依赖于Google的文本转语音API的Python库。它能够将文本转换为自然听起
网络管理 Introducing Meraki – Your Complete Network Management S AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Meraki网络管理平台是一款专为企业级网络管理员设计的网络安全解决方案。它帮助用户轻松管理和监控其组织中的所有网络设备、VLANs及其设置。Meraki网络管理平台包括许多内置功能，如集中管理，安全，可视化分析等。此外，Meraki还提供强大的RESTAPI接口，开发者可以利用这些API来定制属于自己的应用。通过将现有工具、流程和工具合成为一体的网络管理解决方
算法设计与分析4（变治法） songx_99 算法设计与分析算法
变治法将问题转化为一个或数个有一定关联当形式上不同的更加简单或更加好解决的子问题。变治法的应用：预排序思想用预排序可以简化许多问题，如检查元素唯一性，检查出现次数最多的元素等堆算法堆的定义首先它是一个完全二叉树，完全二叉树表明树的每一层都是满的，只有最后一层最右边的元素有可能缺位。且父结点的值大于它的两个子节点，则称是一个大根堆，若值小于两个子节点，称小根堆堆化有向下调整，向上调整两种，大致思路相
Spring Boot详解这河里吗l SpringBoot spring boot 后端 java spring
目录1.SpringBoot介绍1.1什么是SpringBoot1.2SpringBoot特点1.3Javaweb、spring、springmvc和springboot有什么区别？1.4SpringBoot的Starter2.SpringBoot入门HelloWorld3.SpringBoot的全局配置文件3.1properties配置文件3.2yml配置文件3.3yml与properties的
JavaScript基础-DOM事件流難釋懷 javascript 开发语言
在Web开发过程中，理解和掌握DOM事件流是实现高效交互的关键。DOM事件流描述了当一个事件发生时，它在文档树中的传播路径。了解事件流的概念有助于我们更精确地控制事件处理逻辑，避免不必要的行为，并提升用户体验。本文将深入探讨DOM事件流的基本概念，包括事件捕获、目标阶段和事件冒泡，并通过示例展示如何应用这些知识。一、什么是DOM事件流？DOM事件流是指事件在整个页面结构中传播的过程。根据W3C标准
STM32八股【2】-----ARM架构 Invinciblenuonuo stm32 arm开发架构
1、架构包含哪几部分内容寄存器处理模式流水线MMU指令集中断FPU总线架构2、以STM32为例进行介绍2.1寄存器寄存器名称作用R0-R3通用寄存器用于数据传递、计算及函数参数传递；R0也用于存储函数返回值。R4-R12通用寄存器用于存储局部变量，减少频繁的内存访问。R13栈指针(SP)指向当前栈顶，负责管理栈操作。分为主栈指针(MSP)和进程栈指针(PSP)：系统中断处理和普通任务可以使用不同的
python之pyttsx3实现文字转语音播报 l8947943 python问题语音识别人工智能 pyttsx3 python朗读
1.pyttsx3是什么pyttsx3是Python中的文本到语音转换库，可以实现文本的朗读功能。2.pyttsx3的安装pipinstallpyttsx33.pyttsx3的demoimportpyttsx3pyttsx3.speak("Areyouok?")pyttsx3.speak("最近有许多打工人都说打工好难")戴上耳机直接跑即可。是不是很简单！那如果我们想对读音的速率，中英文问题进行自
Python报错解决：img2pdf.AlphaChannelError: Refusing to work on images with alpha channel 定星照空 python 人工智能
img2pdf.AlphaChannelError:Refusingtoworkonimageswithalphachannel-solved解决img2pdf模块不能上传含alpha通道透明度的图片的问题解决img2pdf模块PNG图片转PDF文件因alpha通道报错问题文章目录前言一、AlphaChannelError为什么出现？二、该种报错解决方法1.方法一：转化其他格式图片2.方法二：去除
基于PyCATIA的工程图视图锁定工具开发实战解析 Python×CATIA工业智造 CATIA二次开发 python 自动化
引言本文针对CATIA工程图设计中视图误操作问题，基于PySide6与PyCATIA库开发了一款轻量化视图锁定工具。通过Python二次开发实现全视图/选定视图快速锁定、非模态交互界面及状态实时反馈功能，有效提升大型装配体工程图操作效率。文章深度解析代码架构设计、关键技术实现及工程应用价值，提供完整的开发方法论。一、工具功能与工程应用场景1.1核心功能模块功能模块技术指标应用场景全视图锁定批量操作
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
松下空调全国售后服务指南及维修 2503_90926332 eclipse
松下空调全国官网售后服务点热线号码4OO-675-8161故障报修：4OO-675-8161服务为先，满意为念，服务无/极/限，真/诚/到永远。讲诚信、树新风、诚以待人、信以立世、认真负责、精益求精、积极热情，本公司为厂家全国维修服务!全/天候、全/天蔬诚为您服务。维修服务网点致力于为客户摄供及时、专/业、用心的佳服务,让千万家庭/感/受/到“家”的感觉!!维修服务承/诺:1、严格按照维修及操作规
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
Python中Pyttsx3库实现文本转化成语音MP3格式文件定星照空 python
Pyttsx3库介绍pyttsx3库是一个功能强大且使用方便的Python本地文本转语音库。它不仅能在离线下将文本转换为语音MP3格式文件，也能在Windows、MacOS和Linux等多个操作系统上实现语音播报。同时，还可以调整语音播报的语速、音量和音色。安装与基本使用安装：cmd命令行中执行pipinstallpyttsx3。基本使用示例：importpyttsx3#初始化语音引擎engine
计算机毕业设计指南晴天毕设课程设计毕业设计 java 毕设开发语言
毕业设计是计算机专业学生展示综合能力的重要环节，不仅是对所学知识的总结，也是进入职场或深造前的实战演练。本文将从选题、需求分析、系统设计、编码实现、测试优化、论文撰写、答辩准备等方面，为你提供一份详细的毕业设计指南。如果有其他问题，可以点击文章末尾名片咨询，可免费分享源码1.选题阶段选题是毕业设计的起点，直接影响后续工作的难度和完成质量。选题原则兴趣驱动：选择自己感兴趣的方向，能够激发研究动力。创
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
openai-agents 中custom example agent ZHOU_CAMP oi_agents 人工智能
代码pipshowopenai-agentsName:openai-agentsVersion:0.0.4Summary:OpenAIAgentsSDKHome-page:https://github.com/openai/openai-agents-pythonAuthor:Author-email:OpenAILicense-Expression:MITLocation:d:\soft\ana
算法及数据结构系列 - 动态规划诺亚凹凸曼算法及数据结构算法数据结构动态规划
系列文章目录算法及数据结构系列-二分查找算法及数据结构系列-BFS算法文章目录框架思路子序列问题解题模板一维dp数组二维dp数组经典题型322.零钱兑换暴力递归带备忘录的暴力递归动态规划300.最长上升子序列1143.最长公共子序列72.编辑距离框架思路动态规划问题的一般形式就是求最值。动态规划其实是运筹学的一种最优化方法，只不过在计算机问题上应用比较多，比如说求最长递增子序列，最小编辑距离等等。
3.20 补题（二分模板，反向搜索） ZZZS0516 深度优先算法图论 c++
目录D-填涂颜色（搜索）题目描述思路分析代码实现F-跳石头（二分模板）题目描述思路分析代码实现D-填涂颜色（搜索）链接：P1162填涂颜色-洛谷题目描述由数字000组成的方阵中，有一任意形状的由数字111构成的闭合圈。现要求把闭合圈内的所有空间都填写成222。例如：6×66\times66×6的方阵（n=6n=6n=6），涂色前和涂色后的方阵如下：如果从某个000出发，只向上下左右444个方向移动
深度剖析哈希表数据结构：原理、冲突解决与优化策略麻辣酸甜笔记
摘要哈希表作为一种高效的数据结构，在计算机科学领域广泛应用。本文深入探讨哈希表的工作原理，详细分析常见的冲突解决方法，如开放地址法、链地址法等，并进一步研究哈希表在不同场景下的优化策略，旨在帮助读者全面理解哈希表数据结构及其应用。一、引言在计算机程序中，快速查找和插入数据是常见需求。哈希表以其平均时间复杂度为O(1)的高效查找和插入特性，成为解决这类问题的有力工具。从数据库索引到编程语言的集合类实
Python 向量检索库Faiss使用懒大王爱吃狼 python python 开发语言自动化 Python基础 python教程
Faiss（FacebookAISimilaritySearch）是一个由FacebookAIResearch开发的库，它专门用于高效地搜索和聚类大量向量。Faiss能够在几毫秒内搜索数亿个向量，这使得它非常适合于实现近似最近邻（ANN）搜索，这在许多应用中都非常有用，比如图像检索、推荐系统和自然语言处理。以下是如何使用Faiss的基本步骤和示例：1.安装Faiss首先，你需要安装Faiss。你可
通过启用Ranger插件的Hive审计日志同步到Doris做分析 fzip Doris Hive doris 审计 hive
以下是基于ApacheDoris的RangerHive审计日志同步方案详细步骤，结合审计日志插件与数据导入策略实现：一、Doris环境准备1.创建审计日志库表参考搜索结果的表结构设计，根据Ranger日志字段调整建表语句：CREATEDATABASEIFNOTEXISTSranger_audit;CREATETABLEIFNOTEXISTSranger_audit_hive_log(repoTyp
Python 应用部署云端实战指南 —— AWS、Google Cloud 与 Azure 全解析清水白石008 python Python题库 python aws azure
Python应用部署云端实战指南——AWS、GoogleCloud与Azure全解析在当下云计算飞速发展的时代，将Python应用部署到云平台已成为大多数开发者和企业的首选。无论是构建Web服务、API接口，还是自动化任务调度，云平台都能为我们提供高可靠性、弹性伸缩与简便管理的优势。本文将详细阐述如何将Python应用分别部署到AWS、GoogleCloud与Azure，并介绍各平台下涉及的部署工
Python编程：为什么使用同步原语林十一npc Python语言 python 开发语言
Python编程：为什么使用同步原语1.同步原语同步原语：计算机科学中用于实现进程或线程之间同步的机制。目的：提供一种方法来控制多个进程或线程的执行顺序，确保他们以一致的方式访问共享资源在多线程/多进程编程中，多个执行单元可能同时访问共享资源，导致竞态条件。同步原语通过协调执行顺序，确保数据一致性和操作原子性2.Python核心同步原语同步原语作用适用场景模块Lock（互斥锁）确保同一时间只有一个
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

【python数据挖掘课程】二十八.基于LDA和pyLDAvis的主题挖掘及可视化分析

一.显示结果及安装

二.LDA主题挖掘

三.pyLDAvis可视化分析

四.小结

你可能感兴趣的:(数据挖掘,机器学习,Python数据挖掘课程,Python舆情分析,知识图谱,web数据挖掘及NLP)