qq742234984

Graphviz安装及使用：决策树可视化

Python大数据分析与机器学习学习笔记

Graphviz：微信公众号（数学建模与人工智能）
github地址：https://github.com/QInzhengk/Math-Model-and-Machine-Learning

1、决策树模型搭建

# 模型搭建代码汇总
import pandas as pd
# 1.读取数据与简单预处理
df = pd.read_excel('员工离职预测模型.xlsx')
df = df.replace({'工资': {'低': 0, '中': 1, '高': 2}})
# 2.提取特征变量和目标变量
X = df.drop(columns='离职')
y = df['离职']
# 3.划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
# 4.模型训练及搭建
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(max_depth=3, random_state=123)
model.fit(X_train, y_train)

2、graphviz插件安装与环境变量部署

本小节主要讲解一下graphviz插件的安装与环境变量部署，为之后将决策树模型可视化做准备。
2.1 graphviz插件下载
搭建完决策树模型后，我们可以通过graphviz插件将其可视化呈现出来。首先需要安装一下graphviz插件，其下载地址为：https://graphviz.gitlab.io/download/，以Windows版本为例，在下载网站上选择下图框中内容：Stable 2.38 Windows install packages。

然后下载下图所示的msi文件：

下载完该msi文件后进行安装，注意，要记住下图所示的安装的文件路径，之后进行环境变量部署的时候会用到。

2.2 环境变量部署
安装完graphviz后我们需要进行环境变量部署，所谓环境变量部署，就是把安装的软件部署到整个电脑系统环境中，这样在电脑的各个地方都可以调用配置好的软件。其配置方法如下：
1.右键点击我的电脑，选择“属性”选项，如下图所示：

2.在弹出的界面中选择“高级系统设置”，如下图所示：

3.如下图所示，在弹出的系统属性界面中，选择“环境变量”，然后在弹出的“环境变量”弹出窗内选择“系统变量”中的Path那一行，然后点击“编辑”按钮。

4.如下图所示，在弹出的界面中，点击“新建”，然后将graphviz安装所在文件夹中bin文件夹添加到其中，最后点击确定即可。环境变量部署就是将软件所在文件路径中的bin文件夹，如这里的“C:\Program Files (x86)\Graphviz2.38\bin”添加到上图所示的Path中，所以当完成这一步后，环境变量也就部署完毕了。

3、在Python中使用graphviz

上面已经安装好graphviz插件，并完成环境变量部署后，我们就可以在Python中使用graphviz将决策树模型可视化输出出来了。
3.1 graphviz库安装
想要在Python中使用graphviz插件，首先还需要在Python中安装相关的库，这里同样是通过PIP安装法进行安装，以Windows系统为例，Win + R组合键调出系统运行框，输入cmd后点击确定，在弹出框内输入pip install graphviz，按一下回车键等待安装结束即可。如下图所示：

3.2 graphviz库的使用
通过如下代码就可以生成一个可视化的决策树模型：

from sklearn.tree import export_graphviz
import graphviz
dot_data = export_graphviz(model, out_file=None, class_names=['0', '1'])
graph = graphviz.Source(dot_data)
graph.render('决策树可视化')

前两行引入使用graphviz的相关库，第三行通过export_graphviz()方法将之前搭建的决策树模型model转换为字符串格式并赋值给dot_data，其中注意需要设定out_file参数为None，这样获得的才是字符串格式，感兴趣的读者可以将dot_data打印出来看下，获得的dot_data如下图所示，里面的内容其实就是之后要可视化的内容。

第四行代码则是将dot_data转换成可视化的格式，第五行代码则是通过render()方法将图像输出出来，通过上述代码默认是输出一个PDF文件，PDF文件如下图所示：

可以看到里面的内容的确就是上面dot_data文本内容的可视化呈现了。其中X[1]就表示第2个特征变量：满意度，X[3]则表示第4个特征变量：工程数量，X[5]则表示第6个特征变量：工龄；gini则表示该节点的基尼系数；samples则表示该节点中的样本数，比如说第一个节点，也即根节点中的12000也即训练集中的样本数量；value则表示不同种类所占的个数，比如说根节点中value左边的9120则表示非流失客户的数量，2880则表示流失客户的数量，class=0则是认为该节点为未流失节点。
如果通过运行上述代码产生下图所示的报错信息，说明之前的环境变量部署没有部署成功。

那么此时我们可以手动在程序里部署环境变量，只要在代码最上方添加如下两行代码即可。其中添加字母r的原因是用来去除文件路径中反斜杠的特殊含义，另一种方法是用两个反斜杠“\”代替单个斜杠“\”。如果graphviz的安装路径不是下面所示，那么自行修改即可。

import os 
os.environ['PATH'] = os.pathsep + r'C:\Program Files (x86)\Graphviz2.38\bin'

完整代码如下：

from sklearn.tree import export_graphviz
import graphviz
import os # 以下这两行是手动进行环境变量配置，防止在本机的环境变量部署失败
os.environ['PATH'] = os.pathsep + r'C:\Program Files (x86)\Graphviz2.38\bin'
dot_data = export_graphviz(model, out_file=None)
graph = graphviz.Source(dot_data)
graph.render('决策树可视化')

如果想让可视化的图片里的内容更丰富些，可以在export_graphviz()的括号中增添一些参数，比如增加feature_names参数可以显示特征变量的名称，不过直接使用graphviz识别不了中文，所以我们等会先用英文来做演示；增添class_names参数则可以显示最后的分类结果，因为中文可能会出现乱码问题，所以我们用字符串’0’和’1’来代替’流失’和’非流失’，注意不能写成数字格式的0和1，因为class_names参数中只能设置字符串格式的数据；将filled参数设置为True还可以给可视化的决策树添加颜色，演示代码如下：

# 添加名称（feature_names）和填充颜色（filled=True）
dot_data = export_graphviz(model, out_file=None, feature_names=['income', 'satisfication', 'score', 'project_num', 'hours', 'year'], class_names=['0', '1'], filled=True)

此时生成的可视化图形如下图所示：

此时的特征变量就不再试通过X[4]这种形式来表示了，而是通过具体我们设置的名称来显示了。又因为我们设置了class_names，所以每一个节点多出一个内容叫作class，其中0代表着非流失，1代表着流失，其判断依据为value中哪个类别占的数量多，则判定为该类别，比如根节点中的value，非流失客户为475人，流失客户为325人，那么则判断该节点的类别为0，及非流失。在实际应用中，我们更关心最终叶子节点的分类类别，比如左下角的叶子节点的分类类别为1，及流失，那么如果新来一个客户，通过该决策树模型分到左下角的叶子节点的话，那么则判断其为流失客户。
上面我们生成的可视化图形已经比较完善了，但是graphviz本身是没有办法识别中文的，所以如果把上面代码中的feature_names或者class_names参数中的内容写成中文的话，在最后生成图形中会出现中文乱码的问题。关于中文乱码的问题我们将在下一小节解决。
3.3 中文乱码问题解决办法
这一小节我们重点解决graphviz因为不能识别中文，导致生成的中文乱码问题。步骤如下：
1.引入相关库并在程序中部署好环境变量

from sklearn.tree import export_graphviz
import os # 以下这两行是手动进行环境变量配置，防止在本机的环境变量部署失败
os.environ['PATH'] = os.pathsep + r'C:\Program Files (x86)\Graphviz2.38\bin'

这里不需要引入graphviz库，因为等会生成图形的方式不再是利用上一小节graphviz.Source(dot_data)来进行生成了，这个稍后再讲。此外，这里通过手动的方式进行了环境变量部署，也是为了防止之前在本机的环境变量部署失败。
2.生成dot_data

dot_data = export_graphviz(model, out_file=None, feature_names=X_train.columns, class_names=['不流失', '流失'], rounded=True, filled=True)

这里通过export_graphviz()方法生成dot_data，此时的dot_data是一个字符串类型的数据，里面的内容则是之后要进行可视化的内容，这个在上一小节也提到过。这里注重讲下export_graphviz()方法里设置的参数：首先model表示之前训练的模型，我们的目的就是将其转换成字符串的格式然后再转换成图形；out_file参数是用来设置生成的内容为字符串的；feature_names则是用来设置特征变量的名称，其中X_train.columns则是测试训练集的表头名称，也即这个决策树模型的特征变量名称们，感兴趣的读者可以将其打印出来，效果如下，可以看到这里的表头全是中文，如果还用之前的方式进行可视化的话，其中的中文会出现乱码现象。
Index([‘收入’, ‘年龄’, ‘性别’, ‘历史授信额度’, ‘历史流失次数’], dtype=‘object’)
class_names则是设定最后的分类结果，这里我们直接设置成中文的’不流失’和’流失’，之后会讲如何处理中文乱码问题；rounded参数需要设置成True，这样之后设置中文格式才会生效；最后的filled参数设置为True可以使得生产的决策树有颜色。

3.将dot_data写入到txt文件中
通过如下代码可以将之前的dot_data字符串类型的数据写到txt文件中。

f = open('dot_data.txt', 'w')
f.write(dot_data)
f.close()

之后我们将利用这里生成的dot_data.txt文件来生成新的决策树文本文件并修改其中的中文配置信息从而实现通过graphviz能够输出中文的目的。此时生成dot_data.txt文件如下图所示，可以看到里面的内容的确就是之后可视化图形要展示的的内容了。

4.修改字体设置
通过如下代码，我们可以修改原来dot_data.txt中的字体及编码格式，并将其另存为一个新的dot_data_new.txt文件，为之后解决中文乱码问题做铺垫。

import re
f_old = open('dot_data.txt', 'r')
f_new = open('dot_data_new.txt', 'w', encoding='utf-8')
for line in f_old:
    if 'fontname' in line:
        font_re = 'fontname=(.*?)]'
        old_font = re.findall(font_re, line)[0]
        line = line.replace(old_font, 'SimHei')
    f_new.write(line)
f_old.close()
f_new.close()

这里首先引入正则表达式库re，为之后的替换字体做准备；然后我们通过open()函数读取原来的dot_data.txt中的文本内容，其中’r’表示以读取模式打开txt文件，我们将文件内容赋值给fold变量；之后通过open()函数新建一个dot_data_new.txt文件，其中’w’表示以写入模型打开txt文件，并且每次写入时都会把原有内容清除，encoding参数为编码方式，这里设置为能够支持中文显示的utf-8编码，这个编码方式的设置对解决中文乱码问题而言很重要。
下面的几行代码这里单独拎出来讲解一下：

for line in f_old:
if 'fontname' in line:
font_re = 'fontname=(.*?)]'
old_font = re.findall(font_re, line)[0]
line = line.replace(old_font, 'SimHei')
f_new.write(line)

这几行代码的目的就是用来替换原来dot_data.txt的默认的字体格式，替换成SimHei也即黑体格式，如下图所示：

这里首先通过for循环语句遍历f_old，也即dot_data.txt中的每一行，然后通过if判断语句来查看每一行中是否有fontname内容，其中fontname的中文意思就是字体名字，对于含有fontname的行，我们通过正则表达式的非贪婪匹配(.*?)将默认的字体找到，并通过replace()函数将旧的字体替换成我们想设置的字体，比如这里设置的SimHei，也即黑体字体。最后将这些替换完的新的行写入到新的txt文件f_new中。
最后生成完新的f_new文件后，我们就可以通过close()函数将f_old和f_new关闭。
补充知识点：这里的SimHei是黑体的英文翻译，如果想采用其他字体，可参考下面的字体英文对照表：

黑体 SimHei
微软雅黑 Microsoft YaHei
新宋体 NSimSun
新细明体 PMingLiU
细明体 MingLiU
仿宋 FangSong
楷体 KaiTi

5.生成可视化文件
生成完新的重新设置编码格式及字体的dot_data_new.txt文件后，我们就可以通过graphviz插件生成可视化的文件了，代码如下：

os.system('dot -Tpdf dot_data_new.txt -o 决策树模型.pdf')

这里是通过调用os.system()系统函数来使用graphviz插件，其中-Tpdf表示生成PDF格式的文件，如果将其改成-Tpng生成PNG格式的图片文件，代码如下：

os.system('dot -Tpng dot_data_new.txt -o 决策树模型.png')

最后的生成效果如下图所示，可以看到已经可以显示中文了。

所有代码整理如下：

from sklearn.tree import export_graphviz
import graphviz
import os # 以下这两行是手动进行环境变量配置，防止在本机环境的变量部署失败
os.environ['PATH'] = os.pathsep + r'C:\Program Files (x86)\Graphviz2.38\bin'
# 生成dot_data
dot_data = export_graphviz(model, out_file=None, feature_names=X_train.columns, class_names=['不流失', '流失'], rounded=True, filled=True) # rounded和字体有关，filled设置颜色填充
# 将生成的dot_data内容导入到txt文件中
f = open('dot_data.txt', 'w')
f.write(dot_data)
f.close()
# 修改字体设置，避免中文乱码！
import re
f_old = open('dot_data.txt', 'r')
f_new = open('dot_data_new.txt', 'w', encoding='utf-8')
for line in f_old:
    if 'fontname' in line:
        font_re = 'fontname=(.*?)]'
        old_font = re.findall(font_re, line)[0]
        line = line.replace(old_font, 'SimHei')
    f_new.write(line)
f_old.close()
f_new.close()
# 以PNG的图片形式存储生成的可视化文件
os.system('dot -Tpng dot_data_new.txt -o 决策树模型.png')  
print('决策树模型.png已经保存在代码所在文件夹！')
# 以PDF的形式存储生成的可视化文件
os.system('dot -Tpdf dot_data_new.txt -o 决策树模型.pdf')  
print('决策树模型.pdf已经保存在代码所在文件夹！')

告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
Django项目运行报错：ModuleNotFoundError: No module named ‘MySQLdb‘
解决方法：在__init__.py文件下，新增下面这段代码importpymysqlpymysql.install_as_MySQLdb()注意：确保你的python有下载pymysql库，没有的话可以使用pipinstallpymysql安装原理：用pymysql来代替mysqlLab__init__.py文件大致位置在：
[Py026]Snakefile灵活传递param 安哥生个信
snakemake是用python编写的，最近串流程用的比较频繁，所以也归纳在python实用技巧里面。现在需要实现的一个功能是——根据每一个input自身的特点，返回一个值（可能是固定，也可能是随机）；然后将这个返回值传递给下面的运行代码。举例：现在有两个fastq文件20192.fastq.gz20193.fastq.gz，需要通过seqkit转换为fasta文件；如果文件名是奇数，则转换出来
Python日志终极指南：深入探索logging日志管理模块 c01dkit python python 开发语言
在任何一个严谨的软件开发项目中，日志（Logging）都是不可或缺的一环。它不仅是调试代码的利器，更是线上问题追踪、性能分析和数据监控的重要依据。相比于随处可见的print()语句，Python内置的logging模块提供了更为强大、灵活且标准化的解决方案。[1][2]这篇博客将带你由浅入深，全面掌握logging模块的使用，从基础配置到高级技巧，再到企业级项目的最佳实践。一、告别print()：
python大数据论文_大数据环境下基于python的网络爬虫技术 weixin_39775976 python大数据论文
软件开发大数据环境下基于python的网络爬虫技术作者/谢克武，重庆工商大学派斯学院软件工程学院摘要：随着互联网的发展壮大，网络数据呈爆炸式增长，传统捜索引擎已经不能满足人们对所需求数据的获取的需求，作为搜索引擎的抓取数据的重要组成部分，网络爬虫的作用十分重要，本文首先介绍了在大数据环境下网络爬虫的重要性，接着介绍了网络爬虫的概念，工作原理，工作流程，网页爬行策略，python在编写爬虫领域的优势
【Python爬虫(26)】Python爬虫进阶：数据清洗与预处理的魔法秘籍奔跑吧邓邓子 Python爬虫 python 爬虫开发语言数据清洗预处理
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、数据清洗的重要性二、数据清洗的常见任务2.1去除噪声数据2.2
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
如何通过linux黑窗口实现对远程服务器的操作
①选择合适的云平台进行设备的租用并复制好远程设备的IP地址②使用管理员权限打开黑窗口③输入命令连接远程的设备：ssh用户名@服务器IP地址，此时得到的是一个什么都没有的设备④由于该设备什么都没有，故先：sudoaptupdate，然后安装gcc编译器：sudoaptinstallbulid-essential，再然后安装python：sudoaptinstallpython-3.8，再然后安装mi
Redis——API的理解和使用莫问以
一、全局命令1、查看所有键keys*下面插入了3对字符串类型的键值对：127.0.0.1:6379>sethelloworldOK127.0.0.1:6379>setjavajedisOK127.0.0.1:6379>setpythonredis-pyOKkeys*命令会将所有的键输出：127.0.0.1:6379>keys*1)"python"2)"java"3)"hello"2、键总数dbsi
PYTHON对接第三方验证码短信接口短信接口开发
PYTHON短信接口对接demo#接口类型：互亿无线触发短信接口，支持发送验证码短信、订单通知短信等。#账户注册：请通过该地址开通账户http://user.ihuyi.com/?DKimmu#注意事项：#（1）调试期间，请使用用系统默认的短信内容：您的验证码是：【变量】。请不要把验证码泄露给其他人。#（2）请使用APIID及APIKEY来调用接口，可在会员中心获取；#（3）该代码仅供接入互亿无线
第二十四篇 Requests+BeautifulSoup，秒抓网站信息！你的智能信息收集器！爱分享的飘哥日常效率自动化 beautifulsoup Python爬虫 Requests 数据抓取办公自动化信息收集
python爬虫序言：手动复制粘贴网页数据？效率太低了1.网页数据抓取基础：HTTP请求与网页结构速览1.1HTTP请求：浏览器如何和网页交互？1.2网页结构：HTML，信息的载体2.Requests库：发送网络请求的利器2.1安装与基础用法：你的第一个HTTP请求2.2处理请求头与参数：模拟浏览器访问3.BeautifulSoup：解析网页的利器3.1安装与基础用法：快速解析HTML内容3.2精
Redis 安全加固：从密码保护到高级安全配置 Seal^_^ 数据库专栏 #数据库--Redis redis 安全数据库 Redis 安全加固
Redis安全加固：从密码保护到高级安全配置一、Redis安全概述二、密码认证配置1.设置Redis密码临时设置（重启后失效）永久设置（修改配置文件）2.密码认证流程3.Python连接示例三、网络层安全加固1.绑定内网IP2.修改默认端口3.防火墙配置四、危险命令禁用1.禁用敏感命令2.命令禁用前后对比五、高级安全配置1.TLS加密传输2.客户端证书认证3.ACL细粒度权限控制（Redis6.0
【python库对比】路径专题 os.path和pathlib对比尚未想好 python高频库对比 python 开发语言 vscode
专栏收录：python高频库对比本专栏将持续更新在工程领域高频使用的python库之间的对比文章概览：简单介绍路径处理常用的python库及特点对比os.path和pathlib的异同结合代码示例说明两个库的差异.补充：os.path和pathlib高频使用接口见os.path和pathlib高频使用接口及示例1.简介Python中处理路径的库有很多，其中一些常用的包括：os.path模块：os.
如何解决pip安装报错ModuleNotFoundError: No module named ‘flask’问题万粉变现经纪人全栈Bug解决方案专栏 pip flask python pycharm scrapy pandas 后端
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘flask’问题摘要在使用PyCharm进行Python开发时，常常需要通过pip安装第三方包以满足项目依赖。但在控制台执行pipinstallflask后，依旧可能出现ModuleNotFoundError:Nomodulenamed
如何解决pip安装报错ModuleNotFoundError: No module named ‘sqlalchemy’问题万粉变现经纪人全栈Bug解决方案专栏 pip pandas python pycharm scipy beautifulsoup numpy
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘sqlalchemy’问题摘要在使用PyCharm控制台执行pipinstallsqlalchemy后，仍然在代码中提示ModuleNotFoundError:Nomodulenamed'sqlalchemy'，让许多开发者头疼。本文将
selenium后续！！ paid槮 selenium 测试工具
小项目案例:实现批量下载网页中的资源根据15.3.2小节中的返回网页内容可知,用户只有获取了网页中的图片url才可以将图片下载到*在使用selenium库渲染网页后,可直接通过正则表达式过滤出指定的网页图片，从而实现批量下载接下来以此为思路来实现一个小项目案例。项目任务实现批量下载人民邮电出版社官网中与Python相关的图书封面图片。项目实步骤步骤1，获取人民邮电出版社官网中与Python相关的图
Python爬虫博客：使用Selenium模拟登录并抓取需要身份验证的网站内容 Python爬虫项目 2025年爬虫实战项目 python 爬虫 selenium 信息可视化开发语言百度测试工具
引言在爬虫开发的过程中，我们常常遇到需要身份验证才能访问的网站。例如，很多社交媒体、新闻网站、电商平台等都要求用户登录才能访问一些特定内容。如何模拟登录并抓取这些需要身份验证的网页内容成为了一个非常重要且常见的需求。Selenium，作为一个强大的浏览器自动化工具，不仅可以模拟用户的浏览行为，还能够模拟用户输入用户名和密码、点击登录按钮等操作，突破了普通爬虫工具（如requests）无法处理的Ja
如何解决pip安装报错ModuleNotFoundError: No module named ‘django’问题万粉变现经纪人全栈Bug解决方案专栏 pip django python numpy pycharm 后端 pandas
【Python系列Bug修复PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘django’问题摘要在日常Django项目开发中，最常见的“拦路虎”之一就是ModuleNotFoundError:Nomodulenamed'django'。该异常通常在以下场景出现：在PyCharm2025中新建项目后，直接在Py
基于生成对抗网络增强主动学习的超高温陶瓷硬度优化神经网络15044 深度学习算法仿真模型生成对抗网络学习人工智能
复现论文：基于生成对抗网络增强主动学习的超高温陶瓷硬度优化我将使用Python复现这篇关于使用生成对抗网络(GAN)增强主动学习来优化超高温陶瓷(UHTC)硬度的研究论文。以下是完整的实现代码和解释。1.环境准备和数据加载首先，我们需要准备必要的Python库并加载数据。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimpor
学习笔记(39):结合生活案例，介绍 10 种常见模型宁儿数据安全 #机器学习学习笔记生活
学习笔记(39):结合生活案例，介绍10种常见模型线性回归只是机器学习的“冰山一角”！根据不同的任务场景（分类、回归、聚类等），还有许多强大的模型可以选择。下面我用最通俗易懂的语言，结合生活案例，介绍10种常见模型及其适用场景：一、回归模型（预测连续值，如房价）1.决策树（DecisionTree）原理：像玩“20个问题”游戏，通过一系列判断（如“面积是否>100㎡？”“房龄是否0.5就判为“会”
基于R、Python的Copula变量相关性分析及AI大模型应用梦想的初衷~ 环境气象人工智能 r语言 python
在工程、水文和金融等各学科的研究中，总是会遇到很多变量，研究这些相互纠缠的变量间的相关关系是各学科的研究的重点。虽然皮尔逊相关、秩相关等相关系数提供了变量间相关关系的粗略结果，但这些系数都存在着无法克服的困难。例如，皮尔逊相关系数只能反映变量间的线性相关，而秩相关则更多的适用于等级变量。大多数情况下变量间的相关性非常复杂，而且随着变量取值的变化而变化，而这些相关系数都是全局性的，因此无法提供变量间
Python 桌面版数独游戏（一版）香蕉可乐荷包蛋 #数独 python 游戏 java
设计思路详解：Python桌面版数独游戏1.功能需求分析构建一个9x9的数独游戏界面。支持玩家手动输入数字。提供两个按钮：“重新开始本局”：恢复当前棋盘到初始状态（保留原始数字）。“生成新棋局”：生成一个新的随机数独题目。使用标准库实现，无需额外安装。2.技术选型使用tkinter：Python标准GUI库，适合小型桌面应用。使用random和copy：用于生成数独题目和深拷贝原始题目。采用回溯算
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
Copula 回归与结构方程模型：R 语言构建多变量因果关系网络
技术点目录专题一、R及Python语言及相关性研究初步专题二、二元Copula理论与实践（一）专题三、二元Copula理论与实践（二）【R语言为主】专题四、Copula函数的统计检验与选择【R语言为主】专题五、高维数据与VineCopula【R语言】专题六、正则VineCopula（一）【R语言】专题七、正则VineCopula（二）【R语言】专题八、时间序列中的Copula【R语言】专题九、Co
centos7安装python3并配置环境变量 weixin_46119222 centos python3.11
在CentOS7上安装Python3并将其设置为默认版本，可以按照以下步骤进行：1.安装Python3首先，你需要安装Python3。在CentOS7上，你可以通过yum包管理器来安装Python3。执行以下命令：bash复制代码sudoyuminstallpython3这个命令会使用yum来安装Python3。2.安装依赖文件（可选）如果你打算从源代码安装Python3，或者需要某些特定的库和功
python automl_自动化的机器学习(AutoML)：将AutoML部署到云中
编辑推荐:在本文中，将介绍一种AutoML设置，使用Python、Flask在云中训练和部署管道；以及两个可自动完成特征工程和模型构建的AutoML框架。本文来自于搜狐网，由火龙果软件Alice编辑、推荐。AutoML到底是什么？AutoML是一个很宽泛的术语，理论上来说，它囊括从数据探索到模型构建这一完整的数据科学循环周期。但是，我发现这个术语更多时候是指自动的特征预处理和选择、模型算法选择和超
利用Python实现QQ实时到账免签支付原创 0xdF Python学习 python
原创转载请注明出处核心部分:解决QQ的登录验证问题主要利用python的selenium库和QQ的快速登录实现登录网页再利用抓到的json来输出今日的订单情况直接上代码importrequestsimporttimeimportosfromseleniumimportwebdriverimportsysimportshutilimportjson'''注意:要实现QQ钱包实时到账需要在服务器上登录
python--自动化的机器学习（AutoML） Q_ytsup5681 python 自动化机器学习
自动化机器学习（AutoML）是一种将自动化技术应用于机器学习模型开发流程的方法，旨在简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型**[^3^]。具体介绍如下：1.自动化的概念：自动化是指使设备在无人或少量人参与的情况下完成一系列任务的过程。这一概念随着电子计算机的发明和发展而不断进化，从最初的物理机械到后来的数字程序控制，再到现在的人工智能和机器学习，自动化已经渗
【Python】人脸识别宅男很神经 python 开发语言
第一章：计算机视觉与图像处理的基石在深入人脸识别之前，我们必须首先牢固掌握计算机视觉和图像处理的基本概念。人脸，本质上就是一张复杂的图像，对图像的理解是所有高级视觉任务的起点。1.1图像的本质：像素与数字化表示图像，在我们看来是连续的画面，但在计算机内部，它却是离散的数值矩阵。1.1.1什么是像素？图像的最小单元像素（Pixel），是构成数字图像的最小单位。可以将其想象成一个微小的彩色点。一张数字
最新1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，欢迎大家！研究概述：本研究首先使用R语言在三个基因表达数据集中找到
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

Graphviz安装及使用：决策树可视化

Python大数据分析与机器学习学习笔记

1、决策树模型搭建

2、graphviz插件安装与环境变量部署

3、在Python中使用graphviz

你可能感兴趣的:(数学建模,Python,可视化,python,决策树,graphviz,机器学习)